Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR

Ferreira, Roberta de Amorim

Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR

Detalhes bibliográficos
Autor(a) principal:	Ferreira, Roberta de Amorim
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	LOCUS Repositório Institucional da UFV
Texto Completo:	http://www.locus.ufv.br/handle/123456789/20073
Resumo:	Muitas áreas de pesquisa possuem conjuntos de dados com os desafios da alta dimensionalidade e multicolinearidade a serem superados, de modo que métodos específicos para ajuste do modelo devem ser empregados. Embora os métodos existentes sejam eficientes para construção do modelo, frequentemente se faz necessário selecionar as variáveis mais importantes em explicar o modelo, visto que essa prática pode aumentar sua capacidade preditiva, diminuir custos e tempo das análises. Esse trabalho teve como objetivo principal avaliar e construir modelos empregando três métodos de seleção de variáveis aplicados a dados de marcadores SNPs (Single Nucleotide Polymorphisms) e a dados de espectroscopia no infravermelho próximo (NIR), além de avaliar a melhoria na qualidade de predição, quando comparado ao uso dos dados completos. Os métodos avaliados foram o de seleção dos preditores ordenados associado a regressão por quadrados mínimos parciais (PLS-OPS), o Sparce partial least Square (SPLS) e o Lasso bayesiano (BLASSO) supervisionado, este último é uma adaptação do método BLASSO com a vantagem de selecionar as variáveis. Foram utlizados conjuntos de dados simulados compostos por 100 amostras e 500 marcadores SNPs avaliados em dois cenários que diferem entre si no vetor de coeficientes de regressão utilizado e quatro conjuntos de dados reais, sendo um de SNPs e três de dados NIR. Usou-se o software R para a modelagem dos dados. As amostras foram separadas em conjuntos de treinamento e de teste via algoritmo de Kennard e Stone. A qualidade preditiva do modelo foi avaliada com base no coeficiente médio de correlação (r) entre valores preditos e reais, e a raiz quadrada do erro quadrático médio (RMSE). No conjunto de dados simulados avaliado no primeiro cenário, havia 52 marcadores de maiores efeitos. Os modelos usando o BLASSO supervisionado, o SPLS e o PLS-OPS selecionaram, respectivamente, em média, 100, 310 e 124 variáveis. Em termos de capacidade preditiva os modelos após seleção foram semelhantes quando comparados ao uso dos dados completos. No segundo cenário, 10 marcadores de menor efeito foram escolhidos para serem significativos. Nesse cenário, para escolha do número de variáveis a serem selecionadas pelo BLASSO supervisionado utilizou-se dois critérios: no primeiro 20% das variáveis foram selecionadas, e no segundo o número de variáveis selecionadas eram iguais ao do SPLS e do PLS-OPS. Em média os modelos apresentaram um desempenho melhor utlizando a seleção de variáveis em relação aos modelos construídos com os dados completos, sendo o SPLS levemente superior, com r = 0,846 e intervalo de RMSE de menor amplitude. Para a predição da produção de grãos em dados de SNPs, o método BLASSO supervisionado foi superior, com menor valor de RMSE (0,56) e maior valor de r (0,569). O PLS-OPS também apresentou bom desempenho nesse conjunto de dados, atestando o uso deste método para dados dessa natureza. No primeiro conjunto de dados NIR em que foi avaliado o teor de fibra da cana-de-açúcar, de maneira geral os valores de RMSE e de r se mantiveram próximos àqueles obtidos para os dados completos. No segundo conjunto de dados reais NIR em que foi avaliado o teor de lignina da cana-de-açúcar, pode-se observar que os melhores resultados foram obtidos com o método BLASSO supervisionado (RMSE = 0,705 e r = 0,956). No terceiro conjunto de dados reais NIR em que foram avaliadas amostras de repolho roxo, os melhores resultados foram obtidos quando utlizou-se o PLS-OPS (RMSE = 13,05 e r = 0,996). No segundo e terceiro conjuntos de dados NIR avaliados as estatísticas obtidas foram próximas às obtidas com os dados completos, porém com a vantagem de possuir menos variáveis. De maneira geral, os métodos funcionam de forma semelhante, mas cada um exibe vantagens sobre o outro em determinadas situações. Ao utilizarmos os métodos de seleção, podemos observar que os modelos se tornaram mais simples, visto que o número de variáveis reduziu significamente em todos os conjuntos de dados estudados.

Metadados do item

id	UFV_61d3dc57f5a046a304e36837844e5cad
oai_identifier_str	oai:locus.ufv.br:123456789/20073
network_acronym_str	UFV
network_name_str	LOCUS Repositório Institucional da UFV
repository_id_str	2145
spelling	Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIRComparison of selection methods of regression variables applied to genomic data and NIR spectroscopyAnálise dimensionalTeoria bayesiana de descisão estatísticaEspectroscopia de infravermelhoMarcadores genéticosEstatísticaMuitas áreas de pesquisa possuem conjuntos de dados com os desafios da alta dimensionalidade e multicolinearidade a serem superados, de modo que métodos específicos para ajuste do modelo devem ser empregados. Embora os métodos existentes sejam eficientes para construção do modelo, frequentemente se faz necessário selecionar as variáveis mais importantes em explicar o modelo, visto que essa prática pode aumentar sua capacidade preditiva, diminuir custos e tempo das análises. Esse trabalho teve como objetivo principal avaliar e construir modelos empregando três métodos de seleção de variáveis aplicados a dados de marcadores SNPs (Single Nucleotide Polymorphisms) e a dados de espectroscopia no infravermelho próximo (NIR), além de avaliar a melhoria na qualidade de predição, quando comparado ao uso dos dados completos. Os métodos avaliados foram o de seleção dos preditores ordenados associado a regressão por quadrados mínimos parciais (PLS-OPS), o Sparce partial least Square (SPLS) e o Lasso bayesiano (BLASSO) supervisionado, este último é uma adaptação do método BLASSO com a vantagem de selecionar as variáveis. Foram utlizados conjuntos de dados simulados compostos por 100 amostras e 500 marcadores SNPs avaliados em dois cenários que diferem entre si no vetor de coeficientes de regressão utilizado e quatro conjuntos de dados reais, sendo um de SNPs e três de dados NIR. Usou-se o software R para a modelagem dos dados. As amostras foram separadas em conjuntos de treinamento e de teste via algoritmo de Kennard e Stone. A qualidade preditiva do modelo foi avaliada com base no coeficiente médio de correlação (r) entre valores preditos e reais, e a raiz quadrada do erro quadrático médio (RMSE). No conjunto de dados simulados avaliado no primeiro cenário, havia 52 marcadores de maiores efeitos. Os modelos usando o BLASSO supervisionado, o SPLS e o PLS-OPS selecionaram, respectivamente, em média, 100, 310 e 124 variáveis. Em termos de capacidade preditiva os modelos após seleção foram semelhantes quando comparados ao uso dos dados completos. No segundo cenário, 10 marcadores de menor efeito foram escolhidos para serem significativos. Nesse cenário, para escolha do número de variáveis a serem selecionadas pelo BLASSO supervisionado utilizou-se dois critérios: no primeiro 20% das variáveis foram selecionadas, e no segundo o número de variáveis selecionadas eram iguais ao do SPLS e do PLS-OPS. Em média os modelos apresentaram um desempenho melhor utlizando a seleção de variáveis em relação aos modelos construídos com os dados completos, sendo o SPLS levemente superior, com r = 0,846 e intervalo de RMSE de menor amplitude. Para a predição da produção de grãos em dados de SNPs, o método BLASSO supervisionado foi superior, com menor valor de RMSE (0,56) e maior valor de r (0,569). O PLS-OPS também apresentou bom desempenho nesse conjunto de dados, atestando o uso deste método para dados dessa natureza. No primeiro conjunto de dados NIR em que foi avaliado o teor de fibra da cana-de-açúcar, de maneira geral os valores de RMSE e de r se mantiveram próximos àqueles obtidos para os dados completos. No segundo conjunto de dados reais NIR em que foi avaliado o teor de lignina da cana-de-açúcar, pode-se observar que os melhores resultados foram obtidos com o método BLASSO supervisionado (RMSE = 0,705 e r = 0,956). No terceiro conjunto de dados reais NIR em que foram avaliadas amostras de repolho roxo, os melhores resultados foram obtidos quando utlizou-se o PLS-OPS (RMSE = 13,05 e r = 0,996). No segundo e terceiro conjuntos de dados NIR avaliados as estatísticas obtidas foram próximas às obtidas com os dados completos, porém com a vantagem de possuir menos variáveis. De maneira geral, os métodos funcionam de forma semelhante, mas cada um exibe vantagens sobre o outro em determinadas situações. Ao utilizarmos os métodos de seleção, podemos observar que os modelos se tornaram mais simples, visto que o número de variáveis reduziu significamente em todos os conjuntos de dados estudados.Researches from many different areas have data sets with the challenges of high dimensionality and multicollinearity still to be overcome, therefore specific methods for model fit must be employed. Although the existing methods are efficient to construct the model, it is often necessary to select the most important variables in explaining the model, once this practice can increase its predictive capacity, reduce costs, and analysis time. The main objective of this work was to evaluate and construct models using three methods of variable selection applied to single nucleotide polymorphisms (SNPs) and near infrared spectroscopy (NIR) data, besides evaluating the improvement in prediction quality, when compared to the use of complete data. The methods evaluated were: the selection of ordered predictors associated with partial least squares regression (PLS-OPS); the Sparce partial least square (SPLS); and the supervised Bayesian Lasso (BLASSO) – the last one is an adaptation of the BLASSO method with advantage of selecting variables. Were used simulated data sets composed of 100 samples and 500 SNP markers evaluated in two scenarios that differ from one another in the regression coefficient vector used, and four real data sets – composed by one set of SNPs and three sets of NIR data. It was used the software R in order to model the data. Samples were separated into training and test sets via Kennard and Stone algorithm. The predictive quality of the model was evaluated based on the mean correlation coefficient (r) between predicted and actual values, and the square root mean square error (RMSE). In the simulated data set evaluated in the first scenario, there were 52 markers of greater effects. The models using supervised BLASSO, SPLS and PLS-OPS selected an average of 100, 310 and 124 variables, respectively. In terms of predictive capacity, the models after selection were similar when compared to the use of the complete data. In the second scenario, 10 lower-effect markers were chosen to be significant. In this scenario, two criteria were used to select the number of variables to be selected by supervised BLASSO: in the first 20% of the variables were selected, and in the second, the number of variables selected were the same as SPLS and PLS-OPS. On average, the models presented a better performance when using the variables selection, than in relation to the models constructed with the complete data, once the SPLS was slightly higher – with r = 0.846 and a lower amplitude RMSE interval. For the prediction of grain yield in SNP data, the supervised BLASSO method was superior, with a lower RMSE value (0.56) and a higher r value (0.569). PLS-OPS also performed well in this data set, attesting to the use of this method for data of this nature. In the first set of NIR data in which the sugar cane fiber content was evaluated, the RMSE and r values were, in general, close to those obtained for the complete data. In the second set of real NIR data in which the lignin content of sugarcane was evaluated, it can be observed that the best results were obtained with the supervised BLASSO method (RMSE = 0.705 and r = 0.956). In the third set of real NIR data in which samples of purple cabbage were evaluated, the best results were obtained when PLS-OPS (RMSE = 13.05 and r = 0.996) was used. In the second and third NIR data sets, the statistics obtained were close to those obtained with the complete data, but with the advantage of having fewer variables. In general, the methods used work in a similar way; however, each one of them has advantages over another in specific situations. By using the selection methods, it can be observed that the models have become simpler, once the number of variables reduced significantly in all datasets studied.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal de ViçosaPeternelli, Luiz Alexandrehttp://lattes.cnpq.br/6364173429092431Teófilo, Reinaldo FranciscoFerreira, Roberta de Amorim2018-06-13T16:38:53Z2018-06-13T16:38:53Z2018-02-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfFERREIRA, Roberta de Amorim. Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR. 2018. 53 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2018.http://www.locus.ufv.br/handle/123456789/20073porinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFV2024-07-12T08:02:48Zoai:locus.ufv.br:123456789/20073Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452024-07-12T08:02:48LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.none.fl_str_mv	Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR Comparison of selection methods of regression variables applied to genomic data and NIR spectroscopy
title	Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR
spellingShingle	Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR Ferreira, Roberta de Amorim Análise dimensional Teoria bayesiana de descisão estatística Espectroscopia de infravermelho Marcadores genéticos Estatística
title_short	Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR
title_full	Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR
title_fullStr	Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR
title_full_unstemmed	Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR
title_sort	Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR
author	Ferreira, Roberta de Amorim
author_facet	Ferreira, Roberta de Amorim
author_role	author
dc.contributor.none.fl_str_mv	Peternelli, Luiz Alexandre http://lattes.cnpq.br/6364173429092431 Teófilo, Reinaldo Francisco
dc.contributor.author.fl_str_mv	Ferreira, Roberta de Amorim
dc.subject.por.fl_str_mv	Análise dimensional Teoria bayesiana de descisão estatística Espectroscopia de infravermelho Marcadores genéticos Estatística
topic	Análise dimensional Teoria bayesiana de descisão estatística Espectroscopia de infravermelho Marcadores genéticos Estatística
description	Muitas áreas de pesquisa possuem conjuntos de dados com os desafios da alta dimensionalidade e multicolinearidade a serem superados, de modo que métodos específicos para ajuste do modelo devem ser empregados. Embora os métodos existentes sejam eficientes para construção do modelo, frequentemente se faz necessário selecionar as variáveis mais importantes em explicar o modelo, visto que essa prática pode aumentar sua capacidade preditiva, diminuir custos e tempo das análises. Esse trabalho teve como objetivo principal avaliar e construir modelos empregando três métodos de seleção de variáveis aplicados a dados de marcadores SNPs (Single Nucleotide Polymorphisms) e a dados de espectroscopia no infravermelho próximo (NIR), além de avaliar a melhoria na qualidade de predição, quando comparado ao uso dos dados completos. Os métodos avaliados foram o de seleção dos preditores ordenados associado a regressão por quadrados mínimos parciais (PLS-OPS), o Sparce partial least Square (SPLS) e o Lasso bayesiano (BLASSO) supervisionado, este último é uma adaptação do método BLASSO com a vantagem de selecionar as variáveis. Foram utlizados conjuntos de dados simulados compostos por 100 amostras e 500 marcadores SNPs avaliados em dois cenários que diferem entre si no vetor de coeficientes de regressão utilizado e quatro conjuntos de dados reais, sendo um de SNPs e três de dados NIR. Usou-se o software R para a modelagem dos dados. As amostras foram separadas em conjuntos de treinamento e de teste via algoritmo de Kennard e Stone. A qualidade preditiva do modelo foi avaliada com base no coeficiente médio de correlação (r) entre valores preditos e reais, e a raiz quadrada do erro quadrático médio (RMSE). No conjunto de dados simulados avaliado no primeiro cenário, havia 52 marcadores de maiores efeitos. Os modelos usando o BLASSO supervisionado, o SPLS e o PLS-OPS selecionaram, respectivamente, em média, 100, 310 e 124 variáveis. Em termos de capacidade preditiva os modelos após seleção foram semelhantes quando comparados ao uso dos dados completos. No segundo cenário, 10 marcadores de menor efeito foram escolhidos para serem significativos. Nesse cenário, para escolha do número de variáveis a serem selecionadas pelo BLASSO supervisionado utilizou-se dois critérios: no primeiro 20% das variáveis foram selecionadas, e no segundo o número de variáveis selecionadas eram iguais ao do SPLS e do PLS-OPS. Em média os modelos apresentaram um desempenho melhor utlizando a seleção de variáveis em relação aos modelos construídos com os dados completos, sendo o SPLS levemente superior, com r = 0,846 e intervalo de RMSE de menor amplitude. Para a predição da produção de grãos em dados de SNPs, o método BLASSO supervisionado foi superior, com menor valor de RMSE (0,56) e maior valor de r (0,569). O PLS-OPS também apresentou bom desempenho nesse conjunto de dados, atestando o uso deste método para dados dessa natureza. No primeiro conjunto de dados NIR em que foi avaliado o teor de fibra da cana-de-açúcar, de maneira geral os valores de RMSE e de r se mantiveram próximos àqueles obtidos para os dados completos. No segundo conjunto de dados reais NIR em que foi avaliado o teor de lignina da cana-de-açúcar, pode-se observar que os melhores resultados foram obtidos com o método BLASSO supervisionado (RMSE = 0,705 e r = 0,956). No terceiro conjunto de dados reais NIR em que foram avaliadas amostras de repolho roxo, os melhores resultados foram obtidos quando utlizou-se o PLS-OPS (RMSE = 13,05 e r = 0,996). No segundo e terceiro conjuntos de dados NIR avaliados as estatísticas obtidas foram próximas às obtidas com os dados completos, porém com a vantagem de possuir menos variáveis. De maneira geral, os métodos funcionam de forma semelhante, mas cada um exibe vantagens sobre o outro em determinadas situações. Ao utilizarmos os métodos de seleção, podemos observar que os modelos se tornaram mais simples, visto que o número de variáveis reduziu significamente em todos os conjuntos de dados estudados.
publishDate	2018
dc.date.none.fl_str_mv	2018-06-13T16:38:53Z 2018-06-13T16:38:53Z 2018-02-21
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	FERREIRA, Roberta de Amorim. Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR. 2018. 53 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2018. http://www.locus.ufv.br/handle/123456789/20073
identifier_str_mv	FERREIRA, Roberta de Amorim. Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR. 2018. 53 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2018.
url	http://www.locus.ufv.br/handle/123456789/20073
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de Viçosa
publisher.none.fl_str_mv	Universidade Federal de Viçosa
dc.source.none.fl_str_mv	reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV
instname_str	Universidade Federal de Viçosa (UFV)
instacron_str	UFV
institution	UFV
reponame_str	LOCUS Repositório Institucional da UFV
collection	LOCUS Repositório Institucional da UFV
repository.name.fl_str_mv	LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv	fabiojreis@ufv.br
_version_	1822610684836315136

Comparação de métodos de seleção de variáveis em regressão aplicados a dados genômicos e de espectroscopia NIR

Registros relacionados