Comparação de métodos de classificação em dados de espectroscopia NIR

Detalhes bibliográficos
Autor(a) principal: Dias, Cristina Silva
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: LOCUS Repositório Institucional da UFV
Texto Completo: https://locus.ufv.br//handle/123456789/28617
Resumo: A crescente demanda de biomassa para produção de energia e etanol de segunda geração tem impulsionado a seleção de cultivares de cana-de-açúcar com maiores teores de fibra e sacarose aparente. Nesse sentido, torna-se importante buscar métodos de classificação aliados a técnica de espectroscopia do infravermelho próximo (NIR) para facilitar a seleção desses indivíduos. O objetivo desse trabalho é comparar os métodos de classificação: Análise Discriminante por Quadrados Mínimos Parciais (PLS-DA), Máquinas de Vetores de Suporte (SVM) e Florestas Aleatórias (RF) para verificar qual deles apresenta um melhor desempenho para a classificação dessas propriedades a partir de dados de espectroscopia NIR. Foi utilizado um conjunto de dados NIR composto por 460 amostras para classificação de fibra (FIB) e sacarose aparente (PC). A análise foi realizada em duas etapas. Na primeira etapa o conjunto de dados foi separado em conjunto treino e conjunto teste via algoritmo Kernard-Stone para a escolha dos pré-tratamentos. Na segunda etapa foi utilizado o pré-tratamento selecionado para cada método, separando novamente o conjunto original (460 amostras) em conjunto de treino e conjunto de teste, de forma aleatória com 10 repetições. Após todos os procedimentos, os resultados obtidos na comparação dos métodos mostraram que o PLS-DA e o SVM não apresentam diferença significativa (p ≥ 0,05) e ambos diferiram do RF para a classificação das propriedades %PC e %FIB (p < 0,05). Foram avaliados os parâmetros de erro de classificação, sensibilidade e especificidade. Para todos esses parâmetros o PLS-DA e o SVM foram mais satisfatórios que o RF, pois apresentaram menores valores de erro de classificação e maiores valores para sensibilidade e especificidade podendo, assim, serem considerados métodos eficazes para classificação do dado de espectroscopia NIR utilizados nesse trabalho. Palavras-chave: Cana-de-açúcar. Máquinas de Vetor Suporte. Floresta Aleatória. Análise Discriminante por Quadrados Mínimos Parciais. Infravermelho Próximo.
id UFV_c7d3c7e707ff23721dfb447f4d47b055
oai_identifier_str oai:locus.ufv.br:123456789/28617
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str 2145
spelling Dias, Cristina Silvahttp://lattes.cnpq.br/4392053404888343Peternelli, Luiz Alexandre2022-02-03T13:54:08Z2022-02-03T13:54:08Z2020-06-25DIAS, Cristina Silva. Comparação de métodos de classificação em dados de espectroscopia NIR. 2020. 44 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020.https://locus.ufv.br//handle/123456789/28617A crescente demanda de biomassa para produção de energia e etanol de segunda geração tem impulsionado a seleção de cultivares de cana-de-açúcar com maiores teores de fibra e sacarose aparente. Nesse sentido, torna-se importante buscar métodos de classificação aliados a técnica de espectroscopia do infravermelho próximo (NIR) para facilitar a seleção desses indivíduos. O objetivo desse trabalho é comparar os métodos de classificação: Análise Discriminante por Quadrados Mínimos Parciais (PLS-DA), Máquinas de Vetores de Suporte (SVM) e Florestas Aleatórias (RF) para verificar qual deles apresenta um melhor desempenho para a classificação dessas propriedades a partir de dados de espectroscopia NIR. Foi utilizado um conjunto de dados NIR composto por 460 amostras para classificação de fibra (FIB) e sacarose aparente (PC). A análise foi realizada em duas etapas. Na primeira etapa o conjunto de dados foi separado em conjunto treino e conjunto teste via algoritmo Kernard-Stone para a escolha dos pré-tratamentos. Na segunda etapa foi utilizado o pré-tratamento selecionado para cada método, separando novamente o conjunto original (460 amostras) em conjunto de treino e conjunto de teste, de forma aleatória com 10 repetições. Após todos os procedimentos, os resultados obtidos na comparação dos métodos mostraram que o PLS-DA e o SVM não apresentam diferença significativa (p ≥ 0,05) e ambos diferiram do RF para a classificação das propriedades %PC e %FIB (p < 0,05). Foram avaliados os parâmetros de erro de classificação, sensibilidade e especificidade. Para todos esses parâmetros o PLS-DA e o SVM foram mais satisfatórios que o RF, pois apresentaram menores valores de erro de classificação e maiores valores para sensibilidade e especificidade podendo, assim, serem considerados métodos eficazes para classificação do dado de espectroscopia NIR utilizados nesse trabalho. Palavras-chave: Cana-de-açúcar. Máquinas de Vetor Suporte. Floresta Aleatória. Análise Discriminante por Quadrados Mínimos Parciais. Infravermelho Próximo.The growing demand for biomass for power generation and second-generation ethanol has driven the selection of sugarcane cultivars with higher fiber and apparent sucrose levels. In this sense, it is crucial to seek classification methods combined with near-infrared spectroscopy (NIR) to facilitate the desired selection. The objective of this work is to compare the classification methods: Discriminant Analysis by Partial Least Squares (PLS-DA), Support Vector Machines (SVM), and Random Forests (RF) to see which one performs better for the classification of these properties from NIR spectroscopy data. A set of NIR data composed of 460 samples was used, classified as fiber (FIB) and apparent sucrose (PC). We performed the analysis in two stages. In the first stage, the data set was separated into training and test sets via the Kernard-Stone algorithm to choose pre-treatments. The pre-treatment selected for each method was used in the second stage, separating the original set (460 samples) again into a training set and test set, randomly with ten repetitions. After all the procedures, the results obtained in the comparison of the methods indicated that PLS-DA and SVM do not present significant differences (p ≥ 0.05) and both differed from RF for the classification of properties %PC and %FIB (p < 0.05). We evaluated the classification error, sensitivity, and specificity among these methods. PLS-DA and SVM were more satisfactory for all these parameters than RF since the former presented lower classification errors and higher values of sensitivity and specificity. Therefore, these methods can be considered useful for classifying the NIR spectroscopy data used in this work. Keywords: Sugarcane. Support Vector Machines. Random Forest. Partial Least Squares Discriminant Analysis. Near Infrared.porUniversidade Federal de ViçosaCana-de-açúcar - Métodos estatísticosMáquinas de vetor suporteEspectroscopia de infravermelhoEstatísticaComparação de métodos de classificação em dados de espectroscopia NIRComparison of classification methods in NIR spectroscopy datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de EstatísticaMestre em Estatística Aplicada e BiometriaViçosa - MG2020-06-25Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1082165https://locus.ufv.br//bitstream/123456789/28617/1/texto%20completo.pdfd2475df3b60dbc8de0887ccbece2bb42MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/28617/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/286172022-02-03 10:55:07.156oai:locus.ufv.br:123456789/28617Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-02-03T13:55:07LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv Comparação de métodos de classificação em dados de espectroscopia NIR
dc.title.en.fl_str_mv Comparison of classification methods in NIR spectroscopy data
title Comparação de métodos de classificação em dados de espectroscopia NIR
spellingShingle Comparação de métodos de classificação em dados de espectroscopia NIR
Dias, Cristina Silva
Cana-de-açúcar - Métodos estatísticos
Máquinas de vetor suporte
Espectroscopia de infravermelho
Estatística
title_short Comparação de métodos de classificação em dados de espectroscopia NIR
title_full Comparação de métodos de classificação em dados de espectroscopia NIR
title_fullStr Comparação de métodos de classificação em dados de espectroscopia NIR
title_full_unstemmed Comparação de métodos de classificação em dados de espectroscopia NIR
title_sort Comparação de métodos de classificação em dados de espectroscopia NIR
author Dias, Cristina Silva
author_facet Dias, Cristina Silva
author_role author
dc.contributor.authorLattes.pt-BR.fl_str_mv http://lattes.cnpq.br/4392053404888343
dc.contributor.author.fl_str_mv Dias, Cristina Silva
dc.contributor.advisor1.fl_str_mv Peternelli, Luiz Alexandre
contributor_str_mv Peternelli, Luiz Alexandre
dc.subject.pt-BR.fl_str_mv Cana-de-açúcar - Métodos estatísticos
Máquinas de vetor suporte
Espectroscopia de infravermelho
topic Cana-de-açúcar - Métodos estatísticos
Máquinas de vetor suporte
Espectroscopia de infravermelho
Estatística
dc.subject.cnpq.fl_str_mv Estatística
description A crescente demanda de biomassa para produção de energia e etanol de segunda geração tem impulsionado a seleção de cultivares de cana-de-açúcar com maiores teores de fibra e sacarose aparente. Nesse sentido, torna-se importante buscar métodos de classificação aliados a técnica de espectroscopia do infravermelho próximo (NIR) para facilitar a seleção desses indivíduos. O objetivo desse trabalho é comparar os métodos de classificação: Análise Discriminante por Quadrados Mínimos Parciais (PLS-DA), Máquinas de Vetores de Suporte (SVM) e Florestas Aleatórias (RF) para verificar qual deles apresenta um melhor desempenho para a classificação dessas propriedades a partir de dados de espectroscopia NIR. Foi utilizado um conjunto de dados NIR composto por 460 amostras para classificação de fibra (FIB) e sacarose aparente (PC). A análise foi realizada em duas etapas. Na primeira etapa o conjunto de dados foi separado em conjunto treino e conjunto teste via algoritmo Kernard-Stone para a escolha dos pré-tratamentos. Na segunda etapa foi utilizado o pré-tratamento selecionado para cada método, separando novamente o conjunto original (460 amostras) em conjunto de treino e conjunto de teste, de forma aleatória com 10 repetições. Após todos os procedimentos, os resultados obtidos na comparação dos métodos mostraram que o PLS-DA e o SVM não apresentam diferença significativa (p ≥ 0,05) e ambos diferiram do RF para a classificação das propriedades %PC e %FIB (p < 0,05). Foram avaliados os parâmetros de erro de classificação, sensibilidade e especificidade. Para todos esses parâmetros o PLS-DA e o SVM foram mais satisfatórios que o RF, pois apresentaram menores valores de erro de classificação e maiores valores para sensibilidade e especificidade podendo, assim, serem considerados métodos eficazes para classificação do dado de espectroscopia NIR utilizados nesse trabalho. Palavras-chave: Cana-de-açúcar. Máquinas de Vetor Suporte. Floresta Aleatória. Análise Discriminante por Quadrados Mínimos Parciais. Infravermelho Próximo.
publishDate 2020
dc.date.issued.fl_str_mv 2020-06-25
dc.date.accessioned.fl_str_mv 2022-02-03T13:54:08Z
dc.date.available.fl_str_mv 2022-02-03T13:54:08Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv DIAS, Cristina Silva. Comparação de métodos de classificação em dados de espectroscopia NIR. 2020. 44 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020.
dc.identifier.uri.fl_str_mv https://locus.ufv.br//handle/123456789/28617
identifier_str_mv DIAS, Cristina Silva. Comparação de métodos de classificação em dados de espectroscopia NIR. 2020. 44 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020.
url https://locus.ufv.br//handle/123456789/28617
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/28617/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/28617/2/license.txt
bitstream.checksum.fl_str_mv d2475df3b60dbc8de0887ccbece2bb42
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1801213117920706560