Comparação de métodos de classificação em dados de espectroscopia NIR
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | https://locus.ufv.br//handle/123456789/28617 |
Resumo: | A crescente demanda de biomassa para produção de energia e etanol de segunda geração tem impulsionado a seleção de cultivares de cana-de-açúcar com maiores teores de fibra e sacarose aparente. Nesse sentido, torna-se importante buscar métodos de classificação aliados a técnica de espectroscopia do infravermelho próximo (NIR) para facilitar a seleção desses indivíduos. O objetivo desse trabalho é comparar os métodos de classificação: Análise Discriminante por Quadrados Mínimos Parciais (PLS-DA), Máquinas de Vetores de Suporte (SVM) e Florestas Aleatórias (RF) para verificar qual deles apresenta um melhor desempenho para a classificação dessas propriedades a partir de dados de espectroscopia NIR. Foi utilizado um conjunto de dados NIR composto por 460 amostras para classificação de fibra (FIB) e sacarose aparente (PC). A análise foi realizada em duas etapas. Na primeira etapa o conjunto de dados foi separado em conjunto treino e conjunto teste via algoritmo Kernard-Stone para a escolha dos pré-tratamentos. Na segunda etapa foi utilizado o pré-tratamento selecionado para cada método, separando novamente o conjunto original (460 amostras) em conjunto de treino e conjunto de teste, de forma aleatória com 10 repetições. Após todos os procedimentos, os resultados obtidos na comparação dos métodos mostraram que o PLS-DA e o SVM não apresentam diferença significativa (p ≥ 0,05) e ambos diferiram do RF para a classificação das propriedades %PC e %FIB (p < 0,05). Foram avaliados os parâmetros de erro de classificação, sensibilidade e especificidade. Para todos esses parâmetros o PLS-DA e o SVM foram mais satisfatórios que o RF, pois apresentaram menores valores de erro de classificação e maiores valores para sensibilidade e especificidade podendo, assim, serem considerados métodos eficazes para classificação do dado de espectroscopia NIR utilizados nesse trabalho. Palavras-chave: Cana-de-açúcar. Máquinas de Vetor Suporte. Floresta Aleatória. Análise Discriminante por Quadrados Mínimos Parciais. Infravermelho Próximo. |
id |
UFV_c7d3c7e707ff23721dfb447f4d47b055 |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/28617 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Dias, Cristina Silvahttp://lattes.cnpq.br/4392053404888343Peternelli, Luiz Alexandre2022-02-03T13:54:08Z2022-02-03T13:54:08Z2020-06-25DIAS, Cristina Silva. Comparação de métodos de classificação em dados de espectroscopia NIR. 2020. 44 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020.https://locus.ufv.br//handle/123456789/28617A crescente demanda de biomassa para produção de energia e etanol de segunda geração tem impulsionado a seleção de cultivares de cana-de-açúcar com maiores teores de fibra e sacarose aparente. Nesse sentido, torna-se importante buscar métodos de classificação aliados a técnica de espectroscopia do infravermelho próximo (NIR) para facilitar a seleção desses indivíduos. O objetivo desse trabalho é comparar os métodos de classificação: Análise Discriminante por Quadrados Mínimos Parciais (PLS-DA), Máquinas de Vetores de Suporte (SVM) e Florestas Aleatórias (RF) para verificar qual deles apresenta um melhor desempenho para a classificação dessas propriedades a partir de dados de espectroscopia NIR. Foi utilizado um conjunto de dados NIR composto por 460 amostras para classificação de fibra (FIB) e sacarose aparente (PC). A análise foi realizada em duas etapas. Na primeira etapa o conjunto de dados foi separado em conjunto treino e conjunto teste via algoritmo Kernard-Stone para a escolha dos pré-tratamentos. Na segunda etapa foi utilizado o pré-tratamento selecionado para cada método, separando novamente o conjunto original (460 amostras) em conjunto de treino e conjunto de teste, de forma aleatória com 10 repetições. Após todos os procedimentos, os resultados obtidos na comparação dos métodos mostraram que o PLS-DA e o SVM não apresentam diferença significativa (p ≥ 0,05) e ambos diferiram do RF para a classificação das propriedades %PC e %FIB (p < 0,05). Foram avaliados os parâmetros de erro de classificação, sensibilidade e especificidade. Para todos esses parâmetros o PLS-DA e o SVM foram mais satisfatórios que o RF, pois apresentaram menores valores de erro de classificação e maiores valores para sensibilidade e especificidade podendo, assim, serem considerados métodos eficazes para classificação do dado de espectroscopia NIR utilizados nesse trabalho. Palavras-chave: Cana-de-açúcar. Máquinas de Vetor Suporte. Floresta Aleatória. Análise Discriminante por Quadrados Mínimos Parciais. Infravermelho Próximo.The growing demand for biomass for power generation and second-generation ethanol has driven the selection of sugarcane cultivars with higher fiber and apparent sucrose levels. In this sense, it is crucial to seek classification methods combined with near-infrared spectroscopy (NIR) to facilitate the desired selection. The objective of this work is to compare the classification methods: Discriminant Analysis by Partial Least Squares (PLS-DA), Support Vector Machines (SVM), and Random Forests (RF) to see which one performs better for the classification of these properties from NIR spectroscopy data. A set of NIR data composed of 460 samples was used, classified as fiber (FIB) and apparent sucrose (PC). We performed the analysis in two stages. In the first stage, the data set was separated into training and test sets via the Kernard-Stone algorithm to choose pre-treatments. The pre-treatment selected for each method was used in the second stage, separating the original set (460 samples) again into a training set and test set, randomly with ten repetitions. After all the procedures, the results obtained in the comparison of the methods indicated that PLS-DA and SVM do not present significant differences (p ≥ 0.05) and both differed from RF for the classification of properties %PC and %FIB (p < 0.05). We evaluated the classification error, sensitivity, and specificity among these methods. PLS-DA and SVM were more satisfactory for all these parameters than RF since the former presented lower classification errors and higher values of sensitivity and specificity. Therefore, these methods can be considered useful for classifying the NIR spectroscopy data used in this work. Keywords: Sugarcane. Support Vector Machines. Random Forest. Partial Least Squares Discriminant Analysis. Near Infrared.porUniversidade Federal de ViçosaCana-de-açúcar - Métodos estatísticosMáquinas de vetor suporteEspectroscopia de infravermelhoEstatísticaComparação de métodos de classificação em dados de espectroscopia NIRComparison of classification methods in NIR spectroscopy datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de EstatísticaMestre em Estatística Aplicada e BiometriaViçosa - MG2020-06-25Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1082165https://locus.ufv.br//bitstream/123456789/28617/1/texto%20completo.pdfd2475df3b60dbc8de0887ccbece2bb42MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/28617/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/286172022-02-03 10:55:07.156oai:locus.ufv.br:123456789/28617Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-02-03T13:55:07LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.pt-BR.fl_str_mv |
Comparação de métodos de classificação em dados de espectroscopia NIR |
dc.title.en.fl_str_mv |
Comparison of classification methods in NIR spectroscopy data |
title |
Comparação de métodos de classificação em dados de espectroscopia NIR |
spellingShingle |
Comparação de métodos de classificação em dados de espectroscopia NIR Dias, Cristina Silva Cana-de-açúcar - Métodos estatísticos Máquinas de vetor suporte Espectroscopia de infravermelho Estatística |
title_short |
Comparação de métodos de classificação em dados de espectroscopia NIR |
title_full |
Comparação de métodos de classificação em dados de espectroscopia NIR |
title_fullStr |
Comparação de métodos de classificação em dados de espectroscopia NIR |
title_full_unstemmed |
Comparação de métodos de classificação em dados de espectroscopia NIR |
title_sort |
Comparação de métodos de classificação em dados de espectroscopia NIR |
author |
Dias, Cristina Silva |
author_facet |
Dias, Cristina Silva |
author_role |
author |
dc.contributor.authorLattes.pt-BR.fl_str_mv |
http://lattes.cnpq.br/4392053404888343 |
dc.contributor.author.fl_str_mv |
Dias, Cristina Silva |
dc.contributor.advisor1.fl_str_mv |
Peternelli, Luiz Alexandre |
contributor_str_mv |
Peternelli, Luiz Alexandre |
dc.subject.pt-BR.fl_str_mv |
Cana-de-açúcar - Métodos estatísticos Máquinas de vetor suporte Espectroscopia de infravermelho |
topic |
Cana-de-açúcar - Métodos estatísticos Máquinas de vetor suporte Espectroscopia de infravermelho Estatística |
dc.subject.cnpq.fl_str_mv |
Estatística |
description |
A crescente demanda de biomassa para produção de energia e etanol de segunda geração tem impulsionado a seleção de cultivares de cana-de-açúcar com maiores teores de fibra e sacarose aparente. Nesse sentido, torna-se importante buscar métodos de classificação aliados a técnica de espectroscopia do infravermelho próximo (NIR) para facilitar a seleção desses indivíduos. O objetivo desse trabalho é comparar os métodos de classificação: Análise Discriminante por Quadrados Mínimos Parciais (PLS-DA), Máquinas de Vetores de Suporte (SVM) e Florestas Aleatórias (RF) para verificar qual deles apresenta um melhor desempenho para a classificação dessas propriedades a partir de dados de espectroscopia NIR. Foi utilizado um conjunto de dados NIR composto por 460 amostras para classificação de fibra (FIB) e sacarose aparente (PC). A análise foi realizada em duas etapas. Na primeira etapa o conjunto de dados foi separado em conjunto treino e conjunto teste via algoritmo Kernard-Stone para a escolha dos pré-tratamentos. Na segunda etapa foi utilizado o pré-tratamento selecionado para cada método, separando novamente o conjunto original (460 amostras) em conjunto de treino e conjunto de teste, de forma aleatória com 10 repetições. Após todos os procedimentos, os resultados obtidos na comparação dos métodos mostraram que o PLS-DA e o SVM não apresentam diferença significativa (p ≥ 0,05) e ambos diferiram do RF para a classificação das propriedades %PC e %FIB (p < 0,05). Foram avaliados os parâmetros de erro de classificação, sensibilidade e especificidade. Para todos esses parâmetros o PLS-DA e o SVM foram mais satisfatórios que o RF, pois apresentaram menores valores de erro de classificação e maiores valores para sensibilidade e especificidade podendo, assim, serem considerados métodos eficazes para classificação do dado de espectroscopia NIR utilizados nesse trabalho. Palavras-chave: Cana-de-açúcar. Máquinas de Vetor Suporte. Floresta Aleatória. Análise Discriminante por Quadrados Mínimos Parciais. Infravermelho Próximo. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020-06-25 |
dc.date.accessioned.fl_str_mv |
2022-02-03T13:54:08Z |
dc.date.available.fl_str_mv |
2022-02-03T13:54:08Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
DIAS, Cristina Silva. Comparação de métodos de classificação em dados de espectroscopia NIR. 2020. 44 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020. |
dc.identifier.uri.fl_str_mv |
https://locus.ufv.br//handle/123456789/28617 |
identifier_str_mv |
DIAS, Cristina Silva. Comparação de métodos de classificação em dados de espectroscopia NIR. 2020. 44 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa. 2020. |
url |
https://locus.ufv.br//handle/123456789/28617 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/28617/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/28617/2/license.txt |
bitstream.checksum.fl_str_mv |
d2475df3b60dbc8de0887ccbece2bb42 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801213117920706560 |