Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica

Detalhes bibliográficos
Autor(a) principal: Lemes, André Luis Guimarães
Data de Publicação: 2014
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/6596
Resumo: Atualmente o Brasil é o maior produtor mundial de café, sendo responsável por 33,6% da produção mundial. O café pertence ao gênero Coffea, e família Rubiacea. Suas espécies arábica e canéfora (robusta) têm grande importância econômica mundial, sendo a arábica responsável por 90% da produção. Além da espécie, o genótipo do café também influencia na qualidade da bebida. O objetivo deste projeto foi desenvolver uma metodologia capaz de discriminar os diferentes genótipos de café arábica cultivados no Brasil e identificar sua região de origem. Setenta e quatro amostras de grãos verdes de 20 genótipos do café arábica, cultivados nas cidades de Mandaguari, Londrina, Paranavaí e Cornélio Procópio foram fornecidos pelo IAPAR (Londrina – PR). Foram obtidos espectros das amostras por espectroscopia de infravermelho com transformada de Fourier (FTIR). Após a realização dos pré-tratamentos dos dados, foram criados modelos de dois estágios: um estágio linear e outro não linear. No primeiro estágio do modelo de classificação foram empregados a análise de componentes principais (ACP) e o método de mínimos quadrados parciais com análise discriminante (PLS-DA) com o objetivo de reduzir a dimensionalidade dos dados. Com a realização do PLS-DA, também foi possível realizar a classificação das amostras, proporcionando uma posterior comparação entre o modelo linear e o modelo de dois estágios. Na criação do segundo estágio do modelo, foi utilizada uma rede neural artificial denominada de rede de funções de base radial de regularização (RBF de regularização). Na etapa de construção das redes neurais, uma série de parâmetros deveriam ser escolhidos, e para isto utilizou-se método simplex sequencial para otimização dos mesmos. Na classificação geográfica, o melhor modelo foi o PLS-DA utilizando a faixa espectral entre 750 e 3750 cm-1 com os dados puros, pois além de classificar corretamente 100% das amostra, teve melhor performance calculada através dos limiares estabelecidos pelo teorema de Bayes. Na classificação genotípica, o melhor modelo encontrado foi o modelo de dois estágios que utilizou a faixa espectral entre 800 e 1900 cm-1 com a primeira derivada dos dados e PLS-DA como primeiro estágio. Esse modelo foi capaz de classificar corretamente 89,04% das amostras de teste, e obteve melhor performance calculada através do teorema de Bayes. Mesmo realizando uma classificação geográfica correta de 100% das amostras, a performance de Bayes mostrou que os modelos ainda devem ser modificados na tentativa de encontrar melhores resultados de sensibilidade e especificidade e diminuir o número de amostras na região de rejeição.
id UTFPR-12_5a2bf058e2cdbb0bd28bc65305842262
oai_identifier_str oai:repositorio.utfpr.edu.br:1/6596
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2020-11-10T12:23:16Z2020-11-10T12:23:16Z2014-08-04LEMES, André Luis Guimarães. Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica. 2014. 58 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2014.http://repositorio.utfpr.edu.br/jspui/handle/1/6596Atualmente o Brasil é o maior produtor mundial de café, sendo responsável por 33,6% da produção mundial. O café pertence ao gênero Coffea, e família Rubiacea. Suas espécies arábica e canéfora (robusta) têm grande importância econômica mundial, sendo a arábica responsável por 90% da produção. Além da espécie, o genótipo do café também influencia na qualidade da bebida. O objetivo deste projeto foi desenvolver uma metodologia capaz de discriminar os diferentes genótipos de café arábica cultivados no Brasil e identificar sua região de origem. Setenta e quatro amostras de grãos verdes de 20 genótipos do café arábica, cultivados nas cidades de Mandaguari, Londrina, Paranavaí e Cornélio Procópio foram fornecidos pelo IAPAR (Londrina – PR). Foram obtidos espectros das amostras por espectroscopia de infravermelho com transformada de Fourier (FTIR). Após a realização dos pré-tratamentos dos dados, foram criados modelos de dois estágios: um estágio linear e outro não linear. No primeiro estágio do modelo de classificação foram empregados a análise de componentes principais (ACP) e o método de mínimos quadrados parciais com análise discriminante (PLS-DA) com o objetivo de reduzir a dimensionalidade dos dados. Com a realização do PLS-DA, também foi possível realizar a classificação das amostras, proporcionando uma posterior comparação entre o modelo linear e o modelo de dois estágios. Na criação do segundo estágio do modelo, foi utilizada uma rede neural artificial denominada de rede de funções de base radial de regularização (RBF de regularização). Na etapa de construção das redes neurais, uma série de parâmetros deveriam ser escolhidos, e para isto utilizou-se método simplex sequencial para otimização dos mesmos. Na classificação geográfica, o melhor modelo foi o PLS-DA utilizando a faixa espectral entre 750 e 3750 cm-1 com os dados puros, pois além de classificar corretamente 100% das amostra, teve melhor performance calculada através dos limiares estabelecidos pelo teorema de Bayes. Na classificação genotípica, o melhor modelo encontrado foi o modelo de dois estágios que utilizou a faixa espectral entre 800 e 1900 cm-1 com a primeira derivada dos dados e PLS-DA como primeiro estágio. Esse modelo foi capaz de classificar corretamente 89,04% das amostras de teste, e obteve melhor performance calculada através do teorema de Bayes. Mesmo realizando uma classificação geográfica correta de 100% das amostras, a performance de Bayes mostrou que os modelos ainda devem ser modificados na tentativa de encontrar melhores resultados de sensibilidade e especificidade e diminuir o número de amostras na região de rejeição.Currently, Brazil is the largest producer of coffee, accounting for 33.6% of world production. The coffee belongs to the Coffea genus, from Rubiaceae family. The arabica and canephora (robust) species have great global economic importance, being the arabica responsible for 90% of production. In addition to the species, the coffee genotype also influences the quality of the beverage. The objective of this project was to develop a methodology to discriminate the different genotypes of arabica coffee, and also identify the cultivation region. Seventy-four samples of green beans of 20 genotypes of arabica coffee, grown in the cities of Mandaguari, Londrina, Paranavaí and Cornélio Procópio were provided by IAPAR (Londrina-PR). Spectra of samples were obtained by infrared spectroscopy with Fourier transform (FTIR). So, two-stage models were created using a first linear stage and a second nonlinear one. For the linear stage it was used the principal component analysis (PCA) and partial least squares method with discriminant analysis (PLS-DA). With PLS-DA, it was also possible to perform the classification of samples, providing a further comparison between the linear model and the two-stage model. For the second stage of the model it was used a regularized radial basis functions artificial neural network (RBF-R). In neural networks construction several parameters should be optimized and, in this work the sequential simplex method was used for this purpose. For geographical classification, the best model was the PLS-DA using the raw spectra in the range of 750 and 3750 cm-1. The obtained model classify correctly 100% of the samples and, had better performance confirmed by the thresholds established by Bayes' theorem. In genotypic classification, the best model found was the two-stage one using the first derivative of spectra in the range between 800 and 1900 cm-1 and PLS-DA as first stage. This model was able to correctly classify 89.04% of test specimens, and obtained better performance based on Bayes' theorem. Even performing a 100% correct geographical classification of samples, Bayes' inference showed that the models should still be modified in an attempt to find better results for sensitivity and specificity, and decrease the number of samples in the rejection region.CNPq e Fundação AraucáriaporUniversidade Tecnológica Federal do ParanáCampo MouraoDepartamento de Engenharia e Tecnologia de AlimentosEngenharia de AlimentosEspectroscopia de infravermelhoAnálise de componentes principaisRedes neurais (Computação)Mínimos quadradosCaféInfrared spectroscopyPrincipal components analysisNeural networks (Computer science)Least squaresCoffeeAplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábicainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisCampo MourãoBona, EvandroLemes, André Luis Guimarãesreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRinfo:eu-repo/semantics/openAccessTHUMBNAILCM_COEAL_2014_1_01.pdf.jpgGenerated Thumbnailimage/jpeg1360http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/1/CM_COEAL_2014_1_01.pdf.jpg30fdff8ec5a2ef7ac9991d41317d327dMD51LICENSElicense.txttext/plain1292http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/2/license.txt009f5cba5f69d75c09da00b6f53f483aMD52ORIGINALCM_COEAL_2014_1_01.pdfapplication/pdf2348060http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/3/CM_COEAL_2014_1_01.pdf0648c5f1343bbe638a91fe7a92a6f776MD53TEXTCM_COEAL_2014_1_01.pdf.txtExtracted texttext/plain75832http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/4/CM_COEAL_2014_1_01.pdf.txt2023748b526b63718b8ecfaa55baeb43MD541/65962020-11-10 10:23:16.131oai:repositorio.utfpr.edu.br:1/6596ICBOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IgZGEgcHVibGljYcOnw6NvLCBhdXRvcml6byBhIFVURlBSIGEgdmVpY3VsYXIsIAphdHJhdsOpcyBkbyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGVtIEFjZXNzbyBBYmVydG8gKFBJQUEpIGUgZG9zIENhdMOhbG9nb3MgZGFzIEJpYmxpb3RlY2FzIApkZXN0YSBJbnN0aXR1acOnw6NvLCBzZW0gcmVzc2FyY2ltZW50byBkb3MgZGlyZWl0b3MgYXV0b3JhaXMsIGRlIGFjb3JkbyBjb20gYSBMZWkgbm8gOS42MTAvOTgsIApvIHRleHRvIGRlc3RhIG9icmEsIG9ic2VydmFuZG8gYXMgY29uZGnDp8O1ZXMgZGUgZGlzcG9uaWJpbGl6YcOnw6NvIHJlZ2lzdHJhZGFzIG5vIGl0ZW0gNCBkbyAK4oCcVGVybW8gZGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBkZSBUcmFiYWxob3MgZGUgQ29uY2x1c8OjbyBkZSBDdXJzbyBkZSBHcmFkdWHDp8OjbyBlIApFc3BlY2lhbGl6YcOnw6NvLCBEaXNzZXJ0YcOnw7VlcyBlIFRlc2VzIG5vIFBvcnRhbCBkZSBJbmZvcm1hw6fDo28gZSBub3MgQ2F0w6Fsb2dvcyBFbGV0csO0bmljb3MgZG8gClNpc3RlbWEgZGUgQmlibGlvdGVjYXMgZGEgVVRGUFLigJ0sIHBhcmEgZmlucyBkZSBsZWl0dXJhLCBpbXByZXNzw6NvIGUvb3UgZG93bmxvYWQsIHZpc2FuZG8gYSAKZGl2dWxnYcOnw6NvIGRhIHByb2R1w6fDo28gY2llbnTDrWZpY2EgYnJhc2lsZWlyYS4KCiAgQXMgdmlhcyBvcmlnaW5haXMgZSBhc3NpbmFkYXMgcGVsbyhzKSBhdXRvcihlcykgZG8g4oCcVGVybW8gZGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBkZSAKVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSBFc3BlY2lhbGl6YcOnw6NvLCBEaXNzZXJ0YcOnw7VlcyBlIFRlc2VzIG5vIFBvcnRhbCAKZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIFNpc3RlbWEgZGUgQmlibGlvdGVjYXMgZGEgVVRGUFLigJ0gZSBkYSDigJxEZWNsYXJhw6fDo28gCmRlIEF1dG9yaWHigJ0gZW5jb250cmFtLXNlIGFycXVpdmFkYXMgbmEgQmlibGlvdGVjYSBkbyBDw6JtcHVzIG5vIHF1YWwgbyB0cmFiYWxobyBmb2kgZGVmZW5kaWRvLiAKTm8gY2FzbyBkZSBwdWJsaWNhw6fDtWVzIGRlIGF1dG9yaWEgY29sZXRpdmEgZSBtdWx0aWPDom1wdXMsIG9zIGRvY3VtZW50b3MgZmljYXLDo28gc29iIGd1YXJkYSBkYSAKQmlibGlvdGVjYSBjb20gYSBxdWFsIG8g4oCccHJpbWVpcm8gYXV0b3LigJ0gcG9zc3VhIHbDrW5jdWxvLgo=Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-10T12:23:16Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica
title Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica
spellingShingle Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica
Lemes, André Luis Guimarães
Engenharia de Alimentos
Espectroscopia de infravermelho
Análise de componentes principais
Redes neurais (Computação)
Mínimos quadrados
Café
Infrared spectroscopy
Principal components analysis
Neural networks (Computer science)
Least squares
Coffee
title_short Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica
title_full Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica
title_fullStr Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica
title_full_unstemmed Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica
title_sort Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica
author Lemes, André Luis Guimarães
author_facet Lemes, André Luis Guimarães
author_role author
dc.contributor.advisor1.fl_str_mv Bona, Evandro
dc.contributor.author.fl_str_mv Lemes, André Luis Guimarães
contributor_str_mv Bona, Evandro
dc.subject.cnpq.fl_str_mv Engenharia de Alimentos
topic Engenharia de Alimentos
Espectroscopia de infravermelho
Análise de componentes principais
Redes neurais (Computação)
Mínimos quadrados
Café
Infrared spectroscopy
Principal components analysis
Neural networks (Computer science)
Least squares
Coffee
dc.subject.por.fl_str_mv Espectroscopia de infravermelho
Análise de componentes principais
Redes neurais (Computação)
Mínimos quadrados
Café
Infrared spectroscopy
Principal components analysis
Neural networks (Computer science)
Least squares
Coffee
description Atualmente o Brasil é o maior produtor mundial de café, sendo responsável por 33,6% da produção mundial. O café pertence ao gênero Coffea, e família Rubiacea. Suas espécies arábica e canéfora (robusta) têm grande importância econômica mundial, sendo a arábica responsável por 90% da produção. Além da espécie, o genótipo do café também influencia na qualidade da bebida. O objetivo deste projeto foi desenvolver uma metodologia capaz de discriminar os diferentes genótipos de café arábica cultivados no Brasil e identificar sua região de origem. Setenta e quatro amostras de grãos verdes de 20 genótipos do café arábica, cultivados nas cidades de Mandaguari, Londrina, Paranavaí e Cornélio Procópio foram fornecidos pelo IAPAR (Londrina – PR). Foram obtidos espectros das amostras por espectroscopia de infravermelho com transformada de Fourier (FTIR). Após a realização dos pré-tratamentos dos dados, foram criados modelos de dois estágios: um estágio linear e outro não linear. No primeiro estágio do modelo de classificação foram empregados a análise de componentes principais (ACP) e o método de mínimos quadrados parciais com análise discriminante (PLS-DA) com o objetivo de reduzir a dimensionalidade dos dados. Com a realização do PLS-DA, também foi possível realizar a classificação das amostras, proporcionando uma posterior comparação entre o modelo linear e o modelo de dois estágios. Na criação do segundo estágio do modelo, foi utilizada uma rede neural artificial denominada de rede de funções de base radial de regularização (RBF de regularização). Na etapa de construção das redes neurais, uma série de parâmetros deveriam ser escolhidos, e para isto utilizou-se método simplex sequencial para otimização dos mesmos. Na classificação geográfica, o melhor modelo foi o PLS-DA utilizando a faixa espectral entre 750 e 3750 cm-1 com os dados puros, pois além de classificar corretamente 100% das amostra, teve melhor performance calculada através dos limiares estabelecidos pelo teorema de Bayes. Na classificação genotípica, o melhor modelo encontrado foi o modelo de dois estágios que utilizou a faixa espectral entre 800 e 1900 cm-1 com a primeira derivada dos dados e PLS-DA como primeiro estágio. Esse modelo foi capaz de classificar corretamente 89,04% das amostras de teste, e obteve melhor performance calculada através do teorema de Bayes. Mesmo realizando uma classificação geográfica correta de 100% das amostras, a performance de Bayes mostrou que os modelos ainda devem ser modificados na tentativa de encontrar melhores resultados de sensibilidade e especificidade e diminuir o número de amostras na região de rejeição.
publishDate 2014
dc.date.issued.fl_str_mv 2014-08-04
dc.date.accessioned.fl_str_mv 2020-11-10T12:23:16Z
dc.date.available.fl_str_mv 2020-11-10T12:23:16Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv LEMES, André Luis Guimarães. Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica. 2014. 58 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2014.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/6596
identifier_str_mv LEMES, André Luis Guimarães. Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica. 2014. 58 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2014.
url http://repositorio.utfpr.edu.br/jspui/handle/1/6596
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Campo Mourao
dc.publisher.department.fl_str_mv Departamento de Engenharia e Tecnologia de Alimentos
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Campo Mourao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/1/CM_COEAL_2014_1_01.pdf.jpg
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/2/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/3/CM_COEAL_2014_1_01.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/4/CM_COEAL_2014_1_01.pdf.txt
bitstream.checksum.fl_str_mv 30fdff8ec5a2ef7ac9991d41317d327d
009f5cba5f69d75c09da00b6f53f483a
0648c5f1343bbe638a91fe7a92a6f776
2023748b526b63718b8ecfaa55baeb43
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805923167755042816