Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/6596 |
Resumo: | Atualmente o Brasil é o maior produtor mundial de café, sendo responsável por 33,6% da produção mundial. O café pertence ao gênero Coffea, e família Rubiacea. Suas espécies arábica e canéfora (robusta) têm grande importância econômica mundial, sendo a arábica responsável por 90% da produção. Além da espécie, o genótipo do café também influencia na qualidade da bebida. O objetivo deste projeto foi desenvolver uma metodologia capaz de discriminar os diferentes genótipos de café arábica cultivados no Brasil e identificar sua região de origem. Setenta e quatro amostras de grãos verdes de 20 genótipos do café arábica, cultivados nas cidades de Mandaguari, Londrina, Paranavaí e Cornélio Procópio foram fornecidos pelo IAPAR (Londrina – PR). Foram obtidos espectros das amostras por espectroscopia de infravermelho com transformada de Fourier (FTIR). Após a realização dos pré-tratamentos dos dados, foram criados modelos de dois estágios: um estágio linear e outro não linear. No primeiro estágio do modelo de classificação foram empregados a análise de componentes principais (ACP) e o método de mínimos quadrados parciais com análise discriminante (PLS-DA) com o objetivo de reduzir a dimensionalidade dos dados. Com a realização do PLS-DA, também foi possível realizar a classificação das amostras, proporcionando uma posterior comparação entre o modelo linear e o modelo de dois estágios. Na criação do segundo estágio do modelo, foi utilizada uma rede neural artificial denominada de rede de funções de base radial de regularização (RBF de regularização). Na etapa de construção das redes neurais, uma série de parâmetros deveriam ser escolhidos, e para isto utilizou-se método simplex sequencial para otimização dos mesmos. Na classificação geográfica, o melhor modelo foi o PLS-DA utilizando a faixa espectral entre 750 e 3750 cm-1 com os dados puros, pois além de classificar corretamente 100% das amostra, teve melhor performance calculada através dos limiares estabelecidos pelo teorema de Bayes. Na classificação genotípica, o melhor modelo encontrado foi o modelo de dois estágios que utilizou a faixa espectral entre 800 e 1900 cm-1 com a primeira derivada dos dados e PLS-DA como primeiro estágio. Esse modelo foi capaz de classificar corretamente 89,04% das amostras de teste, e obteve melhor performance calculada através do teorema de Bayes. Mesmo realizando uma classificação geográfica correta de 100% das amostras, a performance de Bayes mostrou que os modelos ainda devem ser modificados na tentativa de encontrar melhores resultados de sensibilidade e especificidade e diminuir o número de amostras na região de rejeição. |
id |
UTFPR-12_5a2bf058e2cdbb0bd28bc65305842262 |
---|---|
oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/6596 |
network_acronym_str |
UTFPR-12 |
network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
repository_id_str |
|
spelling |
2020-11-10T12:23:16Z2020-11-10T12:23:16Z2014-08-04LEMES, André Luis Guimarães. Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica. 2014. 58 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2014.http://repositorio.utfpr.edu.br/jspui/handle/1/6596Atualmente o Brasil é o maior produtor mundial de café, sendo responsável por 33,6% da produção mundial. O café pertence ao gênero Coffea, e família Rubiacea. Suas espécies arábica e canéfora (robusta) têm grande importância econômica mundial, sendo a arábica responsável por 90% da produção. Além da espécie, o genótipo do café também influencia na qualidade da bebida. O objetivo deste projeto foi desenvolver uma metodologia capaz de discriminar os diferentes genótipos de café arábica cultivados no Brasil e identificar sua região de origem. Setenta e quatro amostras de grãos verdes de 20 genótipos do café arábica, cultivados nas cidades de Mandaguari, Londrina, Paranavaí e Cornélio Procópio foram fornecidos pelo IAPAR (Londrina – PR). Foram obtidos espectros das amostras por espectroscopia de infravermelho com transformada de Fourier (FTIR). Após a realização dos pré-tratamentos dos dados, foram criados modelos de dois estágios: um estágio linear e outro não linear. No primeiro estágio do modelo de classificação foram empregados a análise de componentes principais (ACP) e o método de mínimos quadrados parciais com análise discriminante (PLS-DA) com o objetivo de reduzir a dimensionalidade dos dados. Com a realização do PLS-DA, também foi possível realizar a classificação das amostras, proporcionando uma posterior comparação entre o modelo linear e o modelo de dois estágios. Na criação do segundo estágio do modelo, foi utilizada uma rede neural artificial denominada de rede de funções de base radial de regularização (RBF de regularização). Na etapa de construção das redes neurais, uma série de parâmetros deveriam ser escolhidos, e para isto utilizou-se método simplex sequencial para otimização dos mesmos. Na classificação geográfica, o melhor modelo foi o PLS-DA utilizando a faixa espectral entre 750 e 3750 cm-1 com os dados puros, pois além de classificar corretamente 100% das amostra, teve melhor performance calculada através dos limiares estabelecidos pelo teorema de Bayes. Na classificação genotípica, o melhor modelo encontrado foi o modelo de dois estágios que utilizou a faixa espectral entre 800 e 1900 cm-1 com a primeira derivada dos dados e PLS-DA como primeiro estágio. Esse modelo foi capaz de classificar corretamente 89,04% das amostras de teste, e obteve melhor performance calculada através do teorema de Bayes. Mesmo realizando uma classificação geográfica correta de 100% das amostras, a performance de Bayes mostrou que os modelos ainda devem ser modificados na tentativa de encontrar melhores resultados de sensibilidade e especificidade e diminuir o número de amostras na região de rejeição.Currently, Brazil is the largest producer of coffee, accounting for 33.6% of world production. The coffee belongs to the Coffea genus, from Rubiaceae family. The arabica and canephora (robust) species have great global economic importance, being the arabica responsible for 90% of production. In addition to the species, the coffee genotype also influences the quality of the beverage. The objective of this project was to develop a methodology to discriminate the different genotypes of arabica coffee, and also identify the cultivation region. Seventy-four samples of green beans of 20 genotypes of arabica coffee, grown in the cities of Mandaguari, Londrina, Paranavaí and Cornélio Procópio were provided by IAPAR (Londrina-PR). Spectra of samples were obtained by infrared spectroscopy with Fourier transform (FTIR). So, two-stage models were created using a first linear stage and a second nonlinear one. For the linear stage it was used the principal component analysis (PCA) and partial least squares method with discriminant analysis (PLS-DA). With PLS-DA, it was also possible to perform the classification of samples, providing a further comparison between the linear model and the two-stage model. For the second stage of the model it was used a regularized radial basis functions artificial neural network (RBF-R). In neural networks construction several parameters should be optimized and, in this work the sequential simplex method was used for this purpose. For geographical classification, the best model was the PLS-DA using the raw spectra in the range of 750 and 3750 cm-1. The obtained model classify correctly 100% of the samples and, had better performance confirmed by the thresholds established by Bayes' theorem. In genotypic classification, the best model found was the two-stage one using the first derivative of spectra in the range between 800 and 1900 cm-1 and PLS-DA as first stage. This model was able to correctly classify 89.04% of test specimens, and obtained better performance based on Bayes' theorem. Even performing a 100% correct geographical classification of samples, Bayes' inference showed that the models should still be modified in an attempt to find better results for sensitivity and specificity, and decrease the number of samples in the rejection region.CNPq e Fundação AraucáriaporUniversidade Tecnológica Federal do ParanáCampo MouraoDepartamento de Engenharia e Tecnologia de AlimentosEngenharia de AlimentosEspectroscopia de infravermelhoAnálise de componentes principaisRedes neurais (Computação)Mínimos quadradosCaféInfrared spectroscopyPrincipal components analysisNeural networks (Computer science)Least squaresCoffeeAplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábicainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisCampo MourãoBona, EvandroLemes, André Luis Guimarãesreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRinfo:eu-repo/semantics/openAccessTHUMBNAILCM_COEAL_2014_1_01.pdf.jpgGenerated Thumbnailimage/jpeg1360http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/1/CM_COEAL_2014_1_01.pdf.jpg30fdff8ec5a2ef7ac9991d41317d327dMD51LICENSElicense.txttext/plain1292http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/2/license.txt009f5cba5f69d75c09da00b6f53f483aMD52ORIGINALCM_COEAL_2014_1_01.pdfapplication/pdf2348060http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/3/CM_COEAL_2014_1_01.pdf0648c5f1343bbe638a91fe7a92a6f776MD53TEXTCM_COEAL_2014_1_01.pdf.txtExtracted texttext/plain75832http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/4/CM_COEAL_2014_1_01.pdf.txt2023748b526b63718b8ecfaa55baeb43MD541/65962020-11-10 10:23:16.131oai:repositorio.utfpr.edu.br:1/6596ICBOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IgZGEgcHVibGljYcOnw6NvLCBhdXRvcml6byBhIFVURlBSIGEgdmVpY3VsYXIsIAphdHJhdsOpcyBkbyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGVtIEFjZXNzbyBBYmVydG8gKFBJQUEpIGUgZG9zIENhdMOhbG9nb3MgZGFzIEJpYmxpb3RlY2FzIApkZXN0YSBJbnN0aXR1acOnw6NvLCBzZW0gcmVzc2FyY2ltZW50byBkb3MgZGlyZWl0b3MgYXV0b3JhaXMsIGRlIGFjb3JkbyBjb20gYSBMZWkgbm8gOS42MTAvOTgsIApvIHRleHRvIGRlc3RhIG9icmEsIG9ic2VydmFuZG8gYXMgY29uZGnDp8O1ZXMgZGUgZGlzcG9uaWJpbGl6YcOnw6NvIHJlZ2lzdHJhZGFzIG5vIGl0ZW0gNCBkbyAK4oCcVGVybW8gZGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBkZSBUcmFiYWxob3MgZGUgQ29uY2x1c8OjbyBkZSBDdXJzbyBkZSBHcmFkdWHDp8OjbyBlIApFc3BlY2lhbGl6YcOnw6NvLCBEaXNzZXJ0YcOnw7VlcyBlIFRlc2VzIG5vIFBvcnRhbCBkZSBJbmZvcm1hw6fDo28gZSBub3MgQ2F0w6Fsb2dvcyBFbGV0csO0bmljb3MgZG8gClNpc3RlbWEgZGUgQmlibGlvdGVjYXMgZGEgVVRGUFLigJ0sIHBhcmEgZmlucyBkZSBsZWl0dXJhLCBpbXByZXNzw6NvIGUvb3UgZG93bmxvYWQsIHZpc2FuZG8gYSAKZGl2dWxnYcOnw6NvIGRhIHByb2R1w6fDo28gY2llbnTDrWZpY2EgYnJhc2lsZWlyYS4KCiAgQXMgdmlhcyBvcmlnaW5haXMgZSBhc3NpbmFkYXMgcGVsbyhzKSBhdXRvcihlcykgZG8g4oCcVGVybW8gZGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBkZSAKVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSBFc3BlY2lhbGl6YcOnw6NvLCBEaXNzZXJ0YcOnw7VlcyBlIFRlc2VzIG5vIFBvcnRhbCAKZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIFNpc3RlbWEgZGUgQmlibGlvdGVjYXMgZGEgVVRGUFLigJ0gZSBkYSDigJxEZWNsYXJhw6fDo28gCmRlIEF1dG9yaWHigJ0gZW5jb250cmFtLXNlIGFycXVpdmFkYXMgbmEgQmlibGlvdGVjYSBkbyBDw6JtcHVzIG5vIHF1YWwgbyB0cmFiYWxobyBmb2kgZGVmZW5kaWRvLiAKTm8gY2FzbyBkZSBwdWJsaWNhw6fDtWVzIGRlIGF1dG9yaWEgY29sZXRpdmEgZSBtdWx0aWPDom1wdXMsIG9zIGRvY3VtZW50b3MgZmljYXLDo28gc29iIGd1YXJkYSBkYSAKQmlibGlvdGVjYSBjb20gYSBxdWFsIG8g4oCccHJpbWVpcm8gYXV0b3LigJ0gcG9zc3VhIHbDrW5jdWxvLgo=Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-10T12:23:16Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
dc.title.pt_BR.fl_str_mv |
Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica |
title |
Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica |
spellingShingle |
Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica Lemes, André Luis Guimarães Engenharia de Alimentos Espectroscopia de infravermelho Análise de componentes principais Redes neurais (Computação) Mínimos quadrados Café Infrared spectroscopy Principal components analysis Neural networks (Computer science) Least squares Coffee |
title_short |
Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica |
title_full |
Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica |
title_fullStr |
Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica |
title_full_unstemmed |
Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica |
title_sort |
Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica |
author |
Lemes, André Luis Guimarães |
author_facet |
Lemes, André Luis Guimarães |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Bona, Evandro |
dc.contributor.author.fl_str_mv |
Lemes, André Luis Guimarães |
contributor_str_mv |
Bona, Evandro |
dc.subject.cnpq.fl_str_mv |
Engenharia de Alimentos |
topic |
Engenharia de Alimentos Espectroscopia de infravermelho Análise de componentes principais Redes neurais (Computação) Mínimos quadrados Café Infrared spectroscopy Principal components analysis Neural networks (Computer science) Least squares Coffee |
dc.subject.por.fl_str_mv |
Espectroscopia de infravermelho Análise de componentes principais Redes neurais (Computação) Mínimos quadrados Café Infrared spectroscopy Principal components analysis Neural networks (Computer science) Least squares Coffee |
description |
Atualmente o Brasil é o maior produtor mundial de café, sendo responsável por 33,6% da produção mundial. O café pertence ao gênero Coffea, e família Rubiacea. Suas espécies arábica e canéfora (robusta) têm grande importância econômica mundial, sendo a arábica responsável por 90% da produção. Além da espécie, o genótipo do café também influencia na qualidade da bebida. O objetivo deste projeto foi desenvolver uma metodologia capaz de discriminar os diferentes genótipos de café arábica cultivados no Brasil e identificar sua região de origem. Setenta e quatro amostras de grãos verdes de 20 genótipos do café arábica, cultivados nas cidades de Mandaguari, Londrina, Paranavaí e Cornélio Procópio foram fornecidos pelo IAPAR (Londrina – PR). Foram obtidos espectros das amostras por espectroscopia de infravermelho com transformada de Fourier (FTIR). Após a realização dos pré-tratamentos dos dados, foram criados modelos de dois estágios: um estágio linear e outro não linear. No primeiro estágio do modelo de classificação foram empregados a análise de componentes principais (ACP) e o método de mínimos quadrados parciais com análise discriminante (PLS-DA) com o objetivo de reduzir a dimensionalidade dos dados. Com a realização do PLS-DA, também foi possível realizar a classificação das amostras, proporcionando uma posterior comparação entre o modelo linear e o modelo de dois estágios. Na criação do segundo estágio do modelo, foi utilizada uma rede neural artificial denominada de rede de funções de base radial de regularização (RBF de regularização). Na etapa de construção das redes neurais, uma série de parâmetros deveriam ser escolhidos, e para isto utilizou-se método simplex sequencial para otimização dos mesmos. Na classificação geográfica, o melhor modelo foi o PLS-DA utilizando a faixa espectral entre 750 e 3750 cm-1 com os dados puros, pois além de classificar corretamente 100% das amostra, teve melhor performance calculada através dos limiares estabelecidos pelo teorema de Bayes. Na classificação genotípica, o melhor modelo encontrado foi o modelo de dois estágios que utilizou a faixa espectral entre 800 e 1900 cm-1 com a primeira derivada dos dados e PLS-DA como primeiro estágio. Esse modelo foi capaz de classificar corretamente 89,04% das amostras de teste, e obteve melhor performance calculada através do teorema de Bayes. Mesmo realizando uma classificação geográfica correta de 100% das amostras, a performance de Bayes mostrou que os modelos ainda devem ser modificados na tentativa de encontrar melhores resultados de sensibilidade e especificidade e diminuir o número de amostras na região de rejeição. |
publishDate |
2014 |
dc.date.issued.fl_str_mv |
2014-08-04 |
dc.date.accessioned.fl_str_mv |
2020-11-10T12:23:16Z |
dc.date.available.fl_str_mv |
2020-11-10T12:23:16Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
LEMES, André Luis Guimarães. Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica. 2014. 58 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2014. |
dc.identifier.uri.fl_str_mv |
http://repositorio.utfpr.edu.br/jspui/handle/1/6596 |
identifier_str_mv |
LEMES, André Luis Guimarães. Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica. 2014. 58 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2014. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/6596 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Campo Mourao |
dc.publisher.department.fl_str_mv |
Departamento de Engenharia e Tecnologia de Alimentos |
publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Campo Mourao |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
instacron_str |
UTFPR |
institution |
UTFPR |
reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
bitstream.url.fl_str_mv |
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/1/CM_COEAL_2014_1_01.pdf.jpg http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/2/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/3/CM_COEAL_2014_1_01.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6596/4/CM_COEAL_2014_1_01.pdf.txt |
bitstream.checksum.fl_str_mv |
30fdff8ec5a2ef7ac9991d41317d327d 009f5cba5f69d75c09da00b6f53f483a 0648c5f1343bbe638a91fe7a92a6f776 2023748b526b63718b8ecfaa55baeb43 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1805923167755042816 |