Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade

Fontes, Juliana de Abreu

Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade

Detalhes bibliográficos
Autor(a) principal:	Fontes, Juliana de Abreu
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/211247
Resumo:	Técnicas espectroscópicas têm sido amplamente empregadas na resolução de problemas referentes à verificação de autenticidade e padrões de qualidade de produtos. No entanto, tais técnicas tendem a gerar um elevado número de variáveis (comprimentos de onda – COs) ruidosas e altamente correlacionadas, reforçando a importância do uso de técnicas que permitam remover as variáveis não informativas e garantir a construção de modelos consistentes de classificação e predição, diminuindo tanto o risco de inferências como o custo computacional. Esta dissertação propõe sistemáticas para seleção de COs com vistas à classificação de produtos e predição de propriedades químicas.Os métodos aqui propostos mesclam diferentes técnicas de aprendizado de máquina para definir os subconjuntos de variáveis mais importantes para as predições. Para tanto, inicialmente faz-se uma investigação sobre métodos de seleção de variáveis por meio de uma pesquisa bibliográfica. Em seguida, visando predizer propriedades químicas das amostras de misturas de combustível, faz-se uso de conceitos químicos advindos da Lei de Lambert-Beer para a geração de índices de importância de variáveis; subconjuntos de variáveis são então construídos por meio de uma abordagem direta com redes neurais artificiais (Artificial Neural Networks– ANN). Por fim, utiliza-se o método estatístico qui-quadrado (2) combinado com a ferramenta de classificação floresta aleatória (Random Forest– RF) para selecionar o subconjunto de COs que resulte na maior acurácia média com vistas à classificação de amostras de alimentos e drogas (lícitas e ilícitas) em autênticas ou não-autênticas, segundo sua identidade e/ou origem.A aplicação dos métodos propostosem bancos reais possibilitou predições mais robustas, bem como redução do número de variáveis retidas nos modelos.

Metadados do item

id	URGS_0c567d1ef9a97c9fd10f9e056f69aab5
oai_identifier_str	oai:www.lume.ufrgs.br:10183/211247
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Fontes, Juliana de AbreuAnzanello, Michel José2020-07-02T03:36:09Z2020http://hdl.handle.net/10183/211247001115553Técnicas espectroscópicas têm sido amplamente empregadas na resolução de problemas referentes à verificação de autenticidade e padrões de qualidade de produtos. No entanto, tais técnicas tendem a gerar um elevado número de variáveis (comprimentos de onda – COs) ruidosas e altamente correlacionadas, reforçando a importância do uso de técnicas que permitam remover as variáveis não informativas e garantir a construção de modelos consistentes de classificação e predição, diminuindo tanto o risco de inferências como o custo computacional. Esta dissertação propõe sistemáticas para seleção de COs com vistas à classificação de produtos e predição de propriedades químicas.Os métodos aqui propostos mesclam diferentes técnicas de aprendizado de máquina para definir os subconjuntos de variáveis mais importantes para as predições. Para tanto, inicialmente faz-se uma investigação sobre métodos de seleção de variáveis por meio de uma pesquisa bibliográfica. Em seguida, visando predizer propriedades químicas das amostras de misturas de combustível, faz-se uso de conceitos químicos advindos da Lei de Lambert-Beer para a geração de índices de importância de variáveis; subconjuntos de variáveis são então construídos por meio de uma abordagem direta com redes neurais artificiais (Artificial Neural Networks– ANN). Por fim, utiliza-se o método estatístico qui-quadrado (2) combinado com a ferramenta de classificação floresta aleatória (Random Forest– RF) para selecionar o subconjunto de COs que resulte na maior acurácia média com vistas à classificação de amostras de alimentos e drogas (lícitas e ilícitas) em autênticas ou não-autênticas, segundo sua identidade e/ou origem.A aplicação dos métodos propostosem bancos reais possibilitou predições mais robustas, bem como redução do número de variáveis retidas nos modelos.Spectroscopic techniques have been widely used in solving problems related to authenticity verification and product quality standards. However, the result of these techniques tends to generate a high number of variables (wavelengths) noisy and highly correlated, reinforcing the importance of using techniques that allow removing non-informative variables and ensure the construction of consistent classification and prediction models, reducing both the risk of inferences and computational cost. This dissertation purposes systematics for the selection wavelengths in order to classify products and predict chemical properties. The methods proposed here merge different machine learning techniques to define the subsets of wavelengths most important to predictions. Therefore, an investigation is initially carried out on methods of variable selection through a bibliographic research. Then, in order to predict chemical properties of fuel mixture samples, chemical concepts from the Lambert-Beer law are used for the generation of variable importance indexes; subsets of variables are then constructed through a direct approach with artificial neural networks (ANN). Finally, the chi-square statistical method (2)combined with the random forest classification tool (RF) is used to select the subset of wavelengths that results in greater average accuracy aiming to classify food and drug samples (lawful and illicit), in authentic or not authentic, according to their identity and/ or origin. The application of the methods proposed in real banks allowed the realization of more robust predictions, as well as the reduction of the number of variables retained in the models.application/pdfporSeleção de comprimentos de ondaSeleção de variáveisEspectroscopiaSistemas de produçãoProduct authenticityWavelength selectionClassificationRegressionSpectroscopyAbordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidadeFeature selection approaches for classification and regression in spectral data for quality control info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia de Produção e TransportesPorto Alegre, BR-RS2020mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001115553.pdf.txt001115553.pdf.txtExtracted Texttext/plain192112http://www.lume.ufrgs.br/bitstream/10183/211247/2/001115553.pdf.txt05cfc50f2769129ec6a4941c9911a21dMD52ORIGINAL001115553.pdfTexto completoapplication/pdf2818429http://www.lume.ufrgs.br/bitstream/10183/211247/1/001115553.pdf60937fc8fc4aa6fc0b06fdc88c7601c1MD5110183/2112472020-07-03 03:40:47.512696oai:www.lume.ufrgs.br:10183/211247Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532020-07-03T06:40:47Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade
dc.title.alternative.en.fl_str_mv	Feature selection approaches for classification and regression in spectral data for quality control
title	Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade
spellingShingle	Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade Fontes, Juliana de Abreu Seleção de comprimentos de onda Seleção de variáveis Espectroscopia Sistemas de produção Product authenticity Wavelength selection Classification Regression Spectroscopy
title_short	Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade
title_full	Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade
title_fullStr	Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade
title_full_unstemmed	Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade
title_sort	Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade
author	Fontes, Juliana de Abreu
author_facet	Fontes, Juliana de Abreu
author_role	author
dc.contributor.author.fl_str_mv	Fontes, Juliana de Abreu
dc.contributor.advisor1.fl_str_mv	Anzanello, Michel José
contributor_str_mv	Anzanello, Michel José
dc.subject.por.fl_str_mv	Seleção de comprimentos de onda Seleção de variáveis Espectroscopia Sistemas de produção
topic	Seleção de comprimentos de onda Seleção de variáveis Espectroscopia Sistemas de produção Product authenticity Wavelength selection Classification Regression Spectroscopy
dc.subject.eng.fl_str_mv	Product authenticity Wavelength selection Classification Regression Spectroscopy
description	Técnicas espectroscópicas têm sido amplamente empregadas na resolução de problemas referentes à verificação de autenticidade e padrões de qualidade de produtos. No entanto, tais técnicas tendem a gerar um elevado número de variáveis (comprimentos de onda – COs) ruidosas e altamente correlacionadas, reforçando a importância do uso de técnicas que permitam remover as variáveis não informativas e garantir a construção de modelos consistentes de classificação e predição, diminuindo tanto o risco de inferências como o custo computacional. Esta dissertação propõe sistemáticas para seleção de COs com vistas à classificação de produtos e predição de propriedades químicas.Os métodos aqui propostos mesclam diferentes técnicas de aprendizado de máquina para definir os subconjuntos de variáveis mais importantes para as predições. Para tanto, inicialmente faz-se uma investigação sobre métodos de seleção de variáveis por meio de uma pesquisa bibliográfica. Em seguida, visando predizer propriedades químicas das amostras de misturas de combustível, faz-se uso de conceitos químicos advindos da Lei de Lambert-Beer para a geração de índices de importância de variáveis; subconjuntos de variáveis são então construídos por meio de uma abordagem direta com redes neurais artificiais (Artificial Neural Networks– ANN). Por fim, utiliza-se o método estatístico qui-quadrado (2) combinado com a ferramenta de classificação floresta aleatória (Random Forest– RF) para selecionar o subconjunto de COs que resulte na maior acurácia média com vistas à classificação de amostras de alimentos e drogas (lícitas e ilícitas) em autênticas ou não-autênticas, segundo sua identidade e/ou origem.A aplicação dos métodos propostosem bancos reais possibilitou predições mais robustas, bem como redução do número de variáveis retidas nos modelos.
publishDate	2020
dc.date.accessioned.fl_str_mv	2020-07-02T03:36:09Z
dc.date.issued.fl_str_mv	2020
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/211247
dc.identifier.nrb.pt_BR.fl_str_mv	001115553
url	http://hdl.handle.net/10183/211247
identifier_str_mv	001115553
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/211247/2/001115553.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/211247/1/001115553.pdf
bitstream.checksum.fl_str_mv	05cfc50f2769129ec6a4941c9911a21d 60937fc8fc4aa6fc0b06fdc88c7601c1
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085523551682560

Abordagens de seleção de variáveis para classificação e regressão em dados espectrais para controle da qualidade

Registros relacionados