Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina

Brito, João Batista Gonçalves de

Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina

Detalhes bibliográficos
Autor(a) principal:	Brito, João Batista Gonçalves de
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/212393
Resumo:	Métodos para seleção de variáveis são importantes para tornar modelos de aprendizagem de máquina parcimoniosos e mais acurados, eliminando variáveis não-relevantes, ruidosas e altamente correlacionadas. Ademais, esses métodos podem contribuir com redução de custo e aumento da eficácia em atividades que incluem aferições de qualidade em processos industriais e comprovação da autenticidade de amostras de produtos. O presente trabalho propõe duas novas abordagens de seleção de variáveis, sendo cada uma disposta em um artigo. Em relação ao método, um novo ranking de importância de variáveis, baseado na decomposição de valores singulares, é proposto e utilizado para orientar um processo iterativo que compõe subconjuntos e os submente à uma técnica de aprendizagem de máquina. Na sequência, a acurácia do modelo é avaliada; o processo retém as variáveis que promovem ganho de acurácia e descarta as demais. Em termos dos artigos que compõem essa dissertação, no primeiro é aplicado o método de aprendizagem de máquina k-Nearest Neighbor, e os experimentos são direcionados à análise forense de identificação de medicamentos falsos. O segundo artigo utiliza o método de aprendizagem de máquina Ensemble Logistic GMDH-NN e executa experimentos sobre dados de processos industriais e propriedades físico-químicas de Biodiesel e Diesel brasileiro. As duas abordagens propostas demonstram desempenho superior em termos de aumento de acurácia e redução do subconjunto de variáveis quando comparadas a métodos reportados pela literatura.

Metadados do item

id	URGS_d4fda6ae7bbcdf9864881f72c928f373
oai_identifier_str	oai:www.lume.ufrgs.br:10183/212393
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Brito, João Batista Gonçalves deAnzanello, Michel José2020-07-24T03:39:58Z2020http://hdl.handle.net/10183/212393001115040Métodos para seleção de variáveis são importantes para tornar modelos de aprendizagem de máquina parcimoniosos e mais acurados, eliminando variáveis não-relevantes, ruidosas e altamente correlacionadas. Ademais, esses métodos podem contribuir com redução de custo e aumento da eficácia em atividades que incluem aferições de qualidade em processos industriais e comprovação da autenticidade de amostras de produtos. O presente trabalho propõe duas novas abordagens de seleção de variáveis, sendo cada uma disposta em um artigo. Em relação ao método, um novo ranking de importância de variáveis, baseado na decomposição de valores singulares, é proposto e utilizado para orientar um processo iterativo que compõe subconjuntos e os submente à uma técnica de aprendizagem de máquina. Na sequência, a acurácia do modelo é avaliada; o processo retém as variáveis que promovem ganho de acurácia e descarta as demais. Em termos dos artigos que compõem essa dissertação, no primeiro é aplicado o método de aprendizagem de máquina k-Nearest Neighbor, e os experimentos são direcionados à análise forense de identificação de medicamentos falsos. O segundo artigo utiliza o método de aprendizagem de máquina Ensemble Logistic GMDH-NN e executa experimentos sobre dados de processos industriais e propriedades físico-químicas de Biodiesel e Diesel brasileiro. As duas abordagens propostas demonstram desempenho superior em termos de aumento de acurácia e redução do subconjunto de variáveis quando comparadas a métodos reportados pela literatura.Methods for feature selection are important to make machine learning models parsimonious and accurate, eliminating non-relevant, noisy and highly correlated features. Moreover, these methods can contribute to cost reduction and increased efficiency in activities that include quality assessments in industrial processes and proving the authenticity of product samples. This paper proposes two new approaches to feature selection, each of which is arranged in an article. Regarding the method, a new ranking of the importance of variables, based on the singular value decomposition, is proposed and used to guide an iterative process that composes subsets and underlies them to a machine learning technique. In the sequence, the accuracy of the model is evaluated; the process retains the variables that promote accuracy gain and discards the others. In terms of the articles that compose this dissertation, in the first one the k-Nearest Neighbor machine learning method is applied, and the experiments are directed to the forensic analysis of falsified drug identification. The second article uses the Ensemble Logistic GMDH-NN machine learning method and performs experiments on industrial process data and physical-chemical properties of Brazilian Biodiesel and Diesel. The two proposed approaches demonstrate superior performance in terms of to improve accuracy and reduction of the subset of variables when compared to methods reported in the literature.application/pdfporSeleção de variáveisAprendizado de máquinaFeature selectionRanking of importance of featuresSingular value decompositionGroup method data handlingSeleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquinainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia de Produção e TransportesPorto Alegre, BR-RS2020mestrado profissionalinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001115040.pdf.txt001115040.pdf.txtExtracted Texttext/plain113641http://www.lume.ufrgs.br/bitstream/10183/212393/2/001115040.pdf.txtaa6cc22b8e0197552456e230e03b5257MD52ORIGINAL001115040.pdfTexto completoapplication/pdf1024138http://www.lume.ufrgs.br/bitstream/10183/212393/1/001115040.pdf2f5e25d3a469856b5dbaf93be9c793e4MD5110183/2123932020-07-25 03:58:38.84933oai:www.lume.ufrgs.br:10183/212393Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532020-07-25T06:58:38Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
title	Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
spellingShingle	Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina Brito, João Batista Gonçalves de Seleção de variáveis Aprendizado de máquina Feature selection Ranking of importance of features Singular value decomposition Group method data handling
title_short	Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
title_full	Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
title_fullStr	Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
title_full_unstemmed	Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
title_sort	Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
author	Brito, João Batista Gonçalves de
author_facet	Brito, João Batista Gonçalves de
author_role	author
dc.contributor.author.fl_str_mv	Brito, João Batista Gonçalves de
dc.contributor.advisor1.fl_str_mv	Anzanello, Michel José
contributor_str_mv	Anzanello, Michel José
dc.subject.por.fl_str_mv	Seleção de variáveis Aprendizado de máquina
topic	Seleção de variáveis Aprendizado de máquina Feature selection Ranking of importance of features Singular value decomposition Group method data handling
dc.subject.eng.fl_str_mv	Feature selection Ranking of importance of features Singular value decomposition Group method data handling
description	Métodos para seleção de variáveis são importantes para tornar modelos de aprendizagem de máquina parcimoniosos e mais acurados, eliminando variáveis não-relevantes, ruidosas e altamente correlacionadas. Ademais, esses métodos podem contribuir com redução de custo e aumento da eficácia em atividades que incluem aferições de qualidade em processos industriais e comprovação da autenticidade de amostras de produtos. O presente trabalho propõe duas novas abordagens de seleção de variáveis, sendo cada uma disposta em um artigo. Em relação ao método, um novo ranking de importância de variáveis, baseado na decomposição de valores singulares, é proposto e utilizado para orientar um processo iterativo que compõe subconjuntos e os submente à uma técnica de aprendizagem de máquina. Na sequência, a acurácia do modelo é avaliada; o processo retém as variáveis que promovem ganho de acurácia e descarta as demais. Em termos dos artigos que compõem essa dissertação, no primeiro é aplicado o método de aprendizagem de máquina k-Nearest Neighbor, e os experimentos são direcionados à análise forense de identificação de medicamentos falsos. O segundo artigo utiliza o método de aprendizagem de máquina Ensemble Logistic GMDH-NN e executa experimentos sobre dados de processos industriais e propriedades físico-químicas de Biodiesel e Diesel brasileiro. As duas abordagens propostas demonstram desempenho superior em termos de aumento de acurácia e redução do subconjunto de variáveis quando comparadas a métodos reportados pela literatura.
publishDate	2020
dc.date.accessioned.fl_str_mv	2020-07-24T03:39:58Z
dc.date.issued.fl_str_mv	2020
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/212393
dc.identifier.nrb.pt_BR.fl_str_mv	001115040
url	http://hdl.handle.net/10183/212393
identifier_str_mv	001115040
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/212393/2/001115040.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/212393/1/001115040.pdf
bitstream.checksum.fl_str_mv	aa6cc22b8e0197552456e230e03b5257 2f5e25d3a469856b5dbaf93be9c793e4
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1797064722518900736

Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina

Registros relacionados