Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina

Detalhes bibliográficos
Autor(a) principal: Brito, João Batista Gonçalves de
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/212393
Resumo: Métodos para seleção de variáveis são importantes para tornar modelos de aprendizagem de máquina parcimoniosos e mais acurados, eliminando variáveis não-relevantes, ruidosas e altamente correlacionadas. Ademais, esses métodos podem contribuir com redução de custo e aumento da eficácia em atividades que incluem aferições de qualidade em processos industriais e comprovação da autenticidade de amostras de produtos. O presente trabalho propõe duas novas abordagens de seleção de variáveis, sendo cada uma disposta em um artigo. Em relação ao método, um novo ranking de importância de variáveis, baseado na decomposição de valores singulares, é proposto e utilizado para orientar um processo iterativo que compõe subconjuntos e os submente à uma técnica de aprendizagem de máquina. Na sequência, a acurácia do modelo é avaliada; o processo retém as variáveis que promovem ganho de acurácia e descarta as demais. Em termos dos artigos que compõem essa dissertação, no primeiro é aplicado o método de aprendizagem de máquina k-Nearest Neighbor, e os experimentos são direcionados à análise forense de identificação de medicamentos falsos. O segundo artigo utiliza o método de aprendizagem de máquina Ensemble Logistic GMDH-NN e executa experimentos sobre dados de processos industriais e propriedades físico-químicas de Biodiesel e Diesel brasileiro. As duas abordagens propostas demonstram desempenho superior em termos de aumento de acurácia e redução do subconjunto de variáveis quando comparadas a métodos reportados pela literatura.
id URGS_d4fda6ae7bbcdf9864881f72c928f373
oai_identifier_str oai:www.lume.ufrgs.br:10183/212393
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Brito, João Batista Gonçalves deAnzanello, Michel José2020-07-24T03:39:58Z2020http://hdl.handle.net/10183/212393001115040Métodos para seleção de variáveis são importantes para tornar modelos de aprendizagem de máquina parcimoniosos e mais acurados, eliminando variáveis não-relevantes, ruidosas e altamente correlacionadas. Ademais, esses métodos podem contribuir com redução de custo e aumento da eficácia em atividades que incluem aferições de qualidade em processos industriais e comprovação da autenticidade de amostras de produtos. O presente trabalho propõe duas novas abordagens de seleção de variáveis, sendo cada uma disposta em um artigo. Em relação ao método, um novo ranking de importância de variáveis, baseado na decomposição de valores singulares, é proposto e utilizado para orientar um processo iterativo que compõe subconjuntos e os submente à uma técnica de aprendizagem de máquina. Na sequência, a acurácia do modelo é avaliada; o processo retém as variáveis que promovem ganho de acurácia e descarta as demais. Em termos dos artigos que compõem essa dissertação, no primeiro é aplicado o método de aprendizagem de máquina k-Nearest Neighbor, e os experimentos são direcionados à análise forense de identificação de medicamentos falsos. O segundo artigo utiliza o método de aprendizagem de máquina Ensemble Logistic GMDH-NN e executa experimentos sobre dados de processos industriais e propriedades físico-químicas de Biodiesel e Diesel brasileiro. As duas abordagens propostas demonstram desempenho superior em termos de aumento de acurácia e redução do subconjunto de variáveis quando comparadas a métodos reportados pela literatura.Methods for feature selection are important to make machine learning models parsimonious and accurate, eliminating non-relevant, noisy and highly correlated features. Moreover, these methods can contribute to cost reduction and increased efficiency in activities that include quality assessments in industrial processes and proving the authenticity of product samples. This paper proposes two new approaches to feature selection, each of which is arranged in an article. Regarding the method, a new ranking of the importance of variables, based on the singular value decomposition, is proposed and used to guide an iterative process that composes subsets and underlies them to a machine learning technique. In the sequence, the accuracy of the model is evaluated; the process retains the variables that promote accuracy gain and discards the others. In terms of the articles that compose this dissertation, in the first one the k-Nearest Neighbor machine learning method is applied, and the experiments are directed to the forensic analysis of falsified drug identification. The second article uses the Ensemble Logistic GMDH-NN machine learning method and performs experiments on industrial process data and physical-chemical properties of Brazilian Biodiesel and Diesel. The two proposed approaches demonstrate superior performance in terms of to improve accuracy and reduction of the subset of variables when compared to methods reported in the literature.application/pdfporSeleção de variáveisAprendizado de máquinaFeature selectionRanking of importance of featuresSingular value decompositionGroup method data handlingSeleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquinainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia de Produção e TransportesPorto Alegre, BR-RS2020mestrado profissionalinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001115040.pdf.txt001115040.pdf.txtExtracted Texttext/plain113641http://www.lume.ufrgs.br/bitstream/10183/212393/2/001115040.pdf.txtaa6cc22b8e0197552456e230e03b5257MD52ORIGINAL001115040.pdfTexto completoapplication/pdf1024138http://www.lume.ufrgs.br/bitstream/10183/212393/1/001115040.pdf2f5e25d3a469856b5dbaf93be9c793e4MD5110183/2123932020-07-25 03:58:38.84933oai:www.lume.ufrgs.br:10183/212393Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532020-07-25T06:58:38Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
title Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
spellingShingle Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
Brito, João Batista Gonçalves de
Seleção de variáveis
Aprendizado de máquina
Feature selection
Ranking of importance of features
Singular value decomposition
Group method data handling
title_short Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
title_full Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
title_fullStr Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
title_full_unstemmed Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
title_sort Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
author Brito, João Batista Gonçalves de
author_facet Brito, João Batista Gonçalves de
author_role author
dc.contributor.author.fl_str_mv Brito, João Batista Gonçalves de
dc.contributor.advisor1.fl_str_mv Anzanello, Michel José
contributor_str_mv Anzanello, Michel José
dc.subject.por.fl_str_mv Seleção de variáveis
Aprendizado de máquina
topic Seleção de variáveis
Aprendizado de máquina
Feature selection
Ranking of importance of features
Singular value decomposition
Group method data handling
dc.subject.eng.fl_str_mv Feature selection
Ranking of importance of features
Singular value decomposition
Group method data handling
description Métodos para seleção de variáveis são importantes para tornar modelos de aprendizagem de máquina parcimoniosos e mais acurados, eliminando variáveis não-relevantes, ruidosas e altamente correlacionadas. Ademais, esses métodos podem contribuir com redução de custo e aumento da eficácia em atividades que incluem aferições de qualidade em processos industriais e comprovação da autenticidade de amostras de produtos. O presente trabalho propõe duas novas abordagens de seleção de variáveis, sendo cada uma disposta em um artigo. Em relação ao método, um novo ranking de importância de variáveis, baseado na decomposição de valores singulares, é proposto e utilizado para orientar um processo iterativo que compõe subconjuntos e os submente à uma técnica de aprendizagem de máquina. Na sequência, a acurácia do modelo é avaliada; o processo retém as variáveis que promovem ganho de acurácia e descarta as demais. Em termos dos artigos que compõem essa dissertação, no primeiro é aplicado o método de aprendizagem de máquina k-Nearest Neighbor, e os experimentos são direcionados à análise forense de identificação de medicamentos falsos. O segundo artigo utiliza o método de aprendizagem de máquina Ensemble Logistic GMDH-NN e executa experimentos sobre dados de processos industriais e propriedades físico-químicas de Biodiesel e Diesel brasileiro. As duas abordagens propostas demonstram desempenho superior em termos de aumento de acurácia e redução do subconjunto de variáveis quando comparadas a métodos reportados pela literatura.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-07-24T03:39:58Z
dc.date.issued.fl_str_mv 2020
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/212393
dc.identifier.nrb.pt_BR.fl_str_mv 001115040
url http://hdl.handle.net/10183/212393
identifier_str_mv 001115040
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/212393/2/001115040.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/212393/1/001115040.pdf
bitstream.checksum.fl_str_mv aa6cc22b8e0197552456e230e03b5257
2f5e25d3a469856b5dbaf93be9c793e4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085528740036608