Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/212393 |
Resumo: | Métodos para seleção de variáveis são importantes para tornar modelos de aprendizagem de máquina parcimoniosos e mais acurados, eliminando variáveis não-relevantes, ruidosas e altamente correlacionadas. Ademais, esses métodos podem contribuir com redução de custo e aumento da eficácia em atividades que incluem aferições de qualidade em processos industriais e comprovação da autenticidade de amostras de produtos. O presente trabalho propõe duas novas abordagens de seleção de variáveis, sendo cada uma disposta em um artigo. Em relação ao método, um novo ranking de importância de variáveis, baseado na decomposição de valores singulares, é proposto e utilizado para orientar um processo iterativo que compõe subconjuntos e os submente à uma técnica de aprendizagem de máquina. Na sequência, a acurácia do modelo é avaliada; o processo retém as variáveis que promovem ganho de acurácia e descarta as demais. Em termos dos artigos que compõem essa dissertação, no primeiro é aplicado o método de aprendizagem de máquina k-Nearest Neighbor, e os experimentos são direcionados à análise forense de identificação de medicamentos falsos. O segundo artigo utiliza o método de aprendizagem de máquina Ensemble Logistic GMDH-NN e executa experimentos sobre dados de processos industriais e propriedades físico-químicas de Biodiesel e Diesel brasileiro. As duas abordagens propostas demonstram desempenho superior em termos de aumento de acurácia e redução do subconjunto de variáveis quando comparadas a métodos reportados pela literatura. |
id |
URGS_d4fda6ae7bbcdf9864881f72c928f373 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/212393 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Brito, João Batista Gonçalves deAnzanello, Michel José2020-07-24T03:39:58Z2020http://hdl.handle.net/10183/212393001115040Métodos para seleção de variáveis são importantes para tornar modelos de aprendizagem de máquina parcimoniosos e mais acurados, eliminando variáveis não-relevantes, ruidosas e altamente correlacionadas. Ademais, esses métodos podem contribuir com redução de custo e aumento da eficácia em atividades que incluem aferições de qualidade em processos industriais e comprovação da autenticidade de amostras de produtos. O presente trabalho propõe duas novas abordagens de seleção de variáveis, sendo cada uma disposta em um artigo. Em relação ao método, um novo ranking de importância de variáveis, baseado na decomposição de valores singulares, é proposto e utilizado para orientar um processo iterativo que compõe subconjuntos e os submente à uma técnica de aprendizagem de máquina. Na sequência, a acurácia do modelo é avaliada; o processo retém as variáveis que promovem ganho de acurácia e descarta as demais. Em termos dos artigos que compõem essa dissertação, no primeiro é aplicado o método de aprendizagem de máquina k-Nearest Neighbor, e os experimentos são direcionados à análise forense de identificação de medicamentos falsos. O segundo artigo utiliza o método de aprendizagem de máquina Ensemble Logistic GMDH-NN e executa experimentos sobre dados de processos industriais e propriedades físico-químicas de Biodiesel e Diesel brasileiro. As duas abordagens propostas demonstram desempenho superior em termos de aumento de acurácia e redução do subconjunto de variáveis quando comparadas a métodos reportados pela literatura.Methods for feature selection are important to make machine learning models parsimonious and accurate, eliminating non-relevant, noisy and highly correlated features. Moreover, these methods can contribute to cost reduction and increased efficiency in activities that include quality assessments in industrial processes and proving the authenticity of product samples. This paper proposes two new approaches to feature selection, each of which is arranged in an article. Regarding the method, a new ranking of the importance of variables, based on the singular value decomposition, is proposed and used to guide an iterative process that composes subsets and underlies them to a machine learning technique. In the sequence, the accuracy of the model is evaluated; the process retains the variables that promote accuracy gain and discards the others. In terms of the articles that compose this dissertation, in the first one the k-Nearest Neighbor machine learning method is applied, and the experiments are directed to the forensic analysis of falsified drug identification. The second article uses the Ensemble Logistic GMDH-NN machine learning method and performs experiments on industrial process data and physical-chemical properties of Brazilian Biodiesel and Diesel. The two proposed approaches demonstrate superior performance in terms of to improve accuracy and reduction of the subset of variables when compared to methods reported in the literature.application/pdfporSeleção de variáveisAprendizado de máquinaFeature selectionRanking of importance of featuresSingular value decompositionGroup method data handlingSeleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquinainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia de Produção e TransportesPorto Alegre, BR-RS2020mestrado profissionalinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001115040.pdf.txt001115040.pdf.txtExtracted Texttext/plain113641http://www.lume.ufrgs.br/bitstream/10183/212393/2/001115040.pdf.txtaa6cc22b8e0197552456e230e03b5257MD52ORIGINAL001115040.pdfTexto completoapplication/pdf1024138http://www.lume.ufrgs.br/bitstream/10183/212393/1/001115040.pdf2f5e25d3a469856b5dbaf93be9c793e4MD5110183/2123932020-07-25 03:58:38.84933oai:www.lume.ufrgs.br:10183/212393Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532020-07-25T06:58:38Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina |
title |
Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina |
spellingShingle |
Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina Brito, João Batista Gonçalves de Seleção de variáveis Aprendizado de máquina Feature selection Ranking of importance of features Singular value decomposition Group method data handling |
title_short |
Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina |
title_full |
Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina |
title_fullStr |
Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina |
title_full_unstemmed |
Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina |
title_sort |
Seleção de variáveis baseada na integração de ranking de importância SVD com métodos de aprendizagem de máquina |
author |
Brito, João Batista Gonçalves de |
author_facet |
Brito, João Batista Gonçalves de |
author_role |
author |
dc.contributor.author.fl_str_mv |
Brito, João Batista Gonçalves de |
dc.contributor.advisor1.fl_str_mv |
Anzanello, Michel José |
contributor_str_mv |
Anzanello, Michel José |
dc.subject.por.fl_str_mv |
Seleção de variáveis Aprendizado de máquina |
topic |
Seleção de variáveis Aprendizado de máquina Feature selection Ranking of importance of features Singular value decomposition Group method data handling |
dc.subject.eng.fl_str_mv |
Feature selection Ranking of importance of features Singular value decomposition Group method data handling |
description |
Métodos para seleção de variáveis são importantes para tornar modelos de aprendizagem de máquina parcimoniosos e mais acurados, eliminando variáveis não-relevantes, ruidosas e altamente correlacionadas. Ademais, esses métodos podem contribuir com redução de custo e aumento da eficácia em atividades que incluem aferições de qualidade em processos industriais e comprovação da autenticidade de amostras de produtos. O presente trabalho propõe duas novas abordagens de seleção de variáveis, sendo cada uma disposta em um artigo. Em relação ao método, um novo ranking de importância de variáveis, baseado na decomposição de valores singulares, é proposto e utilizado para orientar um processo iterativo que compõe subconjuntos e os submente à uma técnica de aprendizagem de máquina. Na sequência, a acurácia do modelo é avaliada; o processo retém as variáveis que promovem ganho de acurácia e descarta as demais. Em termos dos artigos que compõem essa dissertação, no primeiro é aplicado o método de aprendizagem de máquina k-Nearest Neighbor, e os experimentos são direcionados à análise forense de identificação de medicamentos falsos. O segundo artigo utiliza o método de aprendizagem de máquina Ensemble Logistic GMDH-NN e executa experimentos sobre dados de processos industriais e propriedades físico-químicas de Biodiesel e Diesel brasileiro. As duas abordagens propostas demonstram desempenho superior em termos de aumento de acurácia e redução do subconjunto de variáveis quando comparadas a métodos reportados pela literatura. |
publishDate |
2020 |
dc.date.accessioned.fl_str_mv |
2020-07-24T03:39:58Z |
dc.date.issued.fl_str_mv |
2020 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/212393 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001115040 |
url |
http://hdl.handle.net/10183/212393 |
identifier_str_mv |
001115040 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/212393/2/001115040.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/212393/1/001115040.pdf |
bitstream.checksum.fl_str_mv |
aa6cc22b8e0197552456e230e03b5257 2f5e25d3a469856b5dbaf93be9c793e4 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085528740036608 |