Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais

Detalhes bibliográficos
Autor(a) principal: Beuren, Gilberto Müller
Data de Publicação: 2019
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/205832
Resumo: Com os avanços tecnológicos nos mais diversos processos industriais, é cada vez mais frequente a coleta de grandes volumes de dados e seu armazenamento com vistas ao monitoramento de tais processos. Entretanto, a análise precisa das informações coletadas pode ser comprometida pelo volume excessivo de variáveis, provocando ruído e distorções nos resultados. Neste contexto, a seleção de variáveis consideradas mais importantes para a correta interpretação dos dados surge como uma alternativa para a identificação de padrões com propósitos que incluem classificação, predição e agrupamento de amostras, removendo aquelas que apresentam ruídos ou alta correlação. Dentro do escopo desta tese, a seleção de variáveis tem por objetivo criar modelos inovadores que se adaptem aos mais variados tipos de objetivos de classificação, predição e agrupamento, reduzindo o número de variáveis irrelevantes, ruidosas e redundantes, bem como apresentando maior eficiência computacional para a realização das análises. Tais metodologias são apresentadas em três artigos, visando a resolução de problemas específicos. No primeiro artigo, um índice de importância de variáveis é apresentado para selecionar as variáveis mais relevantes na construção de um modelo de predição, através de Informação Mútua; no segundo artigo, uma nova metodologia apoiada em duas fases para identificar as variáveis mais relevantes ao agrupamento de amostras de medicamentos similares quanto a aspectos químicos é proposta; no terceiro artigo, uma abordagem para seleção das variáveis mais informativas para classificação de bateladas produtivas em sete bancos de dados supervisionados é proposta através de três testes não-paramétricos. A aplicação dos métodos em distintos bancos de dados industriais, sua validação e comparação com abordagens da literatura corroboram a adequabilidade das proposições desta tese.
id URGS_b4460fddfdcad386a517f64263d5d865
oai_identifier_str oai:www.lume.ufrgs.br:10183/205832
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Beuren, Gilberto MüllerAnzanello, Michel José2020-02-13T04:22:32Z2019http://hdl.handle.net/10183/205832001111858Com os avanços tecnológicos nos mais diversos processos industriais, é cada vez mais frequente a coleta de grandes volumes de dados e seu armazenamento com vistas ao monitoramento de tais processos. Entretanto, a análise precisa das informações coletadas pode ser comprometida pelo volume excessivo de variáveis, provocando ruído e distorções nos resultados. Neste contexto, a seleção de variáveis consideradas mais importantes para a correta interpretação dos dados surge como uma alternativa para a identificação de padrões com propósitos que incluem classificação, predição e agrupamento de amostras, removendo aquelas que apresentam ruídos ou alta correlação. Dentro do escopo desta tese, a seleção de variáveis tem por objetivo criar modelos inovadores que se adaptem aos mais variados tipos de objetivos de classificação, predição e agrupamento, reduzindo o número de variáveis irrelevantes, ruidosas e redundantes, bem como apresentando maior eficiência computacional para a realização das análises. Tais metodologias são apresentadas em três artigos, visando a resolução de problemas específicos. No primeiro artigo, um índice de importância de variáveis é apresentado para selecionar as variáveis mais relevantes na construção de um modelo de predição, através de Informação Mútua; no segundo artigo, uma nova metodologia apoiada em duas fases para identificar as variáveis mais relevantes ao agrupamento de amostras de medicamentos similares quanto a aspectos químicos é proposta; no terceiro artigo, uma abordagem para seleção das variáveis mais informativas para classificação de bateladas produtivas em sete bancos de dados supervisionados é proposta através de três testes não-paramétricos. A aplicação dos métodos em distintos bancos de dados industriais, sua validação e comparação com abordagens da literatura corroboram a adequabilidade das proposições desta tese.The recent developments in technology area allowed the collection of larger amounts of data and its storage in industrial sector. However, the excessive number of variables, which generate results comprised of noise and distortion, may compromise the correct analysis of such information. In this context, the selection of most informative variables to analyze data precisely emerges as an alternative to pattern identification with purposes that include classification, prediction and clustering of samples, removing noisy and high collinear features. Within the scope of the thesis, variable selection has the objective to create groundbreaking models that can adapt to a large variety of model classification, prediction and clustering, reducing the number of irrelevant, noisy and redundant features, as well as presenting a higher computational efficiency in the data analysis. Such methodologies are presented in three scientific articles, aiming the solution of specific problems: the first one presents a variable importance index to select the most relevant features to build a prediction model, through Mutual Information; the second article proposes a new framework to identify the most informative variables to cluster similar medicine samples based on their chemical aspects, where a new feature selection in two phases is conducted; the third article proposes a new methodology to select the most important variables through three non-parametric tests to classify production batches in seven supervised datasets. The application of the framework in different industrial datasets as well as the validation and comparison with other studies and methodologies corroborates the suitability of the thesis’ propositions.application/pdfporSeleção de variáveisAnálise de dadosVariable selectionClassificationClusteringPredictionIndustrial dataAbordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia de ProduçãoPorto Alegre, BR-RS2019doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001111858.pdf.txt001111858.pdf.txtExtracted Texttext/plain39749http://www.lume.ufrgs.br/bitstream/10183/205832/2/001111858.pdf.txtb63057a5097e4651c8865f7ee938b366MD52ORIGINAL001111858.pdfTexto parcialapplication/pdf226178http://www.lume.ufrgs.br/bitstream/10183/205832/1/001111858.pdf44b78f129e0c0ae1797cfcb6ee4c097cMD5110183/2058322020-02-14 05:16:27.154626oai:www.lume.ufrgs.br:10183/205832Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532020-02-14T07:16:27Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais
title Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais
spellingShingle Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais
Beuren, Gilberto Müller
Seleção de variáveis
Análise de dados
Variable selection
Classification
Clustering
Prediction
Industrial data
title_short Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais
title_full Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais
title_fullStr Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais
title_full_unstemmed Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais
title_sort Abordagens de seleção de variáveis para classificação, predição e agrupamento de amostras industriais
author Beuren, Gilberto Müller
author_facet Beuren, Gilberto Müller
author_role author
dc.contributor.author.fl_str_mv Beuren, Gilberto Müller
dc.contributor.advisor1.fl_str_mv Anzanello, Michel José
contributor_str_mv Anzanello, Michel José
dc.subject.por.fl_str_mv Seleção de variáveis
Análise de dados
topic Seleção de variáveis
Análise de dados
Variable selection
Classification
Clustering
Prediction
Industrial data
dc.subject.eng.fl_str_mv Variable selection
Classification
Clustering
Prediction
Industrial data
description Com os avanços tecnológicos nos mais diversos processos industriais, é cada vez mais frequente a coleta de grandes volumes de dados e seu armazenamento com vistas ao monitoramento de tais processos. Entretanto, a análise precisa das informações coletadas pode ser comprometida pelo volume excessivo de variáveis, provocando ruído e distorções nos resultados. Neste contexto, a seleção de variáveis consideradas mais importantes para a correta interpretação dos dados surge como uma alternativa para a identificação de padrões com propósitos que incluem classificação, predição e agrupamento de amostras, removendo aquelas que apresentam ruídos ou alta correlação. Dentro do escopo desta tese, a seleção de variáveis tem por objetivo criar modelos inovadores que se adaptem aos mais variados tipos de objetivos de classificação, predição e agrupamento, reduzindo o número de variáveis irrelevantes, ruidosas e redundantes, bem como apresentando maior eficiência computacional para a realização das análises. Tais metodologias são apresentadas em três artigos, visando a resolução de problemas específicos. No primeiro artigo, um índice de importância de variáveis é apresentado para selecionar as variáveis mais relevantes na construção de um modelo de predição, através de Informação Mútua; no segundo artigo, uma nova metodologia apoiada em duas fases para identificar as variáveis mais relevantes ao agrupamento de amostras de medicamentos similares quanto a aspectos químicos é proposta; no terceiro artigo, uma abordagem para seleção das variáveis mais informativas para classificação de bateladas produtivas em sete bancos de dados supervisionados é proposta através de três testes não-paramétricos. A aplicação dos métodos em distintos bancos de dados industriais, sua validação e comparação com abordagens da literatura corroboram a adequabilidade das proposições desta tese.
publishDate 2019
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2020-02-13T04:22:32Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/205832
dc.identifier.nrb.pt_BR.fl_str_mv 001111858
url http://hdl.handle.net/10183/205832
identifier_str_mv 001111858
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/205832/2/001111858.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/205832/1/001111858.pdf
bitstream.checksum.fl_str_mv b63057a5097e4651c8865f7ee938b366
44b78f129e0c0ae1797cfcb6ee4c097c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085516183339008