Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais

Detalhes bibliográficos
Autor(a) principal: Cervo, Victor Leonardo
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/75915
Resumo: A presente dissertação propõe novas abordagens para seleção de variáveis com vistas à formação de grupos representativos de observações. Para tanto, sugere um novo índice de importância das variáveis apoiado nos parâmetros oriundos da Análise de Componentes Principais (APC), o qual é integrado a uma sistemática do tipo forward para seleção de variáveis. A qualidade dos agrupamentos formados é medida através do Silhouette Index. Um estudo de simulação é projetado para avaliar a robustez e o desempenho da sistemática proposta em dados com diferentes níveis de correlação, ruído e número de observações a serem clusterizadas. Na sequência, é apresentada uma versão modificada da sistemática original, a qual utiliza funções kernel para remapeamento dos dados com vistas ao incremento da qualidade de clusterização e redução das variáveis retidas para formação dos agrupamentos. A versão modificada é aplicada em 3 bancos de dados da indústria química, aumentando a qualidade da clusterização medida pelo SI médio em 150% e utilizando em torno de 6% das variáveis originais.
id URGS_12fc5a12e424c8f18cd450148c29ed64
oai_identifier_str oai:www.lume.ufrgs.br:10183/75915
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Cervo, Victor LeonardoAnzanello, Michel José2013-07-17T01:49:35Z2013http://hdl.handle.net/10183/75915000891315A presente dissertação propõe novas abordagens para seleção de variáveis com vistas à formação de grupos representativos de observações. Para tanto, sugere um novo índice de importância das variáveis apoiado nos parâmetros oriundos da Análise de Componentes Principais (APC), o qual é integrado a uma sistemática do tipo forward para seleção de variáveis. A qualidade dos agrupamentos formados é medida através do Silhouette Index. Um estudo de simulação é projetado para avaliar a robustez e o desempenho da sistemática proposta em dados com diferentes níveis de correlação, ruído e número de observações a serem clusterizadas. Na sequência, é apresentada uma versão modificada da sistemática original, a qual utiliza funções kernel para remapeamento dos dados com vistas ao incremento da qualidade de clusterização e redução das variáveis retidas para formação dos agrupamentos. A versão modificada é aplicada em 3 bancos de dados da indústria química, aumentando a qualidade da clusterização medida pelo SI médio em 150% e utilizando em torno de 6% das variáveis originais.This thesis proposes new approaches for variable selection aimed at forming representative groups of observations. For that matter, we suggest a new variable importance index based on parameters derived from the Principal Component Analysis (PCA), which is integrated to a forward procedure for variable selection. The quality of clustering procedure is assessed by the Silhouette Index. A simulation study is designed to evaluate the robustness of the proposed method on different levels of variable correlation, noise and number of observations to be clustered. Next, we modify the original method by remapping observations through kernel functions tailored to improving the clustering quality and reducing the retained variables. The modified version is applied to 3 databases related to chemical processes, increasing the quality of clustering measured by SI on average 150%, while using around 6% of the original variables.application/pdfporAnálise multivariadaPlanejamento e controle da produçãoVariable selectionClustering analysisPrincipal component analysisKernel functionsSeleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes PrincipaisClustering variable selection through variable importance indices and principal component analysis info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia de ProduçãoPorto Alegre, BR-RS2013mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000891315.pdf000891315.pdfTexto completoapplication/pdf429259http://www.lume.ufrgs.br/bitstream/10183/75915/1/000891315.pdfd53b959868ecf0f64c16645aa9990c1eMD51TEXT000891315.pdf.txt000891315.pdf.txtExtracted Texttext/plain135515http://www.lume.ufrgs.br/bitstream/10183/75915/2/000891315.pdf.txte9324f01a526e558e4a995ac99808b47MD52THUMBNAIL000891315.pdf.jpg000891315.pdf.jpgGenerated Thumbnailimage/jpeg1202http://www.lume.ufrgs.br/bitstream/10183/75915/3/000891315.pdf.jpgd7c5ac2ea42d60c28554fe03bbc36b25MD5310183/759152020-10-17 04:11:32.610844oai:www.lume.ufrgs.br:10183/75915Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532020-10-17T07:11:32Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais
dc.title.alternative.en.fl_str_mv Clustering variable selection through variable importance indices and principal component analysis
title Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais
spellingShingle Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais
Cervo, Victor Leonardo
Análise multivariada
Planejamento e controle da produção
Variable selection
Clustering analysis
Principal component analysis
Kernel functions
title_short Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais
title_full Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais
title_fullStr Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais
title_full_unstemmed Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais
title_sort Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais
author Cervo, Victor Leonardo
author_facet Cervo, Victor Leonardo
author_role author
dc.contributor.author.fl_str_mv Cervo, Victor Leonardo
dc.contributor.advisor1.fl_str_mv Anzanello, Michel José
contributor_str_mv Anzanello, Michel José
dc.subject.por.fl_str_mv Análise multivariada
Planejamento e controle da produção
topic Análise multivariada
Planejamento e controle da produção
Variable selection
Clustering analysis
Principal component analysis
Kernel functions
dc.subject.eng.fl_str_mv Variable selection
Clustering analysis
Principal component analysis
Kernel functions
description A presente dissertação propõe novas abordagens para seleção de variáveis com vistas à formação de grupos representativos de observações. Para tanto, sugere um novo índice de importância das variáveis apoiado nos parâmetros oriundos da Análise de Componentes Principais (APC), o qual é integrado a uma sistemática do tipo forward para seleção de variáveis. A qualidade dos agrupamentos formados é medida através do Silhouette Index. Um estudo de simulação é projetado para avaliar a robustez e o desempenho da sistemática proposta em dados com diferentes níveis de correlação, ruído e número de observações a serem clusterizadas. Na sequência, é apresentada uma versão modificada da sistemática original, a qual utiliza funções kernel para remapeamento dos dados com vistas ao incremento da qualidade de clusterização e redução das variáveis retidas para formação dos agrupamentos. A versão modificada é aplicada em 3 bancos de dados da indústria química, aumentando a qualidade da clusterização medida pelo SI médio em 150% e utilizando em torno de 6% das variáveis originais.
publishDate 2013
dc.date.accessioned.fl_str_mv 2013-07-17T01:49:35Z
dc.date.issued.fl_str_mv 2013
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/75915
dc.identifier.nrb.pt_BR.fl_str_mv 000891315
url http://hdl.handle.net/10183/75915
identifier_str_mv 000891315
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/75915/1/000891315.pdf
http://www.lume.ufrgs.br/bitstream/10183/75915/2/000891315.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/75915/3/000891315.pdf.jpg
bitstream.checksum.fl_str_mv d53b959868ecf0f64c16645aa9990c1e
e9324f01a526e558e4a995ac99808b47
d7c5ac2ea42d60c28554fe03bbc36b25
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085262720499712