Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/75915 |
Resumo: | A presente dissertação propõe novas abordagens para seleção de variáveis com vistas à formação de grupos representativos de observações. Para tanto, sugere um novo índice de importância das variáveis apoiado nos parâmetros oriundos da Análise de Componentes Principais (APC), o qual é integrado a uma sistemática do tipo forward para seleção de variáveis. A qualidade dos agrupamentos formados é medida através do Silhouette Index. Um estudo de simulação é projetado para avaliar a robustez e o desempenho da sistemática proposta em dados com diferentes níveis de correlação, ruído e número de observações a serem clusterizadas. Na sequência, é apresentada uma versão modificada da sistemática original, a qual utiliza funções kernel para remapeamento dos dados com vistas ao incremento da qualidade de clusterização e redução das variáveis retidas para formação dos agrupamentos. A versão modificada é aplicada em 3 bancos de dados da indústria química, aumentando a qualidade da clusterização medida pelo SI médio em 150% e utilizando em torno de 6% das variáveis originais. |
id |
URGS_12fc5a12e424c8f18cd450148c29ed64 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/75915 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Cervo, Victor LeonardoAnzanello, Michel José2013-07-17T01:49:35Z2013http://hdl.handle.net/10183/75915000891315A presente dissertação propõe novas abordagens para seleção de variáveis com vistas à formação de grupos representativos de observações. Para tanto, sugere um novo índice de importância das variáveis apoiado nos parâmetros oriundos da Análise de Componentes Principais (APC), o qual é integrado a uma sistemática do tipo forward para seleção de variáveis. A qualidade dos agrupamentos formados é medida através do Silhouette Index. Um estudo de simulação é projetado para avaliar a robustez e o desempenho da sistemática proposta em dados com diferentes níveis de correlação, ruído e número de observações a serem clusterizadas. Na sequência, é apresentada uma versão modificada da sistemática original, a qual utiliza funções kernel para remapeamento dos dados com vistas ao incremento da qualidade de clusterização e redução das variáveis retidas para formação dos agrupamentos. A versão modificada é aplicada em 3 bancos de dados da indústria química, aumentando a qualidade da clusterização medida pelo SI médio em 150% e utilizando em torno de 6% das variáveis originais.This thesis proposes new approaches for variable selection aimed at forming representative groups of observations. For that matter, we suggest a new variable importance index based on parameters derived from the Principal Component Analysis (PCA), which is integrated to a forward procedure for variable selection. The quality of clustering procedure is assessed by the Silhouette Index. A simulation study is designed to evaluate the robustness of the proposed method on different levels of variable correlation, noise and number of observations to be clustered. Next, we modify the original method by remapping observations through kernel functions tailored to improving the clustering quality and reducing the retained variables. The modified version is applied to 3 databases related to chemical processes, increasing the quality of clustering measured by SI on average 150%, while using around 6% of the original variables.application/pdfporAnálise multivariadaPlanejamento e controle da produçãoVariable selectionClustering analysisPrincipal component analysisKernel functionsSeleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes PrincipaisClustering variable selection through variable importance indices and principal component analysis info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia de ProduçãoPorto Alegre, BR-RS2013mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000891315.pdf000891315.pdfTexto completoapplication/pdf429259http://www.lume.ufrgs.br/bitstream/10183/75915/1/000891315.pdfd53b959868ecf0f64c16645aa9990c1eMD51TEXT000891315.pdf.txt000891315.pdf.txtExtracted Texttext/plain135515http://www.lume.ufrgs.br/bitstream/10183/75915/2/000891315.pdf.txte9324f01a526e558e4a995ac99808b47MD52THUMBNAIL000891315.pdf.jpg000891315.pdf.jpgGenerated Thumbnailimage/jpeg1202http://www.lume.ufrgs.br/bitstream/10183/75915/3/000891315.pdf.jpgd7c5ac2ea42d60c28554fe03bbc36b25MD5310183/759152020-10-17 04:11:32.610844oai:www.lume.ufrgs.br:10183/75915Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532020-10-17T07:11:32Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais |
dc.title.alternative.en.fl_str_mv |
Clustering variable selection through variable importance indices and principal component analysis |
title |
Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais |
spellingShingle |
Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais Cervo, Victor Leonardo Análise multivariada Planejamento e controle da produção Variable selection Clustering analysis Principal component analysis Kernel functions |
title_short |
Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais |
title_full |
Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais |
title_fullStr |
Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais |
title_full_unstemmed |
Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais |
title_sort |
Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais |
author |
Cervo, Victor Leonardo |
author_facet |
Cervo, Victor Leonardo |
author_role |
author |
dc.contributor.author.fl_str_mv |
Cervo, Victor Leonardo |
dc.contributor.advisor1.fl_str_mv |
Anzanello, Michel José |
contributor_str_mv |
Anzanello, Michel José |
dc.subject.por.fl_str_mv |
Análise multivariada Planejamento e controle da produção |
topic |
Análise multivariada Planejamento e controle da produção Variable selection Clustering analysis Principal component analysis Kernel functions |
dc.subject.eng.fl_str_mv |
Variable selection Clustering analysis Principal component analysis Kernel functions |
description |
A presente dissertação propõe novas abordagens para seleção de variáveis com vistas à formação de grupos representativos de observações. Para tanto, sugere um novo índice de importância das variáveis apoiado nos parâmetros oriundos da Análise de Componentes Principais (APC), o qual é integrado a uma sistemática do tipo forward para seleção de variáveis. A qualidade dos agrupamentos formados é medida através do Silhouette Index. Um estudo de simulação é projetado para avaliar a robustez e o desempenho da sistemática proposta em dados com diferentes níveis de correlação, ruído e número de observações a serem clusterizadas. Na sequência, é apresentada uma versão modificada da sistemática original, a qual utiliza funções kernel para remapeamento dos dados com vistas ao incremento da qualidade de clusterização e redução das variáveis retidas para formação dos agrupamentos. A versão modificada é aplicada em 3 bancos de dados da indústria química, aumentando a qualidade da clusterização medida pelo SI médio em 150% e utilizando em torno de 6% das variáveis originais. |
publishDate |
2013 |
dc.date.accessioned.fl_str_mv |
2013-07-17T01:49:35Z |
dc.date.issued.fl_str_mv |
2013 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/75915 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000891315 |
url |
http://hdl.handle.net/10183/75915 |
identifier_str_mv |
000891315 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/75915/1/000891315.pdf http://www.lume.ufrgs.br/bitstream/10183/75915/2/000891315.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/75915/3/000891315.pdf.jpg |
bitstream.checksum.fl_str_mv |
d53b959868ecf0f64c16645aa9990c1e e9324f01a526e558e4a995ac99808b47 d7c5ac2ea42d60c28554fe03bbc36b25 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085262720499712 |