Seleção de variáveis para classificação de bateladas produtivas

Detalhes bibliográficos
Autor(a) principal: Kahmann, Alessandro
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/96394
Resumo: Bancos de dados oriundos de processos industriais são caracterizados por elevado número de variáveis correlacionadas, dados ruidosos e maior número de variáveis do que observações, tornando a seleção de variáveis um importante problema a ser analisado no monitoramento de tais processos. A presente dissertação propõe sistemáticas para seleção de variáveis com vistas à classificação de bateladas produtivas. Para tanto, sugerem-se novos métodos que utilizam Índices de Importância de Variáveis para eliminação sistemática de variáveis combinadas a ferramentas de classificação; objetiva-se selecionar as variáveis de processo com maior habilidade discriminante para categorizar as bateladas em classes. Os métodos possuem uma sistematização básica que consiste em: i) separar os dados históricos em porções de treino e teste; ii) na porção de treino, gerar um Índice de Importância de Variáveis (IIV) que ordenará as variáveis de acordo com sua capacidade discriminante; iii) a cada iteração, classificam-se as amostras da porção de treino e removem-se sistematicamente as variáveis; iv) avaliam-se então os subconjuntos através da distância Euclidiana dos resultados dos subconjuntos a um ponto hipotético ótimo, definindo assim o subconjunto de variáveis a serem selecionadas. Para o cumprimento das etapas acima, são testadas diferentes ferramentas de classificação e IIV. A aplicação dos métodos em bancos reais e simulados verifica a robustez das proposições em dados com distintos níveis de correlação e ruído.
id URGS_32cee86cd486f2c331b3a22f0be997fa
oai_identifier_str oai:www.lume.ufrgs.br:10183/96394
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Kahmann, AlessandroAnzanello, Michel José2014-06-11T02:05:08Z2013http://hdl.handle.net/10183/96394000915090Bancos de dados oriundos de processos industriais são caracterizados por elevado número de variáveis correlacionadas, dados ruidosos e maior número de variáveis do que observações, tornando a seleção de variáveis um importante problema a ser analisado no monitoramento de tais processos. A presente dissertação propõe sistemáticas para seleção de variáveis com vistas à classificação de bateladas produtivas. Para tanto, sugerem-se novos métodos que utilizam Índices de Importância de Variáveis para eliminação sistemática de variáveis combinadas a ferramentas de classificação; objetiva-se selecionar as variáveis de processo com maior habilidade discriminante para categorizar as bateladas em classes. Os métodos possuem uma sistematização básica que consiste em: i) separar os dados históricos em porções de treino e teste; ii) na porção de treino, gerar um Índice de Importância de Variáveis (IIV) que ordenará as variáveis de acordo com sua capacidade discriminante; iii) a cada iteração, classificam-se as amostras da porção de treino e removem-se sistematicamente as variáveis; iv) avaliam-se então os subconjuntos através da distância Euclidiana dos resultados dos subconjuntos a um ponto hipotético ótimo, definindo assim o subconjunto de variáveis a serem selecionadas. Para o cumprimento das etapas acima, são testadas diferentes ferramentas de classificação e IIV. A aplicação dos métodos em bancos reais e simulados verifica a robustez das proposições em dados com distintos níveis de correlação e ruído.Databases derived from industrial processes are characterized by a large number of correlated, noisy variables and more variables than observations, making of variable selection an important issue regarding process monitoring. This thesis proposes methods for variable selection aimed at classifying production batches. For that matter, we propose new methods that use Variable Importance Indices for variable elimination combined with classification tools; the objective is to select the process variables with the highest discriminating ability to categorize batch classes. The methods rely on a basic framework: i) split historical data into training and testing sets; ii) in the training set, generate a Variable Importance Index (VII) that will rank the variables according to their discriminating ability; iii) at each iteration, classify samples from the training set and remove the variable with the smallest VII; iv) candidate subsets are then evaluated through the Euclidean distance to a hypothetical optimum, selecting the recommended subset of variables. The aforementioned steps are tested using different classification tools and VII’s. The application of the proposed methods to real and simulated data corroborates the robustness of the propositions on data with different levels of correlation and noise.application/pdfporMétodos estatísticosAnálise multivariadaGestão da produçãoVariable selectionVariable importance indexClassificationSeleção de variáveis para classificação de bateladas produtivasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia de ProduçãoPorto Alegre, BR-RS2013mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000915090.pdf000915090.pdfTexto completoapplication/pdf731427http://www.lume.ufrgs.br/bitstream/10183/96394/1/000915090.pdf2d60224496d0440b46b850f8d18b8d86MD51TEXT000915090.pdf.txt000915090.pdf.txtExtracted Texttext/plain146030http://www.lume.ufrgs.br/bitstream/10183/96394/2/000915090.pdf.txt09aef209e7cee76f26d7cc67a9eed12bMD52THUMBNAIL000915090.pdf.jpg000915090.pdf.jpgGenerated Thumbnailimage/jpeg1151http://www.lume.ufrgs.br/bitstream/10183/96394/3/000915090.pdf.jpg515f447dc8f20d6ad6b70b9d9dfe112fMD5310183/963942018-10-18 08:06:37.874oai:www.lume.ufrgs.br:10183/96394Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532018-10-18T11:06:37Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Seleção de variáveis para classificação de bateladas produtivas
title Seleção de variáveis para classificação de bateladas produtivas
spellingShingle Seleção de variáveis para classificação de bateladas produtivas
Kahmann, Alessandro
Métodos estatísticos
Análise multivariada
Gestão da produção
Variable selection
Variable importance index
Classification
title_short Seleção de variáveis para classificação de bateladas produtivas
title_full Seleção de variáveis para classificação de bateladas produtivas
title_fullStr Seleção de variáveis para classificação de bateladas produtivas
title_full_unstemmed Seleção de variáveis para classificação de bateladas produtivas
title_sort Seleção de variáveis para classificação de bateladas produtivas
author Kahmann, Alessandro
author_facet Kahmann, Alessandro
author_role author
dc.contributor.author.fl_str_mv Kahmann, Alessandro
dc.contributor.advisor1.fl_str_mv Anzanello, Michel José
contributor_str_mv Anzanello, Michel José
dc.subject.por.fl_str_mv Métodos estatísticos
Análise multivariada
Gestão da produção
topic Métodos estatísticos
Análise multivariada
Gestão da produção
Variable selection
Variable importance index
Classification
dc.subject.eng.fl_str_mv Variable selection
Variable importance index
Classification
description Bancos de dados oriundos de processos industriais são caracterizados por elevado número de variáveis correlacionadas, dados ruidosos e maior número de variáveis do que observações, tornando a seleção de variáveis um importante problema a ser analisado no monitoramento de tais processos. A presente dissertação propõe sistemáticas para seleção de variáveis com vistas à classificação de bateladas produtivas. Para tanto, sugerem-se novos métodos que utilizam Índices de Importância de Variáveis para eliminação sistemática de variáveis combinadas a ferramentas de classificação; objetiva-se selecionar as variáveis de processo com maior habilidade discriminante para categorizar as bateladas em classes. Os métodos possuem uma sistematização básica que consiste em: i) separar os dados históricos em porções de treino e teste; ii) na porção de treino, gerar um Índice de Importância de Variáveis (IIV) que ordenará as variáveis de acordo com sua capacidade discriminante; iii) a cada iteração, classificam-se as amostras da porção de treino e removem-se sistematicamente as variáveis; iv) avaliam-se então os subconjuntos através da distância Euclidiana dos resultados dos subconjuntos a um ponto hipotético ótimo, definindo assim o subconjunto de variáveis a serem selecionadas. Para o cumprimento das etapas acima, são testadas diferentes ferramentas de classificação e IIV. A aplicação dos métodos em bancos reais e simulados verifica a robustez das proposições em dados com distintos níveis de correlação e ruído.
publishDate 2013
dc.date.issued.fl_str_mv 2013
dc.date.accessioned.fl_str_mv 2014-06-11T02:05:08Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/96394
dc.identifier.nrb.pt_BR.fl_str_mv 000915090
url http://hdl.handle.net/10183/96394
identifier_str_mv 000915090
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/96394/1/000915090.pdf
http://www.lume.ufrgs.br/bitstream/10183/96394/2/000915090.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/96394/3/000915090.pdf.jpg
bitstream.checksum.fl_str_mv 2d60224496d0440b46b850f8d18b8d86
09aef209e7cee76f26d7cc67a9eed12b
515f447dc8f20d6ad6b70b9d9dfe112f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085287982792704