Imputação automática de atributos faltantes em problemas de classificação: um estudo comparativo envolvendo algoritmos bio-inspirados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2009 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UNIFOR |
Texto Completo: | https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/87282 |
Resumo: | Diversas bases de dados reais se caracterizam pela ausência marcante de determinados valores de seus atributos. Esses dados ausentes podem vir a degradar sobremaneira o desempenho de algoritmos de mineração de dados, dificultando a análise resultante. Uma maneira comum de tratar esse problema é via imputação, ou seja, estimação dos valores faltantes a partir de outros existentes na base. Este trabalho avalia como uma abordagem de imputação por otimização numérica utilizando algoritmos bio-inspirados pode vir a aprimorar o desempenho de classificadores induzidos sobre as bases pré-processadas. Três técnicas foram empregadas segundo esta abordagem: imputação utilizando algoritmo genético (GA), imputação utilizando otimização por enxame de partículas (PSO) e imputação utilizando co-evolução cooperativa. Com o intuito de analisar as técnicas propostas, em termos de eficiência e eficácia, seis bases de dados do repositório UCI e cinco populares algoritmos de classificação foram adotados. Para efeito de comparação, foram empregadas ainda outras duas técnicas tradicionais de imputação: a imputação pela média ou moda e a imputação fazendo uso do algoritmo KNN. O estudo mostra que todas as técnicas de imputação consideradas são capazes de elevar o desempenho dos classificadores. Os resultados obtidos não apontam para um método ótimo para todas as situações. Contudo, os experimentos sugerem que, em geral, as técnicas que fazem uso de algoritmos bio-inspirados são as mais eficazes ao passo que as técnicas tradicionais são as de melhor desempenho computacional. Observa-se também que os algoritmos co-evolução cooperativa e PSO, ainda não muito explorados no contexto de pré-processamento de dados, sobressaíram-se em diversos experimentos realizados. Palavras-Chave: Mineração de dados, Pré-processamento de dados, Imputação de valores faltantes, Metaheurísticas, Algoritmos genéticos, Otimização por enxame de partículas, Co-evolução cooperativa. |
id |
UFOR_269e1280403770e5f119be6692a75ef8 |
---|---|
oai_identifier_str |
oai::87282 |
network_acronym_str |
UFOR |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
repository_id_str |
|
spelling |
Imputação automática de atributos faltantes em problemas de classificação: um estudo comparativo envolvendo algoritmos bio-inspiradosMineração de dadosAlgorítmos genéticosOtimização matemáticaDiversas bases de dados reais se caracterizam pela ausência marcante de determinados valores de seus atributos. Esses dados ausentes podem vir a degradar sobremaneira o desempenho de algoritmos de mineração de dados, dificultando a análise resultante. Uma maneira comum de tratar esse problema é via imputação, ou seja, estimação dos valores faltantes a partir de outros existentes na base. Este trabalho avalia como uma abordagem de imputação por otimização numérica utilizando algoritmos bio-inspirados pode vir a aprimorar o desempenho de classificadores induzidos sobre as bases pré-processadas. Três técnicas foram empregadas segundo esta abordagem: imputação utilizando algoritmo genético (GA), imputação utilizando otimização por enxame de partículas (PSO) e imputação utilizando co-evolução cooperativa. Com o intuito de analisar as técnicas propostas, em termos de eficiência e eficácia, seis bases de dados do repositório UCI e cinco populares algoritmos de classificação foram adotados. Para efeito de comparação, foram empregadas ainda outras duas técnicas tradicionais de imputação: a imputação pela média ou moda e a imputação fazendo uso do algoritmo KNN. O estudo mostra que todas as técnicas de imputação consideradas são capazes de elevar o desempenho dos classificadores. Os resultados obtidos não apontam para um método ótimo para todas as situações. Contudo, os experimentos sugerem que, em geral, as técnicas que fazem uso de algoritmos bio-inspirados são as mais eficazes ao passo que as técnicas tradicionais são as de melhor desempenho computacional. Observa-se também que os algoritmos co-evolução cooperativa e PSO, ainda não muito explorados no contexto de pré-processamento de dados, sobressaíram-se em diversos experimentos realizados. Palavras-Chave: Mineração de dados, Pré-processamento de dados, Imputação de valores faltantes, Metaheurísticas, Algoritmos genéticos, Otimização por enxame de partículas, Co-evolução cooperativa.Real-world databases may contain several missing values, which may degrade the performance of data mining algorithms running over them, making it hard to analyze data. This problem is usually dealt with missing value imputation. The present work evaluates how imputation by numerical optimization using bio-inspired algorithms may affect the performance of classifiers induced over pre-processed data. Here, three techniques were conceived: imputation using genetic algorithm (GA), imputation using particle swarm optimization (PSO), and imputation using cooperative co-evolution. In order to analyze the proposed techniques, six different datasets from the UCI Machine Learning Repository and five well known classification algorithms were adopted. In this analysis, efficiency and efficacy criteria were taken into account. In order to compare the results obtained, two traditional missing value imputation techniques were used, namely, imputation using mean or mode, and imputation using the KNN algorithm. The study shows that all the imputation techniques considered could increase the performance of the resulting classifiers. The obtained results do not point out an optimal method, adequate to all situations. The experiments, however, showed that, in general, the techniques that use bio-inspired algorithms were the most effective, while traditional techniques entailed better computational performance. It should also be observed that the heuristic techniques PSO and cooperative co-evolution, still not much explored in the context of data preprocessing, could have prevailed in several experiments. Keywords: Data mining, Data preparation, Missing value imputation, Metaheuristics, Genetic algorithms, Particle swarm optimization, Cooperative co-evolution.Coelho, Andre Luis VasconcelosCoelho, Andre Luis VasconcelosCarvalho, Andre Ponce de Leon Ferreira dePinheiro, Plácido RogérioUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaOliveira, Pedro Gonçalves de2009info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/87282https://uol.unifor.br/auth-sophia/exibicao/5923Disponibilidade forma física: Existe obra em CD-Rom de código : 82713porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2024-01-24T20:47:58Zoai::87282Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:2024-01-24T20:47:58Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false |
dc.title.none.fl_str_mv |
Imputação automática de atributos faltantes em problemas de classificação: um estudo comparativo envolvendo algoritmos bio-inspirados |
title |
Imputação automática de atributos faltantes em problemas de classificação: um estudo comparativo envolvendo algoritmos bio-inspirados |
spellingShingle |
Imputação automática de atributos faltantes em problemas de classificação: um estudo comparativo envolvendo algoritmos bio-inspirados Oliveira, Pedro Gonçalves de Mineração de dados Algorítmos genéticos Otimização matemática |
title_short |
Imputação automática de atributos faltantes em problemas de classificação: um estudo comparativo envolvendo algoritmos bio-inspirados |
title_full |
Imputação automática de atributos faltantes em problemas de classificação: um estudo comparativo envolvendo algoritmos bio-inspirados |
title_fullStr |
Imputação automática de atributos faltantes em problemas de classificação: um estudo comparativo envolvendo algoritmos bio-inspirados |
title_full_unstemmed |
Imputação automática de atributos faltantes em problemas de classificação: um estudo comparativo envolvendo algoritmos bio-inspirados |
title_sort |
Imputação automática de atributos faltantes em problemas de classificação: um estudo comparativo envolvendo algoritmos bio-inspirados |
author |
Oliveira, Pedro Gonçalves de |
author_facet |
Oliveira, Pedro Gonçalves de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Coelho, Andre Luis Vasconcelos Coelho, Andre Luis Vasconcelos Carvalho, Andre Ponce de Leon Ferreira de Pinheiro, Plácido Rogério Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada |
dc.contributor.author.fl_str_mv |
Oliveira, Pedro Gonçalves de |
dc.subject.por.fl_str_mv |
Mineração de dados Algorítmos genéticos Otimização matemática |
topic |
Mineração de dados Algorítmos genéticos Otimização matemática |
description |
Diversas bases de dados reais se caracterizam pela ausência marcante de determinados valores de seus atributos. Esses dados ausentes podem vir a degradar sobremaneira o desempenho de algoritmos de mineração de dados, dificultando a análise resultante. Uma maneira comum de tratar esse problema é via imputação, ou seja, estimação dos valores faltantes a partir de outros existentes na base. Este trabalho avalia como uma abordagem de imputação por otimização numérica utilizando algoritmos bio-inspirados pode vir a aprimorar o desempenho de classificadores induzidos sobre as bases pré-processadas. Três técnicas foram empregadas segundo esta abordagem: imputação utilizando algoritmo genético (GA), imputação utilizando otimização por enxame de partículas (PSO) e imputação utilizando co-evolução cooperativa. Com o intuito de analisar as técnicas propostas, em termos de eficiência e eficácia, seis bases de dados do repositório UCI e cinco populares algoritmos de classificação foram adotados. Para efeito de comparação, foram empregadas ainda outras duas técnicas tradicionais de imputação: a imputação pela média ou moda e a imputação fazendo uso do algoritmo KNN. O estudo mostra que todas as técnicas de imputação consideradas são capazes de elevar o desempenho dos classificadores. Os resultados obtidos não apontam para um método ótimo para todas as situações. Contudo, os experimentos sugerem que, em geral, as técnicas que fazem uso de algoritmos bio-inspirados são as mais eficazes ao passo que as técnicas tradicionais são as de melhor desempenho computacional. Observa-se também que os algoritmos co-evolução cooperativa e PSO, ainda não muito explorados no contexto de pré-processamento de dados, sobressaíram-se em diversos experimentos realizados. Palavras-Chave: Mineração de dados, Pré-processamento de dados, Imputação de valores faltantes, Metaheurísticas, Algoritmos genéticos, Otimização por enxame de partículas, Co-evolução cooperativa. |
publishDate |
2009 |
dc.date.none.fl_str_mv |
2009 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/87282 |
url |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/87282 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://uol.unifor.br/auth-sophia/exibicao/5923 Disponibilidade forma física: Existe obra em CD-Rom de código : 82713 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR instname:Universidade de Fortaleza (UNIFOR) instacron:UNIFOR |
instname_str |
Universidade de Fortaleza (UNIFOR) |
instacron_str |
UNIFOR |
institution |
UNIFOR |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
collection |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR) |
repository.mail.fl_str_mv |
bib@unifor.br||bib@unifor.br |
_version_ |
1815437294160576512 |