Abordagens baseadas em teoria da informação para seleção automatizada de atributos

Detalhes bibliográficos
Autor(a) principal: Jesus, Jhoseph Kelvin Lopes de
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/jspui/handle/123456789/26249
Resumo: Com o rápido crescimento de dados complexos em aplicações do mundo real, a seleção de atributos se torna uma etapa de pré-processamento obrigatória em qualquer aplicação para reduzir a complexidade dos dados e o tempo computacional. Com base nisso, vários trabalhos têm desenvolvido métodos eficientes para realizar essa tarefa. A maioria das abordagens de seleção de atributos selecionam os melhores atributos baseado em alguns critérios específicos. Embora algum avanço tenha sido feito, uma má escolha de uma única abordagem ou critério para avaliar a importância dos atributos, e a escolha arbitrária dos números de atributos feita pelo usuário podem levar a uma queda de desempenho das técnicas. A fim de superar algumas dessas questões, este trabalho apresenta o desenvolvimento de duas vertentes de abordagens de seleção de atributos automatizadas. A primeira está relacionada a métodos de fusão de múltiplos algoritmos de seleção de atributos, que utilizam estratégias baseadas em ranking e comitês de classificadores para combinar algoritmos de seleção de atributos em termos de dados (Fusão de Dados) e de decisão (Fusão de Decisão), permitindo aos pesquisadores considerar diferentes perspectivas na etapa de seleção de atributos. A segunda vertente aborda o contexto de seleção dinâmica de atributos através da proposição do método PF-DFS, uma extensão do algoritmo de seleção dinâmica (DFS), usando como analogia a otimização multiobjetivo pela fronteira de pareto, que nos permite considerar perspectivas distintas da relevância dos atributos e definir automaticamente o número de atributos para selecionar. As abordagens propostas foram testadas usando diversas bases de dados reais e artificiais e os resultados mostraram que, quando comparado com métodos de seleção individuais, o desempenho de um dos métodos propostos é notavelmente superior. De fato, os resultados são promissores, uma vez que as abordagens propostas também alcançaram desempenho superiores quando comparados a métodos consagrados da redução de dimensionalidade, e ao usar os conjuntos de dados originais, mostrando que a redução de atributos ruidosos e/ou redundantes pode ter um efeito positivo no desempenho de tarefas de classificação.
id UFRN_fb0e29e4f89e44320773ef0722282918
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/26249
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Jesus, Jhoseph Kelvin Lopes deAraújo, Daniel Sabino Amorim deBedregal, Benjamin Rene CallejasCarvalho, André Carlos Ponce de Leon Ferreira deCanuto, Anne Magaly de Paula2018-12-05T23:34:13Z2018-12-05T23:34:13Z2018-09-21JESUS, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleção automatizada de atributos. 2018. 107f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2018.https://repositorio.ufrn.br/jspui/handle/123456789/26249Com o rápido crescimento de dados complexos em aplicações do mundo real, a seleção de atributos se torna uma etapa de pré-processamento obrigatória em qualquer aplicação para reduzir a complexidade dos dados e o tempo computacional. Com base nisso, vários trabalhos têm desenvolvido métodos eficientes para realizar essa tarefa. A maioria das abordagens de seleção de atributos selecionam os melhores atributos baseado em alguns critérios específicos. Embora algum avanço tenha sido feito, uma má escolha de uma única abordagem ou critério para avaliar a importância dos atributos, e a escolha arbitrária dos números de atributos feita pelo usuário podem levar a uma queda de desempenho das técnicas. A fim de superar algumas dessas questões, este trabalho apresenta o desenvolvimento de duas vertentes de abordagens de seleção de atributos automatizadas. A primeira está relacionada a métodos de fusão de múltiplos algoritmos de seleção de atributos, que utilizam estratégias baseadas em ranking e comitês de classificadores para combinar algoritmos de seleção de atributos em termos de dados (Fusão de Dados) e de decisão (Fusão de Decisão), permitindo aos pesquisadores considerar diferentes perspectivas na etapa de seleção de atributos. A segunda vertente aborda o contexto de seleção dinâmica de atributos através da proposição do método PF-DFS, uma extensão do algoritmo de seleção dinâmica (DFS), usando como analogia a otimização multiobjetivo pela fronteira de pareto, que nos permite considerar perspectivas distintas da relevância dos atributos e definir automaticamente o número de atributos para selecionar. As abordagens propostas foram testadas usando diversas bases de dados reais e artificiais e os resultados mostraram que, quando comparado com métodos de seleção individuais, o desempenho de um dos métodos propostos é notavelmente superior. De fato, os resultados são promissores, uma vez que as abordagens propostas também alcançaram desempenho superiores quando comparados a métodos consagrados da redução de dimensionalidade, e ao usar os conjuntos de dados originais, mostrando que a redução de atributos ruidosos e/ou redundantes pode ter um efeito positivo no desempenho de tarefas de classificação.With the fast growing of complex data in real world applications, the feature selection becomes a mandatory preprocessing step in any application to reduce both the complexity of the data and the computing time. Based on that, several works have been produced in order to develop efficient methods to perform this task. Most feature selection methods select the best attributes based on some specic criteria. Although some advancement has been made, a poor choice of a single algorithm or criteria to assess the importance of attributes, and the arbitrary choice of attribute numbers made by the user may lead to poor analysis. In order to overcome some of these issues, this paper presents the development of two strands of automated attribute selection approaches. The first are fusion methods of multiple attribute selection algorithms, which use ranking-based strategies and classifier ensembles to combine feature selection algorithms in terms of data (Data Fusion) and decision (Fusion Decision), allowing researchers to consider different perspectives in the attribute selection stage. The second strand approaches the dynamic feature selection context through the proposition of the PF-DFS method, an improvement of a dynamic feature selection algorithm, using the idea of Pareto frontier multiobjective optimization, which allows us to consider different perspectives of the relevance of the attributes and to automatically define the number of attributes to select. The proposed approaches were tested using several real and artificial databases and the results showed that when compared to individual selection methods, the performance of one of the proposed methods is remarkably higher. In fact, the results are promising since the proposed approaches have also achieved superior performance when compared to established dimensionality reduction methods, and by using the original data sets, showing that the reduction of noisy and/or redundant attributes may have a positive effect on the performance of classification tasks.Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPqporCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOSeleção de atributosComitêsTeoria da InformaçãoAnálise de dadosAlgoritmos de agrupamentoFronteira de ParetoAbordagens baseadas em teoria da informação para seleção automatizada de atributosInformation theory based approaches to automated feature selectioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOUFRNBrasilinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALJhosephKelvinLopesDeJesus_DISSERT.pdfapplication/pdf3854504https://repositorio.ufrn.br/bitstream/123456789/26249/1/JhosephKelvinLopesDeJesus_DISSERT.pdf3d87b96dea3da7a5949509769123ef26MD51TEXTJhosephKelvinLopesDeJesus_DISSERT.pdf.txtJhosephKelvinLopesDeJesus_DISSERT.pdf.txtExtracted texttext/plain208437https://repositorio.ufrn.br/bitstream/123456789/26249/2/JhosephKelvinLopesDeJesus_DISSERT.pdf.txt1f4c4b5deedc5b6850d486e3a430ce3eMD52THUMBNAILJhosephKelvinLopesDeJesus_DISSERT.pdf.jpgJhosephKelvinLopesDeJesus_DISSERT.pdf.jpgIM Thumbnailimage/jpeg3064https://repositorio.ufrn.br/bitstream/123456789/26249/3/JhosephKelvinLopesDeJesus_DISSERT.pdf.jpge2b52067f16238c6d2b24af08ce1cd76MD53123456789/262492019-01-29 22:21:13.476oai:https://repositorio.ufrn.br:123456789/26249Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2019-01-30T01:21:13Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Abordagens baseadas em teoria da informação para seleção automatizada de atributos
dc.title.alternative.pt_BR.fl_str_mv Information theory based approaches to automated feature selection
title Abordagens baseadas em teoria da informação para seleção automatizada de atributos
spellingShingle Abordagens baseadas em teoria da informação para seleção automatizada de atributos
Jesus, Jhoseph Kelvin Lopes de
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Seleção de atributos
Comitês
Teoria da Informação
Análise de dados
Algoritmos de agrupamento
Fronteira de Pareto
title_short Abordagens baseadas em teoria da informação para seleção automatizada de atributos
title_full Abordagens baseadas em teoria da informação para seleção automatizada de atributos
title_fullStr Abordagens baseadas em teoria da informação para seleção automatizada de atributos
title_full_unstemmed Abordagens baseadas em teoria da informação para seleção automatizada de atributos
title_sort Abordagens baseadas em teoria da informação para seleção automatizada de atributos
author Jesus, Jhoseph Kelvin Lopes de
author_facet Jesus, Jhoseph Kelvin Lopes de
author_role author
dc.contributor.authorID.pt_BR.fl_str_mv
dc.contributor.advisorID.pt_BR.fl_str_mv
dc.contributor.advisor-co1ID.pt_BR.fl_str_mv
dc.contributor.referees1.none.fl_str_mv Bedregal, Benjamin Rene Callejas
dc.contributor.referees1ID.pt_BR.fl_str_mv
dc.contributor.referees2.none.fl_str_mv Carvalho, André Carlos Ponce de Leon Ferreira de
dc.contributor.referees2ID.pt_BR.fl_str_mv
dc.contributor.author.fl_str_mv Jesus, Jhoseph Kelvin Lopes de
dc.contributor.advisor-co1.fl_str_mv Araújo, Daniel Sabino Amorim de
dc.contributor.advisor1.fl_str_mv Canuto, Anne Magaly de Paula
contributor_str_mv Araújo, Daniel Sabino Amorim de
Canuto, Anne Magaly de Paula
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Seleção de atributos
Comitês
Teoria da Informação
Análise de dados
Algoritmos de agrupamento
Fronteira de Pareto
dc.subject.por.fl_str_mv Seleção de atributos
Comitês
Teoria da Informação
Análise de dados
Algoritmos de agrupamento
Fronteira de Pareto
description Com o rápido crescimento de dados complexos em aplicações do mundo real, a seleção de atributos se torna uma etapa de pré-processamento obrigatória em qualquer aplicação para reduzir a complexidade dos dados e o tempo computacional. Com base nisso, vários trabalhos têm desenvolvido métodos eficientes para realizar essa tarefa. A maioria das abordagens de seleção de atributos selecionam os melhores atributos baseado em alguns critérios específicos. Embora algum avanço tenha sido feito, uma má escolha de uma única abordagem ou critério para avaliar a importância dos atributos, e a escolha arbitrária dos números de atributos feita pelo usuário podem levar a uma queda de desempenho das técnicas. A fim de superar algumas dessas questões, este trabalho apresenta o desenvolvimento de duas vertentes de abordagens de seleção de atributos automatizadas. A primeira está relacionada a métodos de fusão de múltiplos algoritmos de seleção de atributos, que utilizam estratégias baseadas em ranking e comitês de classificadores para combinar algoritmos de seleção de atributos em termos de dados (Fusão de Dados) e de decisão (Fusão de Decisão), permitindo aos pesquisadores considerar diferentes perspectivas na etapa de seleção de atributos. A segunda vertente aborda o contexto de seleção dinâmica de atributos através da proposição do método PF-DFS, uma extensão do algoritmo de seleção dinâmica (DFS), usando como analogia a otimização multiobjetivo pela fronteira de pareto, que nos permite considerar perspectivas distintas da relevância dos atributos e definir automaticamente o número de atributos para selecionar. As abordagens propostas foram testadas usando diversas bases de dados reais e artificiais e os resultados mostraram que, quando comparado com métodos de seleção individuais, o desempenho de um dos métodos propostos é notavelmente superior. De fato, os resultados são promissores, uma vez que as abordagens propostas também alcançaram desempenho superiores quando comparados a métodos consagrados da redução de dimensionalidade, e ao usar os conjuntos de dados originais, mostrando que a redução de atributos ruidosos e/ou redundantes pode ter um efeito positivo no desempenho de tarefas de classificação.
publishDate 2018
dc.date.accessioned.fl_str_mv 2018-12-05T23:34:13Z
dc.date.available.fl_str_mv 2018-12-05T23:34:13Z
dc.date.issued.fl_str_mv 2018-09-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv JESUS, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleção automatizada de atributos. 2018. 107f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2018.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/jspui/handle/123456789/26249
identifier_str_mv JESUS, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleção automatizada de atributos. 2018. 107f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2018.
url https://repositorio.ufrn.br/jspui/handle/123456789/26249
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.program.fl_str_mv PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/26249/1/JhosephKelvinLopesDeJesus_DISSERT.pdf
https://repositorio.ufrn.br/bitstream/123456789/26249/2/JhosephKelvinLopesDeJesus_DISSERT.pdf.txt
https://repositorio.ufrn.br/bitstream/123456789/26249/3/JhosephKelvinLopesDeJesus_DISSERT.pdf.jpg
bitstream.checksum.fl_str_mv 3d87b96dea3da7a5949509769123ef26
1f4c4b5deedc5b6850d486e3a430ce3e
e2b52067f16238c6d2b24af08ce1cd76
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1814832760878006272