Abordagens baseadas em teoria da informação para seleção automatizada de atributos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRN |
Texto Completo: | https://repositorio.ufrn.br/jspui/handle/123456789/26249 |
Resumo: | Com o rápido crescimento de dados complexos em aplicações do mundo real, a seleção de atributos se torna uma etapa de pré-processamento obrigatória em qualquer aplicação para reduzir a complexidade dos dados e o tempo computacional. Com base nisso, vários trabalhos têm desenvolvido métodos eficientes para realizar essa tarefa. A maioria das abordagens de seleção de atributos selecionam os melhores atributos baseado em alguns critérios específicos. Embora algum avanço tenha sido feito, uma má escolha de uma única abordagem ou critério para avaliar a importância dos atributos, e a escolha arbitrária dos números de atributos feita pelo usuário podem levar a uma queda de desempenho das técnicas. A fim de superar algumas dessas questões, este trabalho apresenta o desenvolvimento de duas vertentes de abordagens de seleção de atributos automatizadas. A primeira está relacionada a métodos de fusão de múltiplos algoritmos de seleção de atributos, que utilizam estratégias baseadas em ranking e comitês de classificadores para combinar algoritmos de seleção de atributos em termos de dados (Fusão de Dados) e de decisão (Fusão de Decisão), permitindo aos pesquisadores considerar diferentes perspectivas na etapa de seleção de atributos. A segunda vertente aborda o contexto de seleção dinâmica de atributos através da proposição do método PF-DFS, uma extensão do algoritmo de seleção dinâmica (DFS), usando como analogia a otimização multiobjetivo pela fronteira de pareto, que nos permite considerar perspectivas distintas da relevância dos atributos e definir automaticamente o número de atributos para selecionar. As abordagens propostas foram testadas usando diversas bases de dados reais e artificiais e os resultados mostraram que, quando comparado com métodos de seleção individuais, o desempenho de um dos métodos propostos é notavelmente superior. De fato, os resultados são promissores, uma vez que as abordagens propostas também alcançaram desempenho superiores quando comparados a métodos consagrados da redução de dimensionalidade, e ao usar os conjuntos de dados originais, mostrando que a redução de atributos ruidosos e/ou redundantes pode ter um efeito positivo no desempenho de tarefas de classificação. |
id |
UFRN_fb0e29e4f89e44320773ef0722282918 |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/26249 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Jesus, Jhoseph Kelvin Lopes deAraújo, Daniel Sabino Amorim deBedregal, Benjamin Rene CallejasCarvalho, André Carlos Ponce de Leon Ferreira deCanuto, Anne Magaly de Paula2018-12-05T23:34:13Z2018-12-05T23:34:13Z2018-09-21JESUS, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleção automatizada de atributos. 2018. 107f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2018.https://repositorio.ufrn.br/jspui/handle/123456789/26249Com o rápido crescimento de dados complexos em aplicações do mundo real, a seleção de atributos se torna uma etapa de pré-processamento obrigatória em qualquer aplicação para reduzir a complexidade dos dados e o tempo computacional. Com base nisso, vários trabalhos têm desenvolvido métodos eficientes para realizar essa tarefa. A maioria das abordagens de seleção de atributos selecionam os melhores atributos baseado em alguns critérios específicos. Embora algum avanço tenha sido feito, uma má escolha de uma única abordagem ou critério para avaliar a importância dos atributos, e a escolha arbitrária dos números de atributos feita pelo usuário podem levar a uma queda de desempenho das técnicas. A fim de superar algumas dessas questões, este trabalho apresenta o desenvolvimento de duas vertentes de abordagens de seleção de atributos automatizadas. A primeira está relacionada a métodos de fusão de múltiplos algoritmos de seleção de atributos, que utilizam estratégias baseadas em ranking e comitês de classificadores para combinar algoritmos de seleção de atributos em termos de dados (Fusão de Dados) e de decisão (Fusão de Decisão), permitindo aos pesquisadores considerar diferentes perspectivas na etapa de seleção de atributos. A segunda vertente aborda o contexto de seleção dinâmica de atributos através da proposição do método PF-DFS, uma extensão do algoritmo de seleção dinâmica (DFS), usando como analogia a otimização multiobjetivo pela fronteira de pareto, que nos permite considerar perspectivas distintas da relevância dos atributos e definir automaticamente o número de atributos para selecionar. As abordagens propostas foram testadas usando diversas bases de dados reais e artificiais e os resultados mostraram que, quando comparado com métodos de seleção individuais, o desempenho de um dos métodos propostos é notavelmente superior. De fato, os resultados são promissores, uma vez que as abordagens propostas também alcançaram desempenho superiores quando comparados a métodos consagrados da redução de dimensionalidade, e ao usar os conjuntos de dados originais, mostrando que a redução de atributos ruidosos e/ou redundantes pode ter um efeito positivo no desempenho de tarefas de classificação.With the fast growing of complex data in real world applications, the feature selection becomes a mandatory preprocessing step in any application to reduce both the complexity of the data and the computing time. Based on that, several works have been produced in order to develop efficient methods to perform this task. Most feature selection methods select the best attributes based on some specic criteria. Although some advancement has been made, a poor choice of a single algorithm or criteria to assess the importance of attributes, and the arbitrary choice of attribute numbers made by the user may lead to poor analysis. In order to overcome some of these issues, this paper presents the development of two strands of automated attribute selection approaches. The first are fusion methods of multiple attribute selection algorithms, which use ranking-based strategies and classifier ensembles to combine feature selection algorithms in terms of data (Data Fusion) and decision (Fusion Decision), allowing researchers to consider different perspectives in the attribute selection stage. The second strand approaches the dynamic feature selection context through the proposition of the PF-DFS method, an improvement of a dynamic feature selection algorithm, using the idea of Pareto frontier multiobjective optimization, which allows us to consider different perspectives of the relevance of the attributes and to automatically define the number of attributes to select. The proposed approaches were tested using several real and artificial databases and the results showed that when compared to individual selection methods, the performance of one of the proposed methods is remarkably higher. In fact, the results are promising since the proposed approaches have also achieved superior performance when compared to established dimensionality reduction methods, and by using the original data sets, showing that the reduction of noisy and/or redundant attributes may have a positive effect on the performance of classification tasks.Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPqporCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOSeleção de atributosComitêsTeoria da InformaçãoAnálise de dadosAlgoritmos de agrupamentoFronteira de ParetoAbordagens baseadas em teoria da informação para seleção automatizada de atributosInformation theory based approaches to automated feature selectioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisPROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOUFRNBrasilinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALJhosephKelvinLopesDeJesus_DISSERT.pdfapplication/pdf3854504https://repositorio.ufrn.br/bitstream/123456789/26249/1/JhosephKelvinLopesDeJesus_DISSERT.pdf3d87b96dea3da7a5949509769123ef26MD51TEXTJhosephKelvinLopesDeJesus_DISSERT.pdf.txtJhosephKelvinLopesDeJesus_DISSERT.pdf.txtExtracted texttext/plain208437https://repositorio.ufrn.br/bitstream/123456789/26249/2/JhosephKelvinLopesDeJesus_DISSERT.pdf.txt1f4c4b5deedc5b6850d486e3a430ce3eMD52THUMBNAILJhosephKelvinLopesDeJesus_DISSERT.pdf.jpgJhosephKelvinLopesDeJesus_DISSERT.pdf.jpgIM Thumbnailimage/jpeg3064https://repositorio.ufrn.br/bitstream/123456789/26249/3/JhosephKelvinLopesDeJesus_DISSERT.pdf.jpge2b52067f16238c6d2b24af08ce1cd76MD53123456789/262492019-01-29 22:21:13.476oai:https://repositorio.ufrn.br:123456789/26249Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2019-01-30T01:21:13Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.pt_BR.fl_str_mv |
Abordagens baseadas em teoria da informação para seleção automatizada de atributos |
dc.title.alternative.pt_BR.fl_str_mv |
Information theory based approaches to automated feature selection |
title |
Abordagens baseadas em teoria da informação para seleção automatizada de atributos |
spellingShingle |
Abordagens baseadas em teoria da informação para seleção automatizada de atributos Jesus, Jhoseph Kelvin Lopes de CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO Seleção de atributos Comitês Teoria da Informação Análise de dados Algoritmos de agrupamento Fronteira de Pareto |
title_short |
Abordagens baseadas em teoria da informação para seleção automatizada de atributos |
title_full |
Abordagens baseadas em teoria da informação para seleção automatizada de atributos |
title_fullStr |
Abordagens baseadas em teoria da informação para seleção automatizada de atributos |
title_full_unstemmed |
Abordagens baseadas em teoria da informação para seleção automatizada de atributos |
title_sort |
Abordagens baseadas em teoria da informação para seleção automatizada de atributos |
author |
Jesus, Jhoseph Kelvin Lopes de |
author_facet |
Jesus, Jhoseph Kelvin Lopes de |
author_role |
author |
dc.contributor.authorID.pt_BR.fl_str_mv |
|
dc.contributor.advisorID.pt_BR.fl_str_mv |
|
dc.contributor.advisor-co1ID.pt_BR.fl_str_mv |
|
dc.contributor.referees1.none.fl_str_mv |
Bedregal, Benjamin Rene Callejas |
dc.contributor.referees1ID.pt_BR.fl_str_mv |
|
dc.contributor.referees2.none.fl_str_mv |
Carvalho, André Carlos Ponce de Leon Ferreira de |
dc.contributor.referees2ID.pt_BR.fl_str_mv |
|
dc.contributor.author.fl_str_mv |
Jesus, Jhoseph Kelvin Lopes de |
dc.contributor.advisor-co1.fl_str_mv |
Araújo, Daniel Sabino Amorim de |
dc.contributor.advisor1.fl_str_mv |
Canuto, Anne Magaly de Paula |
contributor_str_mv |
Araújo, Daniel Sabino Amorim de Canuto, Anne Magaly de Paula |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO Seleção de atributos Comitês Teoria da Informação Análise de dados Algoritmos de agrupamento Fronteira de Pareto |
dc.subject.por.fl_str_mv |
Seleção de atributos Comitês Teoria da Informação Análise de dados Algoritmos de agrupamento Fronteira de Pareto |
description |
Com o rápido crescimento de dados complexos em aplicações do mundo real, a seleção de atributos se torna uma etapa de pré-processamento obrigatória em qualquer aplicação para reduzir a complexidade dos dados e o tempo computacional. Com base nisso, vários trabalhos têm desenvolvido métodos eficientes para realizar essa tarefa. A maioria das abordagens de seleção de atributos selecionam os melhores atributos baseado em alguns critérios específicos. Embora algum avanço tenha sido feito, uma má escolha de uma única abordagem ou critério para avaliar a importância dos atributos, e a escolha arbitrária dos números de atributos feita pelo usuário podem levar a uma queda de desempenho das técnicas. A fim de superar algumas dessas questões, este trabalho apresenta o desenvolvimento de duas vertentes de abordagens de seleção de atributos automatizadas. A primeira está relacionada a métodos de fusão de múltiplos algoritmos de seleção de atributos, que utilizam estratégias baseadas em ranking e comitês de classificadores para combinar algoritmos de seleção de atributos em termos de dados (Fusão de Dados) e de decisão (Fusão de Decisão), permitindo aos pesquisadores considerar diferentes perspectivas na etapa de seleção de atributos. A segunda vertente aborda o contexto de seleção dinâmica de atributos através da proposição do método PF-DFS, uma extensão do algoritmo de seleção dinâmica (DFS), usando como analogia a otimização multiobjetivo pela fronteira de pareto, que nos permite considerar perspectivas distintas da relevância dos atributos e definir automaticamente o número de atributos para selecionar. As abordagens propostas foram testadas usando diversas bases de dados reais e artificiais e os resultados mostraram que, quando comparado com métodos de seleção individuais, o desempenho de um dos métodos propostos é notavelmente superior. De fato, os resultados são promissores, uma vez que as abordagens propostas também alcançaram desempenho superiores quando comparados a métodos consagrados da redução de dimensionalidade, e ao usar os conjuntos de dados originais, mostrando que a redução de atributos ruidosos e/ou redundantes pode ter um efeito positivo no desempenho de tarefas de classificação. |
publishDate |
2018 |
dc.date.accessioned.fl_str_mv |
2018-12-05T23:34:13Z |
dc.date.available.fl_str_mv |
2018-12-05T23:34:13Z |
dc.date.issued.fl_str_mv |
2018-09-21 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
JESUS, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleção automatizada de atributos. 2018. 107f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2018. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/jspui/handle/123456789/26249 |
identifier_str_mv |
JESUS, Jhoseph Kelvin Lopes de. Abordagens baseadas em teoria da informação para seleção automatizada de atributos. 2018. 107f. Dissertação (Mestrado em Sistemas e Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2018. |
url |
https://repositorio.ufrn.br/jspui/handle/123456789/26249 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.program.fl_str_mv |
PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
Brasil |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/26249/1/JhosephKelvinLopesDeJesus_DISSERT.pdf https://repositorio.ufrn.br/bitstream/123456789/26249/2/JhosephKelvinLopesDeJesus_DISSERT.pdf.txt https://repositorio.ufrn.br/bitstream/123456789/26249/3/JhosephKelvinLopesDeJesus_DISSERT.pdf.jpg |
bitstream.checksum.fl_str_mv |
3d87b96dea3da7a5949509769123ef26 1f4c4b5deedc5b6850d486e3a430ce3e e2b52067f16238c6d2b24af08ce1cd76 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1814832760878006272 |