Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR

Detalhes bibliográficos
Autor(a) principal: Gomes, Henrique Manuel Carvalho
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.21/14229
Resumo: Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores
id RCAP_9abfcbdac345f58e1d1104ade012fe33
oai_identifier_str oai:repositorio.ipl.pt:10400.21/14229
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Desenvolvimento de um package em R para Ensemble Feature Ranking – EFRSeleção de característicasMineração de dadosAvaliação de característicasFiltrosConjunto de filtrosFeature selectionData miningFeature rankingFiltersFilter ensembleDissertação para obtenção do Grau de Mestre em Engenharia Informática e de ComputadoresEm Mineração de Dados e Aprendizagem Automática, o processo de Seleção de Atri butos ou Seleção de Características, corresponde à tarefa de eliminar do conjunto de dados original, as características irrelevantes e redundantes, ou seja, aquelas que pouco contribuem como informação preditiva. O processo de Seleção de Características, para além de ser fundamental à otimização e viabilização da geração de modelos predi tivos, contribui diretamente para o processo de Extração de Conhecimento. Dada a diversidade do domínio do problema, aplicação e estrutura dos dados a analisar, a generalização e automatização do processo seleção de características é extremamente difícil. Sendo o esforço e tempo atribuído ao pré-processamento dos dados, uma parte substancial do esforço total atribuído a um processo de mineração de dados, uma contribuição na eficiência do processo de seleção de características é relevante para todo o processo mineração de dados. Entre as muitas técnicas e publicações efetuadas sobre o seleção de características, o algoritmo de Avaliação de Características, Ensemble Feature Ranking (EFR), tal como publicado em 2014 no artigo Ensemble feature ranking applied to medical data, tem o mérito de poder enquadrar no mesmo processo de seleção de características, um conjunto de diferentes métodos por filtragem, conjugado com um número arbitrário de execuções sobre partições do conjunto de dados com um número reduzido de instâncias, o que o tornam eficiente e adequado a conjuntos de dados de dimensionalidade elevada. Tendo como base o algoritmo EFR, pretende-se a reimplementação mais genérica, eficiente e automatizada desse algoritmo, disponibilizada num package em R, que possa ser reutilizado de forma simples e mais integrada num processo de mineração de dados.In Data Mining and Machine Learning, Feature Selection process corresponds to the task of removing from the original data dataset, the irrelevant or redundant attributes, that is, those that present little predictive information. The feature selection process in addition to being fundamental to the optimization and in some cases to enable predictive models, contributes by itself to the Knowledge Discovery in Data. Given the problem domain diversity in data mining (application scope and structure and data types) on feature subset findings, the generalization of the process is extremely difficult. Since the effort and time allocated to data pre-processing is a substantial part of the total effort allocated to a data mining process, any contribution to the efficiency of the feature selection process is relevant for the entire data mining process. Among the many techniques and publications carried out on feature selection, the feature ranking algorithm "Ensemble feature ranking (EFR)", as published in 2014 in the article Ensem ble feature ranking applied to medical data, has the merit of being able to fit in the same feature selection process, a combined set of different filtering methods executed over an arbitrary number of random small size dataset partitions. Based on the Ensemble feature ranking (EFR) algorithm, the aim is to have a more generic, efficient and automated reimplementation of the algorithm, available in a R Package for Ensemble feature ranking, which can be reused in a simple and more integrated way in data mining processes.Instituto Superior de Engenharia de LisboaDatia, Nuno Miguel SoaresPato, Matilde Pós-de-MinaRCIPLGomes, Henrique Manuel Carvalho2022-01-31T11:31:33Z2021-122021-12-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.21/14229TID:202912175porGOMES, Henrique Manuel Carvalho – Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR. Lisboa: Instituto Superior de Engenharia de Lisboa, 2021. Dissertação de Mestrado.info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-08-03T10:10:05Zoai:repositorio.ipl.pt:10400.21/14229Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:22:04.386466Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR
title Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR
spellingShingle Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR
Gomes, Henrique Manuel Carvalho
Seleção de características
Mineração de dados
Avaliação de características
Filtros
Conjunto de filtros
Feature selection
Data mining
Feature ranking
Filters
Filter ensemble
title_short Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR
title_full Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR
title_fullStr Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR
title_full_unstemmed Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR
title_sort Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR
author Gomes, Henrique Manuel Carvalho
author_facet Gomes, Henrique Manuel Carvalho
author_role author
dc.contributor.none.fl_str_mv Datia, Nuno Miguel Soares
Pato, Matilde Pós-de-Mina
RCIPL
dc.contributor.author.fl_str_mv Gomes, Henrique Manuel Carvalho
dc.subject.por.fl_str_mv Seleção de características
Mineração de dados
Avaliação de características
Filtros
Conjunto de filtros
Feature selection
Data mining
Feature ranking
Filters
Filter ensemble
topic Seleção de características
Mineração de dados
Avaliação de características
Filtros
Conjunto de filtros
Feature selection
Data mining
Feature ranking
Filters
Filter ensemble
description Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores
publishDate 2021
dc.date.none.fl_str_mv 2021-12
2021-12-01T00:00:00Z
2022-01-31T11:31:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.21/14229
TID:202912175
url http://hdl.handle.net/10400.21/14229
identifier_str_mv TID:202912175
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv GOMES, Henrique Manuel Carvalho – Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR. Lisboa: Instituto Superior de Engenharia de Lisboa, 2021. Dissertação de Mestrado.
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Superior de Engenharia de Lisboa
publisher.none.fl_str_mv Instituto Superior de Engenharia de Lisboa
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133491892322304