Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.21/14229 |
Resumo: | Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores |
id |
RCAP_9abfcbdac345f58e1d1104ade012fe33 |
---|---|
oai_identifier_str |
oai:repositorio.ipl.pt:10400.21/14229 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Desenvolvimento de um package em R para Ensemble Feature Ranking – EFRSeleção de característicasMineração de dadosAvaliação de característicasFiltrosConjunto de filtrosFeature selectionData miningFeature rankingFiltersFilter ensembleDissertação para obtenção do Grau de Mestre em Engenharia Informática e de ComputadoresEm Mineração de Dados e Aprendizagem Automática, o processo de Seleção de Atri butos ou Seleção de Características, corresponde à tarefa de eliminar do conjunto de dados original, as características irrelevantes e redundantes, ou seja, aquelas que pouco contribuem como informação preditiva. O processo de Seleção de Características, para além de ser fundamental à otimização e viabilização da geração de modelos predi tivos, contribui diretamente para o processo de Extração de Conhecimento. Dada a diversidade do domínio do problema, aplicação e estrutura dos dados a analisar, a generalização e automatização do processo seleção de características é extremamente difícil. Sendo o esforço e tempo atribuído ao pré-processamento dos dados, uma parte substancial do esforço total atribuído a um processo de mineração de dados, uma contribuição na eficiência do processo de seleção de características é relevante para todo o processo mineração de dados. Entre as muitas técnicas e publicações efetuadas sobre o seleção de características, o algoritmo de Avaliação de Características, Ensemble Feature Ranking (EFR), tal como publicado em 2014 no artigo Ensemble feature ranking applied to medical data, tem o mérito de poder enquadrar no mesmo processo de seleção de características, um conjunto de diferentes métodos por filtragem, conjugado com um número arbitrário de execuções sobre partições do conjunto de dados com um número reduzido de instâncias, o que o tornam eficiente e adequado a conjuntos de dados de dimensionalidade elevada. Tendo como base o algoritmo EFR, pretende-se a reimplementação mais genérica, eficiente e automatizada desse algoritmo, disponibilizada num package em R, que possa ser reutilizado de forma simples e mais integrada num processo de mineração de dados.In Data Mining and Machine Learning, Feature Selection process corresponds to the task of removing from the original data dataset, the irrelevant or redundant attributes, that is, those that present little predictive information. The feature selection process in addition to being fundamental to the optimization and in some cases to enable predictive models, contributes by itself to the Knowledge Discovery in Data. Given the problem domain diversity in data mining (application scope and structure and data types) on feature subset findings, the generalization of the process is extremely difficult. Since the effort and time allocated to data pre-processing is a substantial part of the total effort allocated to a data mining process, any contribution to the efficiency of the feature selection process is relevant for the entire data mining process. Among the many techniques and publications carried out on feature selection, the feature ranking algorithm "Ensemble feature ranking (EFR)", as published in 2014 in the article Ensem ble feature ranking applied to medical data, has the merit of being able to fit in the same feature selection process, a combined set of different filtering methods executed over an arbitrary number of random small size dataset partitions. Based on the Ensemble feature ranking (EFR) algorithm, the aim is to have a more generic, efficient and automated reimplementation of the algorithm, available in a R Package for Ensemble feature ranking, which can be reused in a simple and more integrated way in data mining processes.Instituto Superior de Engenharia de LisboaDatia, Nuno Miguel SoaresPato, Matilde Pós-de-MinaRCIPLGomes, Henrique Manuel Carvalho2022-01-31T11:31:33Z2021-122021-12-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.21/14229TID:202912175porGOMES, Henrique Manuel Carvalho – Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR. Lisboa: Instituto Superior de Engenharia de Lisboa, 2021. Dissertação de Mestrado.info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-08-03T10:10:05Zoai:repositorio.ipl.pt:10400.21/14229Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:22:04.386466Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR |
title |
Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR |
spellingShingle |
Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR Gomes, Henrique Manuel Carvalho Seleção de características Mineração de dados Avaliação de características Filtros Conjunto de filtros Feature selection Data mining Feature ranking Filters Filter ensemble |
title_short |
Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR |
title_full |
Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR |
title_fullStr |
Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR |
title_full_unstemmed |
Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR |
title_sort |
Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR |
author |
Gomes, Henrique Manuel Carvalho |
author_facet |
Gomes, Henrique Manuel Carvalho |
author_role |
author |
dc.contributor.none.fl_str_mv |
Datia, Nuno Miguel Soares Pato, Matilde Pós-de-Mina RCIPL |
dc.contributor.author.fl_str_mv |
Gomes, Henrique Manuel Carvalho |
dc.subject.por.fl_str_mv |
Seleção de características Mineração de dados Avaliação de características Filtros Conjunto de filtros Feature selection Data mining Feature ranking Filters Filter ensemble |
topic |
Seleção de características Mineração de dados Avaliação de características Filtros Conjunto de filtros Feature selection Data mining Feature ranking Filters Filter ensemble |
description |
Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-12 2021-12-01T00:00:00Z 2022-01-31T11:31:33Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.21/14229 TID:202912175 |
url |
http://hdl.handle.net/10400.21/14229 |
identifier_str_mv |
TID:202912175 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
GOMES, Henrique Manuel Carvalho – Desenvolvimento de um package em R para Ensemble Feature Ranking – EFR. Lisboa: Instituto Superior de Engenharia de Lisboa, 2021. Dissertação de Mestrado. |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Instituto Superior de Engenharia de Lisboa |
publisher.none.fl_str_mv |
Instituto Superior de Engenharia de Lisboa |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133491892322304 |