Addressing data complexity in imbalanced contexts
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/83556 |
Resumo: | Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_22ae0124a9d6d40db09dd15fb8c283d5 |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/83556 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Addressing data complexity in imbalanced contextsAddressing data complexity in imbalanced contextsDados Não BalanceadosFactores de Dificuldade dos DadosSobreposição de DadosImbalanced DataData Difficulty FactorsOverlappingDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaA falta de balanceamento entre classes tem sido um tópico de pesquisa extremamente relevante na área de data mining. Nas últimas décadas tem sido estudado o impacto deste problema no desempenho dos classificadores. Para além disso, há outras dificuldades intrínsecas aos dados (ex.: small disjuncts, dados com ruído, sobreposição de classes, entre outras) que podem estar presentes juntamente com a falta de balanceamento e podem até ser mais problemáticas para o processo de aprendizagem. Ainda assim, há algumas questões ainda por analisar, como a definição de métricas para avaliar as dificuldades intrínsecas aos dados e o estudo da "pegada" (ou seja, comportamento) dos algoritmos, nomeadamente em contextos com diferentes níveis de complexidade de classificação. Assim, com foco no problema da sobreposição de dados, o objetivo desta tese é estudar o seu impacto juntamente com a falta de balanceamento dos dados no desempenho dos classificadores de dados. Para isto, a nossa abordagem consiste em três etapas: geração de dados sintéticos representativos de vários contextos de sobreposição de dados; identificação e/ou implementação de métricas para avaliar a sobreposição de dados; análise do desempenho de vários algoritmos de machine learning na presença destes dados. Assim, propomos uma nova métrica para avaliar a sobreposição de dados, degOver, que nos dá informação acerca da complexidade dos dados. Para além disso, concluímos que o desempenho de classificação de alguns algoritmos e tribos de algoritmos, com base na sua "pegada", é afetado de formas diferentes de acordo com as propriedades e complexidade dos dados.Imbalance between classes has been an important research topic in the data mining field. In the last decades, researchers have studied the impact of this problem on the learners' performance. Also, other data difficulty factors (e.g. overlap, small disjuncts, noisy data, among others) that can be present alongside with imbalance, have been subject of research. It has been shown that they hinder the learning process and may be more problematic than class distribution. However, some questions have not been addressed yet, as the definition of metrics to evaluate the difficulty factors and the study of algorithms' footprints, namely in contexts with different levels of classification complexity. Therefore, focusing on the overlap problem, the main goal of this thesis is to study the impact of this difficulty factor together with imbalance on the performance of data classifiers. For this, our approach consisted in three main steps: generation of synthetic data representative of different overlap contexts; identification of metrics to evaluate the presence of overlap; analysis of the performance of several machine learning algorithms using the generated sets. We propose a new metric for the degree of overlap, degOver, which gives insight into a dataset's complexity. Furthermore, we conclude that the classification performance of some algorithms and tribes of algorithms, according to their footprint, is differently affected by a dataset's properties and its classification complexity.2018-07-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/83556http://hdl.handle.net/10316/83556TID:202129799engSilva, Marta Mercier Portugal Marques dainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2019-06-02T15:02:51Zoai:estudogeral.uc.pt:10316/83556Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:05:16.503557Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Addressing data complexity in imbalanced contexts Addressing data complexity in imbalanced contexts |
title |
Addressing data complexity in imbalanced contexts |
spellingShingle |
Addressing data complexity in imbalanced contexts Silva, Marta Mercier Portugal Marques da Dados Não Balanceados Factores de Dificuldade dos Dados Sobreposição de Dados Imbalanced Data Data Difficulty Factors Overlapping |
title_short |
Addressing data complexity in imbalanced contexts |
title_full |
Addressing data complexity in imbalanced contexts |
title_fullStr |
Addressing data complexity in imbalanced contexts |
title_full_unstemmed |
Addressing data complexity in imbalanced contexts |
title_sort |
Addressing data complexity in imbalanced contexts |
author |
Silva, Marta Mercier Portugal Marques da |
author_facet |
Silva, Marta Mercier Portugal Marques da |
author_role |
author |
dc.contributor.author.fl_str_mv |
Silva, Marta Mercier Portugal Marques da |
dc.subject.por.fl_str_mv |
Dados Não Balanceados Factores de Dificuldade dos Dados Sobreposição de Dados Imbalanced Data Data Difficulty Factors Overlapping |
topic |
Dados Não Balanceados Factores de Dificuldade dos Dados Sobreposição de Dados Imbalanced Data Data Difficulty Factors Overlapping |
description |
Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-07-10 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/83556 http://hdl.handle.net/10316/83556 TID:202129799 |
url |
http://hdl.handle.net/10316/83556 |
identifier_str_mv |
TID:202129799 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133944910708736 |