Addressing data complexity in imbalanced contexts

Detalhes bibliográficos
Autor(a) principal: Silva, Marta Mercier Portugal Marques da
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/83556
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_22ae0124a9d6d40db09dd15fb8c283d5
oai_identifier_str oai:estudogeral.uc.pt:10316/83556
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Addressing data complexity in imbalanced contextsAddressing data complexity in imbalanced contextsDados Não BalanceadosFactores de Dificuldade dos DadosSobreposição de DadosImbalanced DataData Difficulty FactorsOverlappingDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaA falta de balanceamento entre classes tem sido um tópico de pesquisa extremamente relevante na área de data mining. Nas últimas décadas tem sido estudado o impacto deste problema no desempenho dos classificadores. Para além disso, há outras dificuldades intrínsecas aos dados (ex.: small disjuncts, dados com ruído, sobreposição de classes, entre outras) que podem estar presentes juntamente com a falta de balanceamento e podem até ser mais problemáticas para o processo de aprendizagem. Ainda assim, há algumas questões ainda por analisar, como a definição de métricas para avaliar as dificuldades intrínsecas aos dados e o estudo da "pegada" (ou seja, comportamento) dos algoritmos, nomeadamente em contextos com diferentes níveis de complexidade de classificação. Assim, com foco no problema da sobreposição de dados, o objetivo desta tese é estudar o seu impacto juntamente com a falta de balanceamento dos dados no desempenho dos classificadores de dados. Para isto, a nossa abordagem consiste em três etapas: geração de dados sintéticos representativos de vários contextos de sobreposição de dados; identificação e/ou implementação de métricas para avaliar a sobreposição de dados; análise do desempenho de vários algoritmos de machine learning na presença destes dados. Assim, propomos uma nova métrica para avaliar a sobreposição de dados, degOver, que nos dá informação acerca da complexidade dos dados. Para além disso, concluímos que o desempenho de classificação de alguns algoritmos e tribos de algoritmos, com base na sua "pegada", é afetado de formas diferentes de acordo com as propriedades e complexidade dos dados.Imbalance between classes has been an important research topic in the data mining field. In the last decades, researchers have studied the impact of this problem on the learners' performance. Also, other data difficulty factors (e.g. overlap, small disjuncts, noisy data, among others) that can be present alongside with imbalance, have been subject of research. It has been shown that they hinder the learning process and may be more problematic than class distribution. However, some questions have not been addressed yet, as the definition of metrics to evaluate the difficulty factors and the study of algorithms' footprints, namely in contexts with different levels of classification complexity. Therefore, focusing on the overlap problem, the main goal of this thesis is to study the impact of this difficulty factor together with imbalance on the performance of data classifiers. For this, our approach consisted in three main steps: generation of synthetic data representative of different overlap contexts; identification of metrics to evaluate the presence of overlap; analysis of the performance of several machine learning algorithms using the generated sets. We propose a new metric for the degree of overlap, degOver, which gives insight into a dataset's complexity. Furthermore, we conclude that the classification performance of some algorithms and tribes of algorithms, according to their footprint, is differently affected by a dataset's properties and its classification complexity.2018-07-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/83556http://hdl.handle.net/10316/83556TID:202129799engSilva, Marta Mercier Portugal Marques dainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2019-06-02T15:02:51Zoai:estudogeral.uc.pt:10316/83556Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:05:16.503557Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Addressing data complexity in imbalanced contexts
Addressing data complexity in imbalanced contexts
title Addressing data complexity in imbalanced contexts
spellingShingle Addressing data complexity in imbalanced contexts
Silva, Marta Mercier Portugal Marques da
Dados Não Balanceados
Factores de Dificuldade dos Dados
Sobreposição de Dados
Imbalanced Data
Data Difficulty Factors
Overlapping
title_short Addressing data complexity in imbalanced contexts
title_full Addressing data complexity in imbalanced contexts
title_fullStr Addressing data complexity in imbalanced contexts
title_full_unstemmed Addressing data complexity in imbalanced contexts
title_sort Addressing data complexity in imbalanced contexts
author Silva, Marta Mercier Portugal Marques da
author_facet Silva, Marta Mercier Portugal Marques da
author_role author
dc.contributor.author.fl_str_mv Silva, Marta Mercier Portugal Marques da
dc.subject.por.fl_str_mv Dados Não Balanceados
Factores de Dificuldade dos Dados
Sobreposição de Dados
Imbalanced Data
Data Difficulty Factors
Overlapping
topic Dados Não Balanceados
Factores de Dificuldade dos Dados
Sobreposição de Dados
Imbalanced Data
Data Difficulty Factors
Overlapping
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2018
dc.date.none.fl_str_mv 2018-07-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/83556
http://hdl.handle.net/10316/83556
TID:202129799
url http://hdl.handle.net/10316/83556
identifier_str_mv TID:202129799
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133944910708736