The joint-effect of imbalanced and missing data: a challenging task in data analysis
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/103003 |
Resumo: | Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_347e4a730d7ed04211b8dac9e1db690e |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/103003 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
The joint-effect of imbalanced and missing data: a challenging task in data analysisEstudo da combinação de contextos pouco balanceados e de dados em faltadados em faltadados não balanceadossmall disjunctsanálise de dadosmissing dataimbalanced datasmall disjunctsdata analysisDissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e TecnologiaA evolução da tecnologia aumentou exponencialmente a quantidade e complexidade dos dados, o que levou ao aparecimento de problemas ao nível dos dados que afetam negativamente o desempenho do processo de extração de conhecimento dos dados. Estes problemas podem ser divididos em duas categorias: problemas de distribuição, onde estão incluídos o não balanceamento dos dados e os small disjuncts, e de variáveis, onde se encontra o problema dos dados em falta.A relação entre dificuldades da primeira categoria foi já estudada por alguns autores. No entanto, a relação entre problemas de cada uma das categorias ainda não foi abordada na literatura. Por isso, o foco desta tese é a inter-relação entre problemas de diferentes categorias e como é que esses problemas afetam o desempenho da classificação.Neste trabalho, é apresentado um estudo sobre como algumas características de datasets afetam a imputação de dados em falta e a classificação dos dados. As características consideradas foram o tamanho e número de features num dataset, o Imbalance Ratio (IR), algumas métricas de complexidade e a distribuição da classe minoritária. Chegou-se à conclusão que estas características não têm um grande impacto na imputação mas, por outro lado, o IR e a distribuição da classe minoritária afetam bastante os algoritmos de classificação. Quanto menos balanceado um dataset é e mais dados unsafe tem, pior será o desempenho da classificação. Em conclusão, a classificação irá ter pior resultados em datasets com uma complexidade mais alta.The evolution of the technology increased exponentially the amount of available data and the complexity of it, which brought some data quality problems that affect negatively the performance of the data mining process. These data quality issues can be divided into two main categories: distribution-based, which includes class imbalance and small disjuncts, and feature-based, that includes missing data. These problems often occur together in real-world datasets, therefore, it is important to study how problems from one category affect issues from the other.The interrelation among problems from the same category have already been studied while the relation between distribution and feature-based have yet to be researched. This thesis focus on this interrelation and how both problems affect the classification performance. In this work, it is presented a study on some datasets characteristics and the effect they have on the imputation and classification performance. The considered characteristics were the size and number of features in a dataset, the Imbalance Ratio (IR), some complexity metrics and the distribution of the minority class. These characteristics do not have a high impact on the imputation performance while the IR and the distribution of the minority class highly affect the classification task. The higher the IR and the percentage of unsafe samples, the lower the performance will be. In conclusion, the classification will have worse results when a dataset has a higher complexity.2022-09-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/103003http://hdl.handle.net/10316/103003TID:203077954engCoelho, Maria Leonor Inêsinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-10-19T20:36:24Zoai:estudogeral.uc.pt:10316/103003Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:19:53.021561Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
The joint-effect of imbalanced and missing data: a challenging task in data analysis Estudo da combinação de contextos pouco balanceados e de dados em falta |
title |
The joint-effect of imbalanced and missing data: a challenging task in data analysis |
spellingShingle |
The joint-effect of imbalanced and missing data: a challenging task in data analysis Coelho, Maria Leonor Inês dados em falta dados não balanceados small disjuncts análise de dados missing data imbalanced data small disjuncts data analysis |
title_short |
The joint-effect of imbalanced and missing data: a challenging task in data analysis |
title_full |
The joint-effect of imbalanced and missing data: a challenging task in data analysis |
title_fullStr |
The joint-effect of imbalanced and missing data: a challenging task in data analysis |
title_full_unstemmed |
The joint-effect of imbalanced and missing data: a challenging task in data analysis |
title_sort |
The joint-effect of imbalanced and missing data: a challenging task in data analysis |
author |
Coelho, Maria Leonor Inês |
author_facet |
Coelho, Maria Leonor Inês |
author_role |
author |
dc.contributor.author.fl_str_mv |
Coelho, Maria Leonor Inês |
dc.subject.por.fl_str_mv |
dados em falta dados não balanceados small disjuncts análise de dados missing data imbalanced data small disjuncts data analysis |
topic |
dados em falta dados não balanceados small disjuncts análise de dados missing data imbalanced data small disjuncts data analysis |
description |
Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-09-23 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/103003 http://hdl.handle.net/10316/103003 TID:203077954 |
url |
http://hdl.handle.net/10316/103003 |
identifier_str_mv |
TID:203077954 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134092734758912 |