Exploring problems of overlap and dataset shift in imbalanced data

Detalhes bibliográficos
Autor(a) principal: Apóstolo, João Diogo de Sousa Jardim e
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/102147
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_32d040545233bcf384d8dbbe971fb07d
oai_identifier_str oai:estudogeral.uc.pt:10316/102147
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Exploring problems of overlap and dataset shift in imbalanced dataExplorando problemas de overlap e dataset shift em dados pouco balanceadosDataset ShiftOverlapCross ValidationDados não balanceadosMedidas de ComplexidadeDataset ShiftOverlapCross ValidationImbalanceComplexity MeasuresDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaEmbora se saiba que existência de dados não balanceados não é muito prejudicial por si só, quando combinado com outros problemas como dataset shift e/ou overlap, o seu impacto na degradação da qualidade dos dados aumenta, tornando-se um problema real. Apesar disso, existe uma falta de estudos que analisem estes problemas simultaneamente.O objetivo deste trabalho é estudar tanto o overlap como o dataset shift em contextos em que os dados são pouco balanceados, para perceber em mais detalhe os seus efeitos combinados. Para estudar o dataset shift, foram realizadas experiências usando quatro algoritmos de cross validation, que introduzem diferentes quantidades de dataset shift nos dados, visando entender o seu impacto no desempenho de vários algoritmos classificação. Além disso, foram também realizadas experiências usando várias técnicas de oversampling para medir os efeitos combinados do dataset shift e dados pouco balanceados na degradação do desempenho desses algoritmos de classificação. Geralmente, os resultados confirmaram que os efeitos conjuntos dos dois problemas são muito prejudiciais ao desempenho dos classificadores, sendo que o dataset shift ocupa o papel principal nessa equação, porém o uso de algoritmos de oversampling pode melhorar o desempenho em alguns cenários. Este estudo também contestou a literatura atual sobre a eficácia de algoritmos de cross validation na redução do dataset shift.Para estudar o overlap, foi criada uma biblioteca em python, pycol, que agrega a maioria das medidas de complexidade existentes no estado da arte usadas para medir o overlap, visando facilitar a experimentação com essas medidas. Utilizando a biblioteca foi realizado um estudo de modo a validar uma taxonomia proposta para estas medidas. Além disso, a eficácia do uso de vários algoritmos de pré-processamento na redução da overlap foi testada em datasets não balanceados. Os resultados revelaram nova informação sobre os algoritmos de pré-processamento testados e demonstraram a sua utilidade na redução de múltiplas dimensões de overlap. Os resultados também confirmaram a validade das famílias de overlap propostas na taxonomia supracitada, mas também indicam que cada família não é independente das demais.While it is known that imbalance on its own is not too harmful, when combined with other issues such as dataset shift and/or overlap, its impact on the degradation of the quality of data increases, becoming a real problem. Despite this, there is a lack of research works studying these issues simultaneously.The aim of this work is to study both overlap and dataset shift in contexts of where the data is imbalanced, to understand their combined effects.To study dataset shift, experiments were made using four cross validation algorithms, that induce different amounts of shift in the data, with the goal of understanding their impact on the performance of several machine learning algorithms. Furthermore, experiments were also done using multiple oversampling techniques to measure how much the combined effects of dataset shift and imbalance degrade the performance of these algorithms. Overall, the results confirmed that the joint effects of imbalance and dataset shift are very detrimental to the classifier's performance, with dataset shift occupying the main role in this equation, but that the use of oversampling algorithms could improve performance in some scenarios. This study also contested the current literature on the efficacy of cross validation algorithms in reducing dataset shift.To study overlap, a new python package, pycol, was created, which aggregates most state-of-the-art complexity measures used to calculate overlap, with the goal of making it easier to experiment with these measures. Using this package a study was conducted validating a taxonomy proposed for these measures. Furthermore, the efficacy of multiple preprocessing algorithms in reducing overlap was tested in imbalanced datasets. The results revealed new information about the preprocessing algorithms and showed their usefulness in reducing multiple dimensions of overlap. The results also confirmed the validity of the families of overlap proposed in the aforementioned taxonomy, but they also indicate that each family is not independent of the others, meaning that there is some overlap degree between families.2022-07-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/102147http://hdl.handle.net/10316/102147TID:203062329engApóstolo, João Diogo de Sousa Jardim einfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-09-27T20:41:27Zoai:estudogeral.uc.pt:10316/102147Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:19:12.237602Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Exploring problems of overlap and dataset shift in imbalanced data
Explorando problemas de overlap e dataset shift em dados pouco balanceados
title Exploring problems of overlap and dataset shift in imbalanced data
spellingShingle Exploring problems of overlap and dataset shift in imbalanced data
Apóstolo, João Diogo de Sousa Jardim e
Dataset Shift
Overlap
Cross Validation
Dados não balanceados
Medidas de Complexidade
Dataset Shift
Overlap
Cross Validation
Imbalance
Complexity Measures
title_short Exploring problems of overlap and dataset shift in imbalanced data
title_full Exploring problems of overlap and dataset shift in imbalanced data
title_fullStr Exploring problems of overlap and dataset shift in imbalanced data
title_full_unstemmed Exploring problems of overlap and dataset shift in imbalanced data
title_sort Exploring problems of overlap and dataset shift in imbalanced data
author Apóstolo, João Diogo de Sousa Jardim e
author_facet Apóstolo, João Diogo de Sousa Jardim e
author_role author
dc.contributor.author.fl_str_mv Apóstolo, João Diogo de Sousa Jardim e
dc.subject.por.fl_str_mv Dataset Shift
Overlap
Cross Validation
Dados não balanceados
Medidas de Complexidade
Dataset Shift
Overlap
Cross Validation
Imbalance
Complexity Measures
topic Dataset Shift
Overlap
Cross Validation
Dados não balanceados
Medidas de Complexidade
Dataset Shift
Overlap
Cross Validation
Imbalance
Complexity Measures
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2022
dc.date.none.fl_str_mv 2022-07-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/102147
http://hdl.handle.net/10316/102147
TID:203062329
url http://hdl.handle.net/10316/102147
identifier_str_mv TID:203062329
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134086309085184