Automatic Handling of Imbalanced Datasets for Classification

Vieira, Pedro Marques

Automatic Handling of Imbalanced Datasets for Classification

Detalhes bibliográficos
Autor(a) principal:	Vieira, Pedro Marques
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10400.22/22518
Resumo:	Imbalanced data is present in various business areas and when facing it without proper knowledge, it can have undesired negative consequences. In addition, the most common evaluation metrics in machine learning to measure the desired solution can be inappropriate and misleading. Multiple combinations of methods are proposed to handle imbalanced data however, often, they required specialised knowledge to be used correctly. For imbalanced classification, the desire to correctly classify the underrepresented class tends to be more important than the overrepresented class, while being more challenging and time-consuming. Several approaches, ranging from more accessible and more advanced in the domains of data resampling and cost-sensitive techniques, will be considered to handle imbalanced data. The application developed delivers recommendations of the most suited combinations of techniques for the specific dataset imported, by extracting and comparing meta-features values recorded in a knowledge base. It facilitates effortless classification and automates part of the machine learning pipeline with comparable or better results to a state-of-the-art solution and with a much smaller execution time

Metadados do item

id	RCAP_e33342fdf4bd2ff306c907fc6d02451a
oai_identifier_str	oai:recipp.ipp.pt:10400.22/22518
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Automatic Handling of Imbalanced Datasets for ClassificationImbalanced ClassificationHandling Imbalanced DataAutomated Machine LearningClassificação Não BalanceadaManipulação de Dados Não BalanceadosAutomatização de Aprendizagem de MáquinaImbalanced data is present in various business areas and when facing it without proper knowledge, it can have undesired negative consequences. In addition, the most common evaluation metrics in machine learning to measure the desired solution can be inappropriate and misleading. Multiple combinations of methods are proposed to handle imbalanced data however, often, they required specialised knowledge to be used correctly. For imbalanced classification, the desire to correctly classify the underrepresented class tends to be more important than the overrepresented class, while being more challenging and time-consuming. Several approaches, ranging from more accessible and more advanced in the domains of data resampling and cost-sensitive techniques, will be considered to handle imbalanced data. The application developed delivers recommendations of the most suited combinations of techniques for the specific dataset imported, by extracting and comparing meta-features values recorded in a knowledge base. It facilitates effortless classification and automates part of the machine learning pipeline with comparable or better results to a state-of-the-art solution and with a much smaller execution timeOs dados não balanceados estão presentes em diversas áreas de negócio e, ao enfrentá-los sem o devido conhecimento, podem trazer consequências negativas e indesejadas. Além disso, as métricas de avaliação mais comuns em aprendizagem de máquina (machine learning) para medir a solução desejada podem ser inadequadas e enganosas. Múltiplas combinações de métodos são propostas para lidar com dados não balanceados, contudo, muitas vezes, estas exigem um conhecimento especializado para serem usadas corretamente. Para a classificação não balanceada, o desejo de classificar corretamente a classe sub-representada tende a ser mais importante do que a classe que está representada em demasia, sendo mais difícil e demorado. Várias abordagens, desde as mais acessíveis até as mais avançadas nos domínios de reamostragem de dados e técnicas sensíveis ao custo vão ser consideradas para lidar com dados não balanceados. A aplicação desenvolvida fornece recomendações das combinações de técnicas mais adequadas para o conjunto de dados específico importado, extraindo e comparando os valores de meta características registados numa base de conhecimento. Ela facilita a classificação sem esforço e automatiza parte das etapas de aprendizagem de máquina com resultados comparáveis ou melhores a uma solução de estado da arte e com tempo de execução muito menorRodrigues, Maria de Fátima CoutinhoRepositório Científico do Instituto Politécnico do PortoVieira, Pedro Marques2023-03-15T15:06:26Z20222022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/22518TID:203113730enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-22T01:47:08Zoai:recipp.ipp.pt:10400.22/22518Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:45:01.313409Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Automatic Handling of Imbalanced Datasets for Classification
title	Automatic Handling of Imbalanced Datasets for Classification
spellingShingle	Automatic Handling of Imbalanced Datasets for Classification Vieira, Pedro Marques Imbalanced Classification Handling Imbalanced Data Automated Machine Learning Classificação Não Balanceada Manipulação de Dados Não Balanceados Automatização de Aprendizagem de Máquina
title_short	Automatic Handling of Imbalanced Datasets for Classification
title_full	Automatic Handling of Imbalanced Datasets for Classification
title_fullStr	Automatic Handling of Imbalanced Datasets for Classification
title_full_unstemmed	Automatic Handling of Imbalanced Datasets for Classification
title_sort	Automatic Handling of Imbalanced Datasets for Classification
author	Vieira, Pedro Marques
author_facet	Vieira, Pedro Marques
author_role	author
dc.contributor.none.fl_str_mv	Rodrigues, Maria de Fátima Coutinho Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv	Vieira, Pedro Marques
dc.subject.por.fl_str_mv	Imbalanced Classification Handling Imbalanced Data Automated Machine Learning Classificação Não Balanceada Manipulação de Dados Não Balanceados Automatização de Aprendizagem de Máquina
topic	Imbalanced Classification Handling Imbalanced Data Automated Machine Learning Classificação Não Balanceada Manipulação de Dados Não Balanceados Automatização de Aprendizagem de Máquina
description	Imbalanced data is present in various business areas and when facing it without proper knowledge, it can have undesired negative consequences. In addition, the most common evaluation metrics in machine learning to measure the desired solution can be inappropriate and misleading. Multiple combinations of methods are proposed to handle imbalanced data however, often, they required specialised knowledge to be used correctly. For imbalanced classification, the desire to correctly classify the underrepresented class tends to be more important than the overrepresented class, while being more challenging and time-consuming. Several approaches, ranging from more accessible and more advanced in the domains of data resampling and cost-sensitive techniques, will be considered to handle imbalanced data. The application developed delivers recommendations of the most suited combinations of techniques for the specific dataset imported, by extracting and comparing meta-features values recorded in a knowledge base. It facilitates effortless classification and automates part of the machine learning pipeline with comparable or better results to a state-of-the-art solution and with a much smaller execution time
publishDate	2022
dc.date.none.fl_str_mv	2022 2022-01-01T00:00:00Z 2023-03-15T15:06:26Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.22/22518 TID:203113730
url	http://hdl.handle.net/10400.22/22518
identifier_str_mv	TID:203113730
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799131534982119424

Automatic Handling of Imbalanced Datasets for Classification

Registros relacionados