Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/83131 |
Resumo: | Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_7426311d85679f431a881cbb960c5d79 |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/83131 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dadosExploring different machine learning strategies in pre-processing problemsMissing DataImbalance DataImputationOversamplingComplexity; Data DistributionDados incompletosDados não balanceadosImputaçãoSobre-amostragemComplexidade; Distribuição de dadosDissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e TecnologiaCom o aumento de volumes de dados, melhorias tecnológicas, e a necessidade crescente em extrairconhecimento de dados, as técnicas de Machine Learning têm sido alvo de grande estudo, focandoseas principais contribuições no desenvolvimento e melhoria dos seus algoritmos. Nesse contexto,a qualidade dos dados é um ponto crucial na obtenção de bons resultados. Incluído na análisede dados, o pré-processamento é uma das etapas da extração de conhecimentos que possibilita amelhoria da qualidade dos dados. Esta dissertação visa contribuir em dois problemas que podemsurgir na fase de pré-processamento: dados incompletos e dados não balanceados.Para resolver o primeiro problema, os investigadores usam tipicamente estratégias brute-forceque, para além do seu elevado custo computacional, não têm em consideração a natureza dosdados e, portanto, não possibilitam a sua generalização para diferentes contextos. Neste trabalho éexplorada a relação entre o desempenho das técnicas de imputação estado-da-arte e a distribuiçãodos dados, procurando desenvolver uma heurística que permita escolher a técnica de imputaçãomais apropriada para cada variável incluída no estudo, evitando a necessidade de testar váriastécnicas. Os resultados mostram que existe uma relação entre a distribuição das variáveis e odesempenho dos algoritmos. Este desempenho parece ser influenciado pela estratégia e taxa degeração dos dados em falta.No segundo problema pretende-se medir o desempenho dos classificadores em contextos de dadosnão balanceados. A abordagem utilizada para proceder à validação cruzada (antes ou depois dopré-processamento) pode levar a desempenhos sobre-otimistas, aquando da aplicação de técnicasde sobre-amostragem para atenuar a diferença entre classes. Este trabalho visa mostrar qual aabordagem mais correta na validação cruzada e relacionar o motivo do sobre-otimismo com acomplexidade dos datasets. Os resultados demostram que a abordagem de validação cruzada maisadequada é aquela onde a divisão do dataset é efetuada antes do pré-processamento, e o sobreotimismoaparenta estar relacionado com a semelhança na complexidade dos conjuntos de treino eteste.With increasing volumes of data, technological improvements, and the need to extract knowledgefrom data, Machine Learning techniques have been subjected to great study, where the main contributionsare currently focused in the development and improvement of algorithms. In this context,data quality is a crucial point to achieve good results. Included in data analysis, preprocessing isone of the stages of knowledge-discovery in databases that enables the improvement of data quality.This dissertation aims to contribute to two problems that may arise in the preprocessing stage:Missing Data and Imbalanced Data.To solve the first problem, researchers typically use brute-force strategies that, in addition totheir high computational cost, do not take into account the nature of the data and therefore donot allow their generalization to different contexts. In this work, the relationship between theperformance of the state-of-art imputation techniques and the data distribution is explored, bytrying to develop a heuristic that allows choosing the most appropriate imputation technique foreach feature included in the study, to avoid the need of testing several techniques. The results showthat there is a relationship between the features’ distributions and the imputation performance.This performance seems to be influenced by the strategy and rate of the missing data generation.In the second problem, the intention is to measure the performance of classifiers in imbalanceddata contexts. The approach used to perform cross-validation (before or after pre-processing)can lead to over-optimistic performances when applying oversampling techniques to attenuate thebetween-class imbalance. This work aims to show the most correct approach of cross-validationand to relate the over-optimistic performance with the datasets’ complexity. The results show thatthe most appropriate cross-validation approach is the one where the dataset splitting is performedbefore the pre-processing stage, and over-optimistic performances seem to be related to the similarityof the complexity of training and test sets.2017-07-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/83131http://hdl.handle.net/10316/83131TID:202123006porSoares, Jastin Pompeuinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2021-07-22T10:01:54Zoai:estudogeral.uc.pt:10316/83131Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:04:56.425821Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados Exploring different machine learning strategies in pre-processing problems |
title |
Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados |
spellingShingle |
Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados Soares, Jastin Pompeu Missing Data Imbalance Data Imputation Oversampling Complexity; Data Distribution Dados incompletos Dados não balanceados Imputação Sobre-amostragem Complexidade; Distribuição de dados |
title_short |
Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados |
title_full |
Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados |
title_fullStr |
Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados |
title_full_unstemmed |
Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados |
title_sort |
Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados |
author |
Soares, Jastin Pompeu |
author_facet |
Soares, Jastin Pompeu |
author_role |
author |
dc.contributor.author.fl_str_mv |
Soares, Jastin Pompeu |
dc.subject.por.fl_str_mv |
Missing Data Imbalance Data Imputation Oversampling Complexity; Data Distribution Dados incompletos Dados não balanceados Imputação Sobre-amostragem Complexidade; Distribuição de dados |
topic |
Missing Data Imbalance Data Imputation Oversampling Complexity; Data Distribution Dados incompletos Dados não balanceados Imputação Sobre-amostragem Complexidade; Distribuição de dados |
description |
Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017-07-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/83131 http://hdl.handle.net/10316/83131 TID:202123006 |
url |
http://hdl.handle.net/10316/83131 |
identifier_str_mv |
TID:202123006 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133941291024384 |