Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados

Detalhes bibliográficos
Autor(a) principal: Soares, Jastin Pompeu
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/83131
Resumo: Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
id RCAP_7426311d85679f431a881cbb960c5d79
oai_identifier_str oai:estudogeral.uc.pt:10316/83131
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dadosExploring different machine learning strategies in pre-processing problemsMissing DataImbalance DataImputationOversamplingComplexity; Data DistributionDados incompletosDados não balanceadosImputaçãoSobre-amostragemComplexidade; Distribuição de dadosDissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e TecnologiaCom o aumento de volumes de dados, melhorias tecnológicas, e a necessidade crescente em extrairconhecimento de dados, as técnicas de Machine Learning têm sido alvo de grande estudo, focandoseas principais contribuições no desenvolvimento e melhoria dos seus algoritmos. Nesse contexto,a qualidade dos dados é um ponto crucial na obtenção de bons resultados. Incluído na análisede dados, o pré-processamento é uma das etapas da extração de conhecimentos que possibilita amelhoria da qualidade dos dados. Esta dissertação visa contribuir em dois problemas que podemsurgir na fase de pré-processamento: dados incompletos e dados não balanceados.Para resolver o primeiro problema, os investigadores usam tipicamente estratégias brute-forceque, para além do seu elevado custo computacional, não têm em consideração a natureza dosdados e, portanto, não possibilitam a sua generalização para diferentes contextos. Neste trabalho éexplorada a relação entre o desempenho das técnicas de imputação estado-da-arte e a distribuiçãodos dados, procurando desenvolver uma heurística que permita escolher a técnica de imputaçãomais apropriada para cada variável incluída no estudo, evitando a necessidade de testar váriastécnicas. Os resultados mostram que existe uma relação entre a distribuição das variáveis e odesempenho dos algoritmos. Este desempenho parece ser influenciado pela estratégia e taxa degeração dos dados em falta.No segundo problema pretende-se medir o desempenho dos classificadores em contextos de dadosnão balanceados. A abordagem utilizada para proceder à validação cruzada (antes ou depois dopré-processamento) pode levar a desempenhos sobre-otimistas, aquando da aplicação de técnicasde sobre-amostragem para atenuar a diferença entre classes. Este trabalho visa mostrar qual aabordagem mais correta na validação cruzada e relacionar o motivo do sobre-otimismo com acomplexidade dos datasets. Os resultados demostram que a abordagem de validação cruzada maisadequada é aquela onde a divisão do dataset é efetuada antes do pré-processamento, e o sobreotimismoaparenta estar relacionado com a semelhança na complexidade dos conjuntos de treino eteste.With increasing volumes of data, technological improvements, and the need to extract knowledgefrom data, Machine Learning techniques have been subjected to great study, where the main contributionsare currently focused in the development and improvement of algorithms. In this context,data quality is a crucial point to achieve good results. Included in data analysis, preprocessing isone of the stages of knowledge-discovery in databases that enables the improvement of data quality.This dissertation aims to contribute to two problems that may arise in the preprocessing stage:Missing Data and Imbalanced Data.To solve the first problem, researchers typically use brute-force strategies that, in addition totheir high computational cost, do not take into account the nature of the data and therefore donot allow their generalization to different contexts. In this work, the relationship between theperformance of the state-of-art imputation techniques and the data distribution is explored, bytrying to develop a heuristic that allows choosing the most appropriate imputation technique foreach feature included in the study, to avoid the need of testing several techniques. The results showthat there is a relationship between the features’ distributions and the imputation performance.This performance seems to be influenced by the strategy and rate of the missing data generation.In the second problem, the intention is to measure the performance of classifiers in imbalanceddata contexts. The approach used to perform cross-validation (before or after pre-processing)can lead to over-optimistic performances when applying oversampling techniques to attenuate thebetween-class imbalance. This work aims to show the most correct approach of cross-validationand to relate the over-optimistic performance with the datasets’ complexity. The results show thatthe most appropriate cross-validation approach is the one where the dataset splitting is performedbefore the pre-processing stage, and over-optimistic performances seem to be related to the similarityof the complexity of training and test sets.2017-07-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/83131http://hdl.handle.net/10316/83131TID:202123006porSoares, Jastin Pompeuinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2021-07-22T10:01:54Zoai:estudogeral.uc.pt:10316/83131Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:04:56.425821Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados
Exploring different machine learning strategies in pre-processing problems
title Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados
spellingShingle Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados
Soares, Jastin Pompeu
Missing Data
Imbalance Data
Imputation
Oversampling
Complexity; Data Distribution
Dados incompletos
Dados não balanceados
Imputação
Sobre-amostragem
Complexidade; Distribuição de dados
title_short Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados
title_full Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados
title_fullStr Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados
title_full_unstemmed Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados
title_sort Explorar diferentes estratégias de data mining aplicadas a dois problemas no pré-processamento de dados
author Soares, Jastin Pompeu
author_facet Soares, Jastin Pompeu
author_role author
dc.contributor.author.fl_str_mv Soares, Jastin Pompeu
dc.subject.por.fl_str_mv Missing Data
Imbalance Data
Imputation
Oversampling
Complexity; Data Distribution
Dados incompletos
Dados não balanceados
Imputação
Sobre-amostragem
Complexidade; Distribuição de dados
topic Missing Data
Imbalance Data
Imputation
Oversampling
Complexity; Data Distribution
Dados incompletos
Dados não balanceados
Imputação
Sobre-amostragem
Complexidade; Distribuição de dados
description Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
publishDate 2017
dc.date.none.fl_str_mv 2017-07-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/83131
http://hdl.handle.net/10316/83131
TID:202123006
url http://hdl.handle.net/10316/83131
identifier_str_mv TID:202123006
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133941291024384