Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina

Detalhes bibliográficos
Autor(a) principal: Costa, Jean Carllo Jardim
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal do Ceará (UFC)
Texto Completo: http://www.repositorio.ufc.br/handle/riufc/41653
Resumo: The occurrence of missing data is a recurrent problem and it has aroused the interest of researches over the last decades. Hence, many imputation methods have been proposed in recent years. In this dissertation, we present a study about the impact of the application of several imputation methods on the performance of machine learning algorithms, for both classification and regression. The result obtained shows that the imputation algorithms can have a relevant impact on the performance of classification and regression algorithms depending on the percentage of missing data. In addition, a model for the recommendation of data imputation algorithms is presented, which compares three classifiers (Random Forests, Gradient Boosting and Support Vector Machine) in the development of this task where both have good results.
id UFC-7_6977aab385d1d58c23fc6ff49c5c5750
oai_identifier_str oai:repositorio.ufc.br:riufc/41653
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquinaAn analysis of the impact of missing data on the performance of machine learning methodsDados faltantesAprendizado de máquinaMeta-aprendizadoThe occurrence of missing data is a recurrent problem and it has aroused the interest of researches over the last decades. Hence, many imputation methods have been proposed in recent years. In this dissertation, we present a study about the impact of the application of several imputation methods on the performance of machine learning algorithms, for both classification and regression. The result obtained shows that the imputation algorithms can have a relevant impact on the performance of classification and regression algorithms depending on the percentage of missing data. In addition, a model for the recommendation of data imputation algorithms is presented, which compares three classifiers (Random Forests, Gradient Boosting and Support Vector Machine) in the development of this task where both have good results.A ocorrência de dados faltantes é um problema recorrente e tem despertado interesse de pesquisadores ao longo das últimas décadas. Devido a isto, muitos métodos para imputação de dados têm sido propostos. Nesta dissertação é apresentado um estudo do impacto da aplicação de vários métodos de imputação de dados faltantes no desempenho de métodos de aprendizado de máquina, tanto classificação como regressão. O resultado obtido mostra que os algoritmos de imputação podem ter impacto relevante no desempenho de algoritmos de classificação e regressão dependendo do percentual de dados faltantes. Adicionalmente é apresentado um modelo para recomendação de algoritmos de imputação de dados que compara três classificadores (Florestas Aleatórias, Gradiente Boosting e Máquina de Vetor de Suporte) no desenvolvimento desta tarefa onde ambos apresentam bons resultados.Gomes, João Paulo PordeusCosta, Jean Carllo Jardim2019-05-14T18:14:58Z2019-05-14T18:14:58Z2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCOSTA, Jean Carllo Jardim. Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina. 2019. 55 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2018.http://www.repositorio.ufc.br/handle/riufc/41653porreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFCinfo:eu-repo/semantics/openAccess2019-05-14T18:14:58Zoai:repositorio.ufc.br:riufc/41653Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2019-05-14T18:14:58Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.none.fl_str_mv Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina
An analysis of the impact of missing data on the performance of machine learning methods
title Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina
spellingShingle Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina
Costa, Jean Carllo Jardim
Dados faltantes
Aprendizado de máquina
Meta-aprendizado
title_short Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina
title_full Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina
title_fullStr Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina
title_full_unstemmed Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina
title_sort Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina
author Costa, Jean Carllo Jardim
author_facet Costa, Jean Carllo Jardim
author_role author
dc.contributor.none.fl_str_mv Gomes, João Paulo Pordeus
dc.contributor.author.fl_str_mv Costa, Jean Carllo Jardim
dc.subject.por.fl_str_mv Dados faltantes
Aprendizado de máquina
Meta-aprendizado
topic Dados faltantes
Aprendizado de máquina
Meta-aprendizado
description The occurrence of missing data is a recurrent problem and it has aroused the interest of researches over the last decades. Hence, many imputation methods have been proposed in recent years. In this dissertation, we present a study about the impact of the application of several imputation methods on the performance of machine learning algorithms, for both classification and regression. The result obtained shows that the imputation algorithms can have a relevant impact on the performance of classification and regression algorithms depending on the percentage of missing data. In addition, a model for the recommendation of data imputation algorithms is presented, which compares three classifiers (Random Forests, Gradient Boosting and Support Vector Machine) in the development of this task where both have good results.
publishDate 2019
dc.date.none.fl_str_mv 2019-05-14T18:14:58Z
2019-05-14T18:14:58Z
2019
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv COSTA, Jean Carllo Jardim. Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina. 2019. 55 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2018.
http://www.repositorio.ufc.br/handle/riufc/41653
identifier_str_mv COSTA, Jean Carllo Jardim. Uma análise sobre o impacto de dados faltantes no desempenho de métodos de aprendizado de máquina. 2019. 55 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2018.
url http://www.repositorio.ufc.br/handle/riufc/41653
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1809935813831557120