Criação de um indicador de qualidade de dados para problemas de modelagem preditiva

Detalhes bibliográficos
Autor(a) principal: Ferreira, Marcos
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do Mackenzie
Texto Completo: http://dspace.mackenzie.br/handle/10899/24486
Resumo: Data Quality is a relevant subject in Data Mining Tasks. Wrong Results can be obtained when a poor data quality is selected for the task. Governance Frameworks used curren- tly by the community of practice in Data Mining are very generic and abstract as they should be: though they emphasize the importance of the exploration of the dataset and the related issues with data quality, they don´t supply a complete framework for evalu- ating the data quality. This work proposes a numeric index for data quality evaluation, using Descriptive Statistics tools to quantitatively evaluate data quality in a methodic and structured way. The proposed index evaluates problems with data sample, giving them a weighted score and finally gives an average in order to indicate if further cleansing and adjustment are needed for the dataset before proceed with the Data Mining Tasks.
id UPM_1ea7c9825219d0a44b404a6d0fc56d1a
oai_identifier_str oai:dspace.mackenzie.br:10899/24486
network_acronym_str UPM
network_name_str Biblioteca Digital de Teses e Dissertações do Mackenzie
repository_id_str 10277
spelling 2019-02-21T00:28:48Z2020-05-28T18:08:55Z2020-05-28T18:08:55Z2018-10-24FERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo.http://dspace.mackenzie.br/handle/10899/24486Data Quality is a relevant subject in Data Mining Tasks. Wrong Results can be obtained when a poor data quality is selected for the task. Governance Frameworks used curren- tly by the community of practice in Data Mining are very generic and abstract as they should be: though they emphasize the importance of the exploration of the dataset and the related issues with data quality, they don´t supply a complete framework for evalu- ating the data quality. This work proposes a numeric index for data quality evaluation, using Descriptive Statistics tools to quantitatively evaluate data quality in a methodic and structured way. The proposed index evaluates problems with data sample, giving them a weighted score and finally gives an average in order to indicate if further cleansing and adjustment are needed for the dataset before proceed with the Data Mining Tasks.Qualidade de dados é um tema relevante em tarefas de Mineração de Dados. Resultados errados podem ser obtidos quando se usa um conjunto de dados com qualidade pobre. Os padrões de governança adotados pela comunidade da prática em Mineração de Dados são genéricos e abstratos e, embora enfatizando a importância da tarefa de exploração do conjunto de dados, não fornecem um referencial de avaliação quantitativa de qualidade de um conjunto de dados. Nesse trabalho, propõe-se um indicador numérico para avaliação da qualidade de dados, usando as técnicas de estatística descritiva, avaliando a qualidade dos dados de uma maneira estruturada. Esse indicador avalia problemas no conjunto de dados, atribuindo notas ponderadas e gera uma média geral, indicando se ajustamentos devem ser efetuado antes de se prosseguir com as tarefas de mineração.application/pdfporUniversidade Presbiteriana MackenzieEngenharia ElétricaUPMBrasilFaculdade de Computação e Informática (FCI)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessqualidade de dadoscomplexidade de dadosgovernançapré-processamentodata profilingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICOCriação de um indicador de qualidade de dados para problemas de modelagem preditivainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSilva, Leandro Augusto dahttp://lattes.cnpq.br/1396385111251741Vallim Filho, Arnaldo Rabello de Aguiarhttp://lattes.cnpq.br/2511892257148568Prado, Edmir Parada Vasqueshttp://lattes.cnpq.br/2091731281771940http://lattes.cnpq.br/9218322601606857Ferreira, Marcoshttp://tede.mackenzie.br/jspui/retrieve/17899/MARCOS%20FERREIRA.pdf.jpghttp://tede.mackenzie.br/jspui/bitstream/tede/3794/5/MARCOS%20FERREIRA.pdfdata quality,data complexitydata governancepre processingdata profilingreponame:Biblioteca Digital de Teses e Dissertações do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIE10899/244862020-05-28 15:08:55.712Biblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRI
dc.title.por.fl_str_mv Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
title Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
spellingShingle Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
Ferreira, Marcos
qualidade de dados
complexidade de dados
governança
pré-processamento
data profiling
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO
title_short Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
title_full Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
title_fullStr Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
title_full_unstemmed Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
title_sort Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
author Ferreira, Marcos
author_facet Ferreira, Marcos
author_role author
dc.contributor.advisor1.fl_str_mv Silva, Leandro Augusto da
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1396385111251741
dc.contributor.referee1.fl_str_mv Vallim Filho, Arnaldo Rabello de Aguiar
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/2511892257148568
dc.contributor.referee2.fl_str_mv Prado, Edmir Parada Vasques
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/2091731281771940
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9218322601606857
dc.contributor.author.fl_str_mv Ferreira, Marcos
contributor_str_mv Silva, Leandro Augusto da
Vallim Filho, Arnaldo Rabello de Aguiar
Prado, Edmir Parada Vasques
dc.subject.por.fl_str_mv qualidade de dados
complexidade de dados
governança
pré-processamento
data profiling
topic qualidade de dados
complexidade de dados
governança
pré-processamento
data profiling
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO
description Data Quality is a relevant subject in Data Mining Tasks. Wrong Results can be obtained when a poor data quality is selected for the task. Governance Frameworks used curren- tly by the community of practice in Data Mining are very generic and abstract as they should be: though they emphasize the importance of the exploration of the dataset and the related issues with data quality, they don´t supply a complete framework for evalu- ating the data quality. This work proposes a numeric index for data quality evaluation, using Descriptive Statistics tools to quantitatively evaluate data quality in a methodic and structured way. The proposed index evaluates problems with data sample, giving them a weighted score and finally gives an average in order to indicate if further cleansing and adjustment are needed for the dataset before proceed with the Data Mining Tasks.
publishDate 2018
dc.date.issued.fl_str_mv 2018-10-24
dc.date.accessioned.fl_str_mv 2019-02-21T00:28:48Z
2020-05-28T18:08:55Z
dc.date.available.fl_str_mv 2020-05-28T18:08:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv FERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo.
dc.identifier.uri.fl_str_mv http://dspace.mackenzie.br/handle/10899/24486
identifier_str_mv FERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo.
url http://dspace.mackenzie.br/handle/10899/24486
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
dc.publisher.program.fl_str_mv Engenharia Elétrica
dc.publisher.initials.fl_str_mv UPM
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Faculdade de Computação e Informática (FCI)
publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do Mackenzie
instname:Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron:MACKENZIE
instname_str Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron_str MACKENZIE
institution MACKENZIE
reponame_str Biblioteca Digital de Teses e Dissertações do Mackenzie
collection Biblioteca Digital de Teses e Dissertações do Mackenzie
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1757177243572895744