Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do Mackenzie |
Texto Completo: | http://dspace.mackenzie.br/handle/10899/24486 |
Resumo: | Data Quality is a relevant subject in Data Mining Tasks. Wrong Results can be obtained when a poor data quality is selected for the task. Governance Frameworks used curren- tly by the community of practice in Data Mining are very generic and abstract as they should be: though they emphasize the importance of the exploration of the dataset and the related issues with data quality, they don´t supply a complete framework for evalu- ating the data quality. This work proposes a numeric index for data quality evaluation, using Descriptive Statistics tools to quantitatively evaluate data quality in a methodic and structured way. The proposed index evaluates problems with data sample, giving them a weighted score and finally gives an average in order to indicate if further cleansing and adjustment are needed for the dataset before proceed with the Data Mining Tasks. |
id |
UPM_1ea7c9825219d0a44b404a6d0fc56d1a |
---|---|
oai_identifier_str |
oai:dspace.mackenzie.br:10899/24486 |
network_acronym_str |
UPM |
network_name_str |
Biblioteca Digital de Teses e Dissertações do Mackenzie |
repository_id_str |
10277 |
spelling |
2019-02-21T00:28:48Z2020-05-28T18:08:55Z2020-05-28T18:08:55Z2018-10-24FERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo.http://dspace.mackenzie.br/handle/10899/24486Data Quality is a relevant subject in Data Mining Tasks. Wrong Results can be obtained when a poor data quality is selected for the task. Governance Frameworks used curren- tly by the community of practice in Data Mining are very generic and abstract as they should be: though they emphasize the importance of the exploration of the dataset and the related issues with data quality, they don´t supply a complete framework for evalu- ating the data quality. This work proposes a numeric index for data quality evaluation, using Descriptive Statistics tools to quantitatively evaluate data quality in a methodic and structured way. The proposed index evaluates problems with data sample, giving them a weighted score and finally gives an average in order to indicate if further cleansing and adjustment are needed for the dataset before proceed with the Data Mining Tasks.Qualidade de dados é um tema relevante em tarefas de Mineração de Dados. Resultados errados podem ser obtidos quando se usa um conjunto de dados com qualidade pobre. Os padrões de governança adotados pela comunidade da prática em Mineração de Dados são genéricos e abstratos e, embora enfatizando a importância da tarefa de exploração do conjunto de dados, não fornecem um referencial de avaliação quantitativa de qualidade de um conjunto de dados. Nesse trabalho, propõe-se um indicador numérico para avaliação da qualidade de dados, usando as técnicas de estatística descritiva, avaliando a qualidade dos dados de uma maneira estruturada. Esse indicador avalia problemas no conjunto de dados, atribuindo notas ponderadas e gera uma média geral, indicando se ajustamentos devem ser efetuado antes de se prosseguir com as tarefas de mineração.application/pdfporUniversidade Presbiteriana MackenzieEngenharia ElétricaUPMBrasilFaculdade de Computação e Informática (FCI)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessqualidade de dadoscomplexidade de dadosgovernançapré-processamentodata profilingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICOCriação de um indicador de qualidade de dados para problemas de modelagem preditivainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSilva, Leandro Augusto dahttp://lattes.cnpq.br/1396385111251741Vallim Filho, Arnaldo Rabello de Aguiarhttp://lattes.cnpq.br/2511892257148568Prado, Edmir Parada Vasqueshttp://lattes.cnpq.br/2091731281771940http://lattes.cnpq.br/9218322601606857Ferreira, Marcoshttp://tede.mackenzie.br/jspui/retrieve/17899/MARCOS%20FERREIRA.pdf.jpghttp://tede.mackenzie.br/jspui/bitstream/tede/3794/5/MARCOS%20FERREIRA.pdfdata quality,data complexitydata governancepre processingdata profilingreponame:Biblioteca Digital de Teses e Dissertações do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIE10899/244862020-05-28 15:08:55.712Biblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRI |
dc.title.por.fl_str_mv |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
title |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
spellingShingle |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva Ferreira, Marcos qualidade de dados complexidade de dados governança pré-processamento data profiling CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO |
title_short |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
title_full |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
title_fullStr |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
title_full_unstemmed |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
title_sort |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
author |
Ferreira, Marcos |
author_facet |
Ferreira, Marcos |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Silva, Leandro Augusto da |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/1396385111251741 |
dc.contributor.referee1.fl_str_mv |
Vallim Filho, Arnaldo Rabello de Aguiar |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/2511892257148568 |
dc.contributor.referee2.fl_str_mv |
Prado, Edmir Parada Vasques |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/2091731281771940 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/9218322601606857 |
dc.contributor.author.fl_str_mv |
Ferreira, Marcos |
contributor_str_mv |
Silva, Leandro Augusto da Vallim Filho, Arnaldo Rabello de Aguiar Prado, Edmir Parada Vasques |
dc.subject.por.fl_str_mv |
qualidade de dados complexidade de dados governança pré-processamento data profiling |
topic |
qualidade de dados complexidade de dados governança pré-processamento data profiling CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO |
description |
Data Quality is a relevant subject in Data Mining Tasks. Wrong Results can be obtained when a poor data quality is selected for the task. Governance Frameworks used curren- tly by the community of practice in Data Mining are very generic and abstract as they should be: though they emphasize the importance of the exploration of the dataset and the related issues with data quality, they don´t supply a complete framework for evalu- ating the data quality. This work proposes a numeric index for data quality evaluation, using Descriptive Statistics tools to quantitatively evaluate data quality in a methodic and structured way. The proposed index evaluates problems with data sample, giving them a weighted score and finally gives an average in order to indicate if further cleansing and adjustment are needed for the dataset before proceed with the Data Mining Tasks. |
publishDate |
2018 |
dc.date.issued.fl_str_mv |
2018-10-24 |
dc.date.accessioned.fl_str_mv |
2019-02-21T00:28:48Z 2020-05-28T18:08:55Z |
dc.date.available.fl_str_mv |
2020-05-28T18:08:55Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
FERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo. |
dc.identifier.uri.fl_str_mv |
http://dspace.mackenzie.br/handle/10899/24486 |
identifier_str_mv |
FERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo. |
url |
http://dspace.mackenzie.br/handle/10899/24486 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
dc.publisher.program.fl_str_mv |
Engenharia Elétrica |
dc.publisher.initials.fl_str_mv |
UPM |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Faculdade de Computação e Informática (FCI) |
publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do Mackenzie instname:Universidade Presbiteriana Mackenzie (MACKENZIE) instacron:MACKENZIE |
instname_str |
Universidade Presbiteriana Mackenzie (MACKENZIE) |
instacron_str |
MACKENZIE |
institution |
MACKENZIE |
reponame_str |
Biblioteca Digital de Teses e Dissertações do Mackenzie |
collection |
Biblioteca Digital de Teses e Dissertações do Mackenzie |
repository.name.fl_str_mv |
|
repository.mail.fl_str_mv |
|
_version_ |
1757177243572895744 |