Criação de um indicador de qualidade de dados para problemas de modelagem preditiva

Detalhes bibliográficos
Autor(a) principal: Ferreira, Marcos
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Digital do Mackenzie
Texto Completo: http://dspace.mackenzie.br/handle/10899/24486
Resumo: Qualidade de dados é um tema relevante em tarefas de Mineração de Dados. Resultados errados podem ser obtidos quando se usa um conjunto de dados com qualidade pobre. Os padrões de governança adotados pela comunidade da prática em Mineração de Dados são genéricos e abstratos e, embora enfatizando a importância da tarefa de exploração do conjunto de dados, não fornecem um referencial de avaliação quantitativa de qualidade de um conjunto de dados. Nesse trabalho, propõe-se um indicador numérico para avaliação da qualidade de dados, usando as técnicas de estatística descritiva, avaliando a qualidade dos dados de uma maneira estruturada. Esse indicador avalia problemas no conjunto de dados, atribuindo notas ponderadas e gera uma média geral, indicando se ajustamentos devem ser efetuado antes de se prosseguir com as tarefas de mineração.
id UPM_1ea7c9825219d0a44b404a6d0fc56d1a
oai_identifier_str oai:dspace.mackenzie.br:10899/24486
network_acronym_str UPM
network_name_str Repositório Digital do Mackenzie
repository_id_str 10277
spelling http://lattes.cnpq.br/1396385111251741Ferreira, MarcosSilva, Leandro Augusto dahttp://lattes.cnpq.br/92183226016068572019-02-21T00:28:48Z2020-05-28T18:08:55Z2020-05-28T18:08:55Z2018-10-24Qualidade de dados é um tema relevante em tarefas de Mineração de Dados. Resultados errados podem ser obtidos quando se usa um conjunto de dados com qualidade pobre. Os padrões de governança adotados pela comunidade da prática em Mineração de Dados são genéricos e abstratos e, embora enfatizando a importância da tarefa de exploração do conjunto de dados, não fornecem um referencial de avaliação quantitativa de qualidade de um conjunto de dados. Nesse trabalho, propõe-se um indicador numérico para avaliação da qualidade de dados, usando as técnicas de estatística descritiva, avaliando a qualidade dos dados de uma maneira estruturada. Esse indicador avalia problemas no conjunto de dados, atribuindo notas ponderadas e gera uma média geral, indicando se ajustamentos devem ser efetuado antes de se prosseguir com as tarefas de mineração.Data Quality is a relevant subject in Data Mining Tasks. Wrong Results can be obtained when a poor data quality is selected for the task. Governance Frameworks used curren- tly by the community of practice in Data Mining are very generic and abstract as they should be: though they emphasize the importance of the exploration of the dataset and the related issues with data quality, they don´t supply a complete framework for evalu- ating the data quality. This work proposes a numeric index for data quality evaluation, using Descriptive Statistics tools to quantitatively evaluate data quality in a methodic and structured way. The proposed index evaluates problems with data sample, giving them a weighted score and finally gives an average in order to indicate if further cleansing and adjustment are needed for the dataset before proceed with the Data Mining Tasks.application/pdfFERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo.http://dspace.mackenzie.br/handle/10899/24486data quality,data complexitydata governancepre processingdata profilingporUniversidade Presbiteriana Mackenziehttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessqualidade de dadoscomplexidade de dadosgovernançapré-processamentodata profilingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICOhttp://tede.mackenzie.br/jspui/retrieve/17899/MARCOS%20FERREIRA.pdf.jpgCriação de um indicador de qualidade de dados para problemas de modelagem preditivainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Digital do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIEVallim Filho, Arnaldo Rabello de Aguiarhttp://lattes.cnpq.br/2511892257148568Prado, Edmir Parada Vasqueshttp://lattes.cnpq.br/2091731281771940BrasilFaculdade de Computação e Informática (FCI)UPMEngenharia ElétricaORIGINALMARCOS FERREIRA.pdfMARCOS FERREIRA.pdfapplication/pdf6466854https://dspace.mackenzie.br/bitstreams/94bacc46-e558-4f81-b0c5-3a2687419700/downloadf59ade4e7159d914ac8e5cfb90b000c2MD51TEXTMARCOS FERREIRA.pdf.txtMARCOS FERREIRA.pdf.txtExtracted texttext/plain293655https://dspace.mackenzie.br/bitstreams/f20c670a-7fa4-430c-a6a5-08a5b7ac2fa5/downloadb17043af5b895b2ab2d839b5436ac73bMD52THUMBNAILMARCOS FERREIRA.pdf.jpgMARCOS FERREIRA.pdf.jpgGenerated Thumbnailimage/jpeg1272https://dspace.mackenzie.br/bitstreams/208f8733-2bc4-437a-90bb-ce9ba2e4f2f8/downloadd731e283a663c8ab98d36e85bd67ae7eMD5310899/244862022-03-14 17:09:16.144http://creativecommons.org/licenses/by-nc-nd/4.0/Acesso Abertooai:dspace.mackenzie.br:10899/24486https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br||paola.damato@mackenzie.bropendoar:102772022-03-14T17:09:16Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)false
dc.title.por.fl_str_mv Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
title Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
spellingShingle Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
Ferreira, Marcos
qualidade de dados
complexidade de dados
governança
pré-processamento
data profiling
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO
title_short Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
title_full Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
title_fullStr Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
title_full_unstemmed Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
title_sort Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
author Ferreira, Marcos
author_facet Ferreira, Marcos
author_role author
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1396385111251741
dc.contributor.author.fl_str_mv Ferreira, Marcos
dc.contributor.advisor1.fl_str_mv Silva, Leandro Augusto da
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9218322601606857
contributor_str_mv Silva, Leandro Augusto da
dc.subject.por.fl_str_mv qualidade de dados
complexidade de dados
governança
pré-processamento
data profiling
topic qualidade de dados
complexidade de dados
governança
pré-processamento
data profiling
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO
description Qualidade de dados é um tema relevante em tarefas de Mineração de Dados. Resultados errados podem ser obtidos quando se usa um conjunto de dados com qualidade pobre. Os padrões de governança adotados pela comunidade da prática em Mineração de Dados são genéricos e abstratos e, embora enfatizando a importância da tarefa de exploração do conjunto de dados, não fornecem um referencial de avaliação quantitativa de qualidade de um conjunto de dados. Nesse trabalho, propõe-se um indicador numérico para avaliação da qualidade de dados, usando as técnicas de estatística descritiva, avaliando a qualidade dos dados de uma maneira estruturada. Esse indicador avalia problemas no conjunto de dados, atribuindo notas ponderadas e gera uma média geral, indicando se ajustamentos devem ser efetuado antes de se prosseguir com as tarefas de mineração.
publishDate 2018
dc.date.issued.fl_str_mv 2018-10-24
dc.date.accessioned.fl_str_mv 2019-02-21T00:28:48Z
2020-05-28T18:08:55Z
dc.date.available.fl_str_mv 2020-05-28T18:08:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv FERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo.
dc.identifier.uri.fl_str_mv http://dspace.mackenzie.br/handle/10899/24486
identifier_str_mv FERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo.
url http://dspace.mackenzie.br/handle/10899/24486
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
publisher.none.fl_str_mv Universidade Presbiteriana Mackenzie
dc.source.none.fl_str_mv reponame:Repositório Digital do Mackenzie
instname:Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron:MACKENZIE
instname_str Universidade Presbiteriana Mackenzie (MACKENZIE)
instacron_str MACKENZIE
institution MACKENZIE
reponame_str Repositório Digital do Mackenzie
collection Repositório Digital do Mackenzie
bitstream.url.fl_str_mv https://dspace.mackenzie.br/bitstreams/94bacc46-e558-4f81-b0c5-3a2687419700/download
https://dspace.mackenzie.br/bitstreams/f20c670a-7fa4-430c-a6a5-08a5b7ac2fa5/download
https://dspace.mackenzie.br/bitstreams/208f8733-2bc4-437a-90bb-ce9ba2e4f2f8/download
bitstream.checksum.fl_str_mv f59ade4e7159d914ac8e5cfb90b000c2
b17043af5b895b2ab2d839b5436ac73b
d731e283a663c8ab98d36e85bd67ae7e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)
repository.mail.fl_str_mv repositorio@mackenzie.br||paola.damato@mackenzie.br
_version_ 1822588169172811776