Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Digital do Mackenzie |
Texto Completo: | http://dspace.mackenzie.br/handle/10899/24486 |
Resumo: | Qualidade de dados é um tema relevante em tarefas de Mineração de Dados. Resultados errados podem ser obtidos quando se usa um conjunto de dados com qualidade pobre. Os padrões de governança adotados pela comunidade da prática em Mineração de Dados são genéricos e abstratos e, embora enfatizando a importância da tarefa de exploração do conjunto de dados, não fornecem um referencial de avaliação quantitativa de qualidade de um conjunto de dados. Nesse trabalho, propõe-se um indicador numérico para avaliação da qualidade de dados, usando as técnicas de estatística descritiva, avaliando a qualidade dos dados de uma maneira estruturada. Esse indicador avalia problemas no conjunto de dados, atribuindo notas ponderadas e gera uma média geral, indicando se ajustamentos devem ser efetuado antes de se prosseguir com as tarefas de mineração. |
id |
UPM_1ea7c9825219d0a44b404a6d0fc56d1a |
---|---|
oai_identifier_str |
oai:dspace.mackenzie.br:10899/24486 |
network_acronym_str |
UPM |
network_name_str |
Repositório Digital do Mackenzie |
repository_id_str |
10277 |
spelling |
http://lattes.cnpq.br/1396385111251741Ferreira, MarcosSilva, Leandro Augusto dahttp://lattes.cnpq.br/92183226016068572019-02-21T00:28:48Z2020-05-28T18:08:55Z2020-05-28T18:08:55Z2018-10-24Qualidade de dados é um tema relevante em tarefas de Mineração de Dados. Resultados errados podem ser obtidos quando se usa um conjunto de dados com qualidade pobre. Os padrões de governança adotados pela comunidade da prática em Mineração de Dados são genéricos e abstratos e, embora enfatizando a importância da tarefa de exploração do conjunto de dados, não fornecem um referencial de avaliação quantitativa de qualidade de um conjunto de dados. Nesse trabalho, propõe-se um indicador numérico para avaliação da qualidade de dados, usando as técnicas de estatística descritiva, avaliando a qualidade dos dados de uma maneira estruturada. Esse indicador avalia problemas no conjunto de dados, atribuindo notas ponderadas e gera uma média geral, indicando se ajustamentos devem ser efetuado antes de se prosseguir com as tarefas de mineração.Data Quality is a relevant subject in Data Mining Tasks. Wrong Results can be obtained when a poor data quality is selected for the task. Governance Frameworks used curren- tly by the community of practice in Data Mining are very generic and abstract as they should be: though they emphasize the importance of the exploration of the dataset and the related issues with data quality, they don´t supply a complete framework for evalu- ating the data quality. This work proposes a numeric index for data quality evaluation, using Descriptive Statistics tools to quantitatively evaluate data quality in a methodic and structured way. The proposed index evaluates problems with data sample, giving them a weighted score and finally gives an average in order to indicate if further cleansing and adjustment are needed for the dataset before proceed with the Data Mining Tasks.application/pdfFERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo.http://dspace.mackenzie.br/handle/10899/24486data quality,data complexitydata governancepre processingdata profilingporUniversidade Presbiteriana Mackenziehttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessqualidade de dadoscomplexidade de dadosgovernançapré-processamentodata profilingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICOhttp://tede.mackenzie.br/jspui/retrieve/17899/MARCOS%20FERREIRA.pdf.jpgCriação de um indicador de qualidade de dados para problemas de modelagem preditivainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Digital do Mackenzieinstname:Universidade Presbiteriana Mackenzie (MACKENZIE)instacron:MACKENZIEVallim Filho, Arnaldo Rabello de Aguiarhttp://lattes.cnpq.br/2511892257148568Prado, Edmir Parada Vasqueshttp://lattes.cnpq.br/2091731281771940BrasilFaculdade de Computação e Informática (FCI)UPMEngenharia ElétricaORIGINALMARCOS FERREIRA.pdfMARCOS FERREIRA.pdfapplication/pdf6466854https://dspace.mackenzie.br/bitstreams/94bacc46-e558-4f81-b0c5-3a2687419700/downloadf59ade4e7159d914ac8e5cfb90b000c2MD51TEXTMARCOS FERREIRA.pdf.txtMARCOS FERREIRA.pdf.txtExtracted texttext/plain293655https://dspace.mackenzie.br/bitstreams/f20c670a-7fa4-430c-a6a5-08a5b7ac2fa5/downloadb17043af5b895b2ab2d839b5436ac73bMD52THUMBNAILMARCOS FERREIRA.pdf.jpgMARCOS FERREIRA.pdf.jpgGenerated Thumbnailimage/jpeg1272https://dspace.mackenzie.br/bitstreams/208f8733-2bc4-437a-90bb-ce9ba2e4f2f8/downloadd731e283a663c8ab98d36e85bd67ae7eMD5310899/244862022-03-14 17:09:16.144http://creativecommons.org/licenses/by-nc-nd/4.0/Acesso Abertooai:dspace.mackenzie.br:10899/24486https://dspace.mackenzie.brBiblioteca Digital de Teses e Dissertaçõeshttp://tede.mackenzie.br/jspui/PRIhttps://adelpha-api.mackenzie.br/server/oai/repositorio@mackenzie.br||paola.damato@mackenzie.bropendoar:102772022-03-14T17:09:16Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE)false |
dc.title.por.fl_str_mv |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
title |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
spellingShingle |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva Ferreira, Marcos qualidade de dados complexidade de dados governança pré-processamento data profiling CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO |
title_short |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
title_full |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
title_fullStr |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
title_full_unstemmed |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
title_sort |
Criação de um indicador de qualidade de dados para problemas de modelagem preditiva |
author |
Ferreira, Marcos |
author_facet |
Ferreira, Marcos |
author_role |
author |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/1396385111251741 |
dc.contributor.author.fl_str_mv |
Ferreira, Marcos |
dc.contributor.advisor1.fl_str_mv |
Silva, Leandro Augusto da |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/9218322601606857 |
contributor_str_mv |
Silva, Leandro Augusto da |
dc.subject.por.fl_str_mv |
qualidade de dados complexidade de dados governança pré-processamento data profiling |
topic |
qualidade de dados complexidade de dados governança pré-processamento data profiling CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO |
description |
Qualidade de dados é um tema relevante em tarefas de Mineração de Dados. Resultados errados podem ser obtidos quando se usa um conjunto de dados com qualidade pobre. Os padrões de governança adotados pela comunidade da prática em Mineração de Dados são genéricos e abstratos e, embora enfatizando a importância da tarefa de exploração do conjunto de dados, não fornecem um referencial de avaliação quantitativa de qualidade de um conjunto de dados. Nesse trabalho, propõe-se um indicador numérico para avaliação da qualidade de dados, usando as técnicas de estatística descritiva, avaliando a qualidade dos dados de uma maneira estruturada. Esse indicador avalia problemas no conjunto de dados, atribuindo notas ponderadas e gera uma média geral, indicando se ajustamentos devem ser efetuado antes de se prosseguir com as tarefas de mineração. |
publishDate |
2018 |
dc.date.issued.fl_str_mv |
2018-10-24 |
dc.date.accessioned.fl_str_mv |
2019-02-21T00:28:48Z 2020-05-28T18:08:55Z |
dc.date.available.fl_str_mv |
2020-05-28T18:08:55Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
FERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo. |
dc.identifier.uri.fl_str_mv |
http://dspace.mackenzie.br/handle/10899/24486 |
identifier_str_mv |
FERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo. |
url |
http://dspace.mackenzie.br/handle/10899/24486 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
publisher.none.fl_str_mv |
Universidade Presbiteriana Mackenzie |
dc.source.none.fl_str_mv |
reponame:Repositório Digital do Mackenzie instname:Universidade Presbiteriana Mackenzie (MACKENZIE) instacron:MACKENZIE |
instname_str |
Universidade Presbiteriana Mackenzie (MACKENZIE) |
instacron_str |
MACKENZIE |
institution |
MACKENZIE |
reponame_str |
Repositório Digital do Mackenzie |
collection |
Repositório Digital do Mackenzie |
bitstream.url.fl_str_mv |
https://dspace.mackenzie.br/bitstreams/94bacc46-e558-4f81-b0c5-3a2687419700/download https://dspace.mackenzie.br/bitstreams/f20c670a-7fa4-430c-a6a5-08a5b7ac2fa5/download https://dspace.mackenzie.br/bitstreams/208f8733-2bc4-437a-90bb-ce9ba2e4f2f8/download |
bitstream.checksum.fl_str_mv |
f59ade4e7159d914ac8e5cfb90b000c2 b17043af5b895b2ab2d839b5436ac73b d731e283a663c8ab98d36e85bd67ae7e |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Digital do Mackenzie - Universidade Presbiteriana Mackenzie (MACKENZIE) |
repository.mail.fl_str_mv |
repositorio@mackenzie.br||paola.damato@mackenzie.br |
_version_ |
1822588169172811776 |