Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses

Detalhes bibliográficos
Autor(a) principal: Takecian, Pedro Losco
Data de Publicação: 2014
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-10112014-110134/
Resumo: Os sistemas de integração de dados que usam a arquitetura de data warehouse (DW) têm se tornado cada vez maiores e mais difíceis de gerenciar devido à crescente heterogeneidade das fontes de dados envolvidas. Apesar dos avanços tecnológicos e científicos, os projetos de DW ainda são muito lentos na geração de resultados pragmáticos. Este trabalho busca responder à seguinte questão: como pode ser reduzida a complexidade do desenvolvimento de sistemas de DW que integram dados provenientes de sistemas transacionais heterogêneos? Para isso, apresenta duas contribuições: 1) A criação de diretrizes metodológicas baseadas em ciclos de modelagem conceitual e análise de dados para guiar a construção de um sistema modular de integração de dados. Essas diretrizes foram fundamentais para reduzir a complexidade do desenvolvimento do projeto internacional Retrovirus Epidemiology Donor Study-II (REDS-II), se mostrando adequadas para serem aplicadas em sistemas reais. 2) O desenvolvimento de um método de validação de lotes de dados candidatos a serem incorporados a um sistema integrador, que toma decisões baseado no perfil estatístico desses lotes, e de um projeto de sistema que viabiliza o uso desse método no contexto de sistemas de DW.
id USP_c1c2bb004316413c0b40944d70f067a6
oai_identifier_str oai:teses.usp.br:tde-10112014-110134
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Diretrizes metodológicas e validação estatística de dados para a construção de data warehousesMethodological guidelines and statistical data validation for the construction of data warehousesanálise de dadosaprendizado de máquinaarquitetura modularconceptual modelingdata analysisdata validationdata warehousedata warehousemachine learningmodelagem conceitualmodular architecturevalidação de dadosOs sistemas de integração de dados que usam a arquitetura de data warehouse (DW) têm se tornado cada vez maiores e mais difíceis de gerenciar devido à crescente heterogeneidade das fontes de dados envolvidas. Apesar dos avanços tecnológicos e científicos, os projetos de DW ainda são muito lentos na geração de resultados pragmáticos. Este trabalho busca responder à seguinte questão: como pode ser reduzida a complexidade do desenvolvimento de sistemas de DW que integram dados provenientes de sistemas transacionais heterogêneos? Para isso, apresenta duas contribuições: 1) A criação de diretrizes metodológicas baseadas em ciclos de modelagem conceitual e análise de dados para guiar a construção de um sistema modular de integração de dados. Essas diretrizes foram fundamentais para reduzir a complexidade do desenvolvimento do projeto internacional Retrovirus Epidemiology Donor Study-II (REDS-II), se mostrando adequadas para serem aplicadas em sistemas reais. 2) O desenvolvimento de um método de validação de lotes de dados candidatos a serem incorporados a um sistema integrador, que toma decisões baseado no perfil estatístico desses lotes, e de um projeto de sistema que viabiliza o uso desse método no contexto de sistemas de DW.Data integration systems that use data warehouse (DW) architecture are becoming bigger and more difficult to manage due to the growing heterogeneity of data sources. Despite the significant advances in research and technologies, many integration projects are still too slow to generate pragmatic results. This work addresses the following question: how can the complexity of DW development for integration of heterogeneous transactional information systems be reduced? For this purpose, we present two contributions: 1) The establishment of methodological guidelines based on cycles of conceptual modeling and data analysis to drive construction of a modular data integration system. These guidelines were fundamental for reducing the development complexity of the international project Retrovirus Epidemiology Donor Study-II (REDS-II), proving suited to be applied in real systems. 2) The development of a validation method of data batches that are candidates to be incorporated into an integration system, which makes decisions based on the statistical profile of these batches, and a project of a system that enables the use of this method in DW systems context.Biblioteca Digitais de Teses e Dissertações da USPFerreira, João EduardoTakecian, Pedro Losco2014-08-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/45/45134/tde-10112014-110134/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:11:55Zoai:teses.usp.br:tde-10112014-110134Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:11:55Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses
Methodological guidelines and statistical data validation for the construction of data warehouses
title Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses
spellingShingle Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses
Takecian, Pedro Losco
análise de dados
aprendizado de máquina
arquitetura modular
conceptual modeling
data analysis
data validation
data warehouse
data warehouse
machine learning
modelagem conceitual
modular architecture
validação de dados
title_short Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses
title_full Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses
title_fullStr Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses
title_full_unstemmed Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses
title_sort Diretrizes metodológicas e validação estatística de dados para a construção de data warehouses
author Takecian, Pedro Losco
author_facet Takecian, Pedro Losco
author_role author
dc.contributor.none.fl_str_mv Ferreira, João Eduardo
dc.contributor.author.fl_str_mv Takecian, Pedro Losco
dc.subject.por.fl_str_mv análise de dados
aprendizado de máquina
arquitetura modular
conceptual modeling
data analysis
data validation
data warehouse
data warehouse
machine learning
modelagem conceitual
modular architecture
validação de dados
topic análise de dados
aprendizado de máquina
arquitetura modular
conceptual modeling
data analysis
data validation
data warehouse
data warehouse
machine learning
modelagem conceitual
modular architecture
validação de dados
description Os sistemas de integração de dados que usam a arquitetura de data warehouse (DW) têm se tornado cada vez maiores e mais difíceis de gerenciar devido à crescente heterogeneidade das fontes de dados envolvidas. Apesar dos avanços tecnológicos e científicos, os projetos de DW ainda são muito lentos na geração de resultados pragmáticos. Este trabalho busca responder à seguinte questão: como pode ser reduzida a complexidade do desenvolvimento de sistemas de DW que integram dados provenientes de sistemas transacionais heterogêneos? Para isso, apresenta duas contribuições: 1) A criação de diretrizes metodológicas baseadas em ciclos de modelagem conceitual e análise de dados para guiar a construção de um sistema modular de integração de dados. Essas diretrizes foram fundamentais para reduzir a complexidade do desenvolvimento do projeto internacional Retrovirus Epidemiology Donor Study-II (REDS-II), se mostrando adequadas para serem aplicadas em sistemas reais. 2) O desenvolvimento de um método de validação de lotes de dados candidatos a serem incorporados a um sistema integrador, que toma decisões baseado no perfil estatístico desses lotes, e de um projeto de sistema que viabiliza o uso desse método no contexto de sistemas de DW.
publishDate 2014
dc.date.none.fl_str_mv 2014-08-14
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/45/45134/tde-10112014-110134/
url http://www.teses.usp.br/teses/disponiveis/45/45134/tde-10112014-110134/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256926042193920