Inclusão de funcionalidades MapReduce em sistemas de data warehousing

Detalhes bibliográficos
Autor(a) principal: Silva, Dário Almeno Matos da
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/28079
Resumo: Dissertação de mestrado em Engenharia Informática
id RCAP_0bbcfbee4d780f834caeca93933d7541
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/28079
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Inclusão de funcionalidades MapReduce em sistemas de data warehousingSistemas de suporte à decisãoBusiness intelligenceData warehousingProcessamento de estruturas multidimensionais de dadosOn-line analytical processingMapReduceDecision support systemsMultidimensional data structures processing681.3:658.0658.0:681.3Dissertação de mestrado em Engenharia InformáticaEm geral, o processo de aquisição de dados nas organizações tornou-se gradualmente mais fácil. Perante a atual proliferação de dados, surgiram novas estratégias de processamento que visam a obtenção de melhores desempenhos dos processos de análise de dados. O MapReduce é um modelo de programação dedicado ao processamento de grandes conjuntos de dados e que coloca em prática muitos dos princípios da computação paralela e distribuída. Este modelo tem em vista facilitar o acesso aos sistemas paralelos e distribuídos a programadores menos experientes, de forma a que estes possam beneficiar das suas características de armazenamento e de processamento de dados. Os frameworks baseados neste modelo de programação ocupam hoje já uma posição de destaque no mercado, sobretudo no segmento dedicado à análise de dados não estruturados, tais como documentos de texto ou ficheiros log. Na prática, o problema do armazenamento das estruturas multidimensionais de dados e a capacidade de realizar cálculos “on the fly”, com tempos de execução reduzidos, constituem desafios muito importantes que têm que ser, também, encarados pelos sistemas de data warehousing modernos. Com efeito, nas últimas décadas, surgiram técnicas de otimização de desempenho para dar resposta às necessidades mais correntes dos agentes de decisão. O espaço multidimensional é tipicamente sustentado por um sistema de gestão de base de dados relacional através de um esquema em estrela. Igualmente, algumas soluções alternativas a estes sistemas, tal como a Bigtable, e o aparecimento de tecnologias de sistemas de data warehousing baseadas em MapReduce, como o Apache Hive e o Apache Pig, assumem um papel cada vez mais relevante. Nesta dissertação foram analisadas várias técnicas orientadas para a otimização do desempenho de um sistema multidimensional de dados, com base nas características de armazenamento e processamento de queries que o MapReduce nos propicia nos dias que correm. Os princípios fundamentais destas técnicas consistem numa estruturação dos dados contidos no data warehouse, de forma a facilitar a sua manutenção e usufruir de excelentes desempenhos na satisfação de queries, tendo em consideração, contudo, as limitações impostas pelo modelo de programação MapReduce. Adicionalmente, esta dissertação apresenta e descreve um processo de adaptação de uma estrutura convencional de um data warehouse para uma estrutura baseada em MapReduce, analisando os seus aspetos mais pertinentes.In general, the data acquisition process by organizations become gradually easier. Given the current data proliferation, new processing strategies aimed at archiving better performance of data analysis processes. MapReduce is a programming dedicated to processing large data sets and puts into practice many of the principles parallel and distributed computing. This model aims to facilitate access to parallel and distributed systems to less experienced programmers, so that they can benefit from their storage characteristics and data processing. Frameworks based on this programming model today already occupy a prominent position in the market, especially in the segment devoted to the analysis of unstructured data such as text documents or log files. In practice, the problem of storage of multidimensional data structures and the ability to perform onthe fly calculations, with reduced execution time, are very important challenges that must also faced by modern data warehousing systems. Indeed, in recent decades, emerged techniques for performance optimization to meet the most common needs of the decision makers. The multidimensional space is typically supported by a relational database management system through a star schema. Also, some alterative solutions to these systems, such as Bigtable, and the emergence of data warehousing systems technologies based on MapReduce, such as Apache Hive e Apache Pig are playing an increasingly important role. This dissertation analyzed several techniques aimed at optimizing the performance of a system of multidimensional data, based on characteristics of storage and query processing in the MapReduce provide these days. The fundamental principles of these techniques consist of a structure of data in the data warehouse, in order to facilitate their management and boasts excellent performance in satisfying queries, taking account, however, the limitations imposed by the MapReduce programming model. Additionally, this dissertation introduces and describes an adaptation process of a conventional data warehouse structure for a framework based on MapReduce, analyzing its most relevant aspects.Belo, OrlandoUniversidade do MinhoSilva, Dário Almeno Matos da2013-12-182013-12-18T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/28079por201195127info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:44:41Zoai:repositorium.sdum.uminho.pt:1822/28079Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:42:25.195209Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Inclusão de funcionalidades MapReduce em sistemas de data warehousing
title Inclusão de funcionalidades MapReduce em sistemas de data warehousing
spellingShingle Inclusão de funcionalidades MapReduce em sistemas de data warehousing
Silva, Dário Almeno Matos da
Sistemas de suporte à decisão
Business intelligence
Data warehousing
Processamento de estruturas multidimensionais de dados
On-line analytical processing
MapReduce
Decision support systems
Multidimensional data structures processing
681.3:658.0
658.0:681.3
title_short Inclusão de funcionalidades MapReduce em sistemas de data warehousing
title_full Inclusão de funcionalidades MapReduce em sistemas de data warehousing
title_fullStr Inclusão de funcionalidades MapReduce em sistemas de data warehousing
title_full_unstemmed Inclusão de funcionalidades MapReduce em sistemas de data warehousing
title_sort Inclusão de funcionalidades MapReduce em sistemas de data warehousing
author Silva, Dário Almeno Matos da
author_facet Silva, Dário Almeno Matos da
author_role author
dc.contributor.none.fl_str_mv Belo, Orlando
Universidade do Minho
dc.contributor.author.fl_str_mv Silva, Dário Almeno Matos da
dc.subject.por.fl_str_mv Sistemas de suporte à decisão
Business intelligence
Data warehousing
Processamento de estruturas multidimensionais de dados
On-line analytical processing
MapReduce
Decision support systems
Multidimensional data structures processing
681.3:658.0
658.0:681.3
topic Sistemas de suporte à decisão
Business intelligence
Data warehousing
Processamento de estruturas multidimensionais de dados
On-line analytical processing
MapReduce
Decision support systems
Multidimensional data structures processing
681.3:658.0
658.0:681.3
description Dissertação de mestrado em Engenharia Informática
publishDate 2013
dc.date.none.fl_str_mv 2013-12-18
2013-12-18T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/28079
url http://hdl.handle.net/1822/28079
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 201195127
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132977394876416