Processamento aproximado depesquisas para análise de Big Data
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/87927 |
Resumo: | Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_93348e7c7c048f2fb4826dc5be006841 |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/87927 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Processamento aproximado depesquisas para análise de Big DataApproximate Query Answering for Big Data AnalyticsRedução de dadosProcessamento aproximado de pesquisasProcessamento de Big DataAmostragemData ReductionApproximate Query ProcessingBig Data ProcessingSamplingDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaNos últimos dez anos o crescimento dos dados digitais aumentou exponencialmente. Com o aumento da quantidade de dados processada diariamente, a análise de dados para extrair informações relevantes de forma rápida tornou-se uma tarefa cada vez mais importante e difícil. As tecnologias atuais para análise de dados, que utilizam sistemas de bases de dados relacionais e data warehouses tornaram-se incapazes de lidar de forma eficiente com grandes quantidades de dados. Uma pesquisa nesses sistemas pode demorar horas até devolver um resultado, surgindo assim a necessidade de melhorar o seu desempenho, em termos de custo e tempo. Para melhorar este desempenho surgiram os sistemas de processamento aproximado de pesquisas, que garantem o processamento rápido de grandes quantidades de dados, abdicando de 100% de exatidão na resposta mas promovendo tempos de resposta mais curtos, utilizando apenas uma parte do conjunto de dados. Ao longo das últimas décadas foram propostas diversas técnicas de processamento aproximado de pesquisas, no entanto estas possuem limitações.Neste trabalho é proposta e avaliada uma nova técnica de processamento aproximado de pesquisas que mitiga as seguintes deficiências das abordagens atuais: não requer que seja efetuada qualquer alteração na base de dados, uma vez que possui uma arquitetura de middleware; permite a parametrização do grau de confiança e o erro máximo admitido para a resposta de uma pesquisa e lida com a maioria dos tipos de pesquisas. Esta técnica, designada JDBCApprox, consiste na implementação de uma biblioteca Java que recorre a uma amostragem aleatória simples sem repetição para criar amostras das tabelas da base de dados e, em seguida utiliza uma base de dados com uma configuração em memória para obter uma aceleração no tempo de resposta das pesquisas. A avaliação experimental mostrou que a técnica JDBCApprox consegue ser até 24 vezes mais rápida do que o PostgreSQL e devolve na maioria dos casos respostas mais exatas do que o sistema que apresenta os melhores resultados do estado da arte.Over the last ten years, the growth of digital data has increased exponentially. With the increase in the amount of data processed daily, using data analysis to quickly extract relevant information has become an increasingly important and difficult task. Current technologies for data analysis, which utilize relational database systems and data warehouses, have become incapable of handling large amounts of data efficiently. Performing a query on these systems may take hours before returning a result, thus emerging the need to improve their performance in terms of cost and time. To improve this performance, new processing systems of research have emerged. These systems ensure the rapid processing of large amounts of data, abdicating from 100\% accuracy in the response but promoting shorter response times, using only a portion of the data set. Over the last decades, several techniques have been proposed to approximate processing of queries, however these have limitations.\\ This work proposes and evaluates a new technique of approximate processing of researches that mitigates the following shortcomings of current approaches: it does not require any changes to be made on the database since it has a middleware architecture; allows the parameterization of the degree of confidence and the maximum error admitted to the response of a survey and deals with most types of queries. This technique, named JDBCApprox, consists of the implementation of a Java library that uses a simple random sampling without repetition to create samples of the database tables. It then uses a database with an in-memory configuration to get an acceleration in the response time of the queries. The deployed library can be up to 24 times faster than PostgreSQL and returns, in most cases, more accurate answers than the system that presents the best state of the art results.2019-09-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/87927http://hdl.handle.net/10316/87927TID:202307352porPaz, Solange de Lemosinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2021-05-10T10:46:14Zoai:estudogeral.uc.pt:10316/87927Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:08:44.620606Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Processamento aproximado depesquisas para análise de Big Data Approximate Query Answering for Big Data Analytics |
title |
Processamento aproximado depesquisas para análise de Big Data |
spellingShingle |
Processamento aproximado depesquisas para análise de Big Data Paz, Solange de Lemos Redução de dados Processamento aproximado de pesquisas Processamento de Big Data Amostragem Data Reduction Approximate Query Processing Big Data Processing Sampling |
title_short |
Processamento aproximado depesquisas para análise de Big Data |
title_full |
Processamento aproximado depesquisas para análise de Big Data |
title_fullStr |
Processamento aproximado depesquisas para análise de Big Data |
title_full_unstemmed |
Processamento aproximado depesquisas para análise de Big Data |
title_sort |
Processamento aproximado depesquisas para análise de Big Data |
author |
Paz, Solange de Lemos |
author_facet |
Paz, Solange de Lemos |
author_role |
author |
dc.contributor.author.fl_str_mv |
Paz, Solange de Lemos |
dc.subject.por.fl_str_mv |
Redução de dados Processamento aproximado de pesquisas Processamento de Big Data Amostragem Data Reduction Approximate Query Processing Big Data Processing Sampling |
topic |
Redução de dados Processamento aproximado de pesquisas Processamento de Big Data Amostragem Data Reduction Approximate Query Processing Big Data Processing Sampling |
description |
Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-09-10 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/87927 http://hdl.handle.net/10316/87927 TID:202307352 |
url |
http://hdl.handle.net/10316/87927 |
identifier_str_mv |
TID:202307352 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133980805562368 |