Processamento aproximado depesquisas para análise de Big Data

Paz, Solange de Lemos

Processamento aproximado depesquisas para análise de Big Data

Detalhes bibliográficos
Autor(a) principal:	Paz, Solange de Lemos
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10316/87927
Resumo:	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia

Metadados do item

id	RCAP_93348e7c7c048f2fb4826dc5be006841
oai_identifier_str	oai:estudogeral.uc.pt:10316/87927
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Processamento aproximado depesquisas para análise de Big DataApproximate Query Answering for Big Data AnalyticsRedução de dadosProcessamento aproximado de pesquisasProcessamento de Big DataAmostragemData ReductionApproximate Query ProcessingBig Data ProcessingSamplingDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaNos últimos dez anos o crescimento dos dados digitais aumentou exponencialmente. Com o aumento da quantidade de dados processada diariamente, a análise de dados para extrair informações relevantes de forma rápida tornou-se uma tarefa cada vez mais importante e difícil. As tecnologias atuais para análise de dados, que utilizam sistemas de bases de dados relacionais e data warehouses tornaram-se incapazes de lidar de forma eficiente com grandes quantidades de dados. Uma pesquisa nesses sistemas pode demorar horas até devolver um resultado, surgindo assim a necessidade de melhorar o seu desempenho, em termos de custo e tempo. Para melhorar este desempenho surgiram os sistemas de processamento aproximado de pesquisas, que garantem o processamento rápido de grandes quantidades de dados, abdicando de 100% de exatidão na resposta mas promovendo tempos de resposta mais curtos, utilizando apenas uma parte do conjunto de dados. Ao longo das últimas décadas foram propostas diversas técnicas de processamento aproximado de pesquisas, no entanto estas possuem limitações.Neste trabalho é proposta e avaliada uma nova técnica de processamento aproximado de pesquisas que mitiga as seguintes deficiências das abordagens atuais: não requer que seja efetuada qualquer alteração na base de dados, uma vez que possui uma arquitetura de middleware; permite a parametrização do grau de confiança e o erro máximo admitido para a resposta de uma pesquisa e lida com a maioria dos tipos de pesquisas. Esta técnica, designada JDBCApprox, consiste na implementação de uma biblioteca Java que recorre a uma amostragem aleatória simples sem repetição para criar amostras das tabelas da base de dados e, em seguida utiliza uma base de dados com uma configuração em memória para obter uma aceleração no tempo de resposta das pesquisas. A avaliação experimental mostrou que a técnica JDBCApprox consegue ser até 24 vezes mais rápida do que o PostgreSQL e devolve na maioria dos casos respostas mais exatas do que o sistema que apresenta os melhores resultados do estado da arte.Over the last ten years, the growth of digital data has increased exponentially. With the increase in the amount of data processed daily, using data analysis to quickly extract relevant information has become an increasingly important and difficult task. Current technologies for data analysis, which utilize relational database systems and data warehouses, have become incapable of handling large amounts of data efficiently. Performing a query on these systems may take hours before returning a result, thus emerging the need to improve their performance in terms of cost and time. To improve this performance, new processing systems of research have emerged. These systems ensure the rapid processing of large amounts of data, abdicating from 100\% accuracy in the response but promoting shorter response times, using only a portion of the data set. Over the last decades, several techniques have been proposed to approximate processing of queries, however these have limitations.\\ This work proposes and evaluates a new technique of approximate processing of researches that mitigates the following shortcomings of current approaches: it does not require any changes to be made on the database since it has a middleware architecture; allows the parameterization of the degree of confidence and the maximum error admitted to the response of a survey and deals with most types of queries. This technique, named JDBCApprox, consists of the implementation of a Java library that uses a simple random sampling without repetition to create samples of the database tables. It then uses a database with an in-memory configuration to get an acceleration in the response time of the queries. The deployed library can be up to 24 times faster than PostgreSQL and returns, in most cases, more accurate answers than the system that presents the best state of the art results.2019-09-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/87927http://hdl.handle.net/10316/87927TID:202307352porPaz, Solange de Lemosinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2021-05-10T10:46:14Zoai:estudogeral.uc.pt:10316/87927Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:08:44.620606Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Processamento aproximado depesquisas para análise de Big Data Approximate Query Answering for Big Data Analytics
title	Processamento aproximado depesquisas para análise de Big Data
spellingShingle	Processamento aproximado depesquisas para análise de Big Data Paz, Solange de Lemos Redução de dados Processamento aproximado de pesquisas Processamento de Big Data Amostragem Data Reduction Approximate Query Processing Big Data Processing Sampling
title_short	Processamento aproximado depesquisas para análise de Big Data
title_full	Processamento aproximado depesquisas para análise de Big Data
title_fullStr	Processamento aproximado depesquisas para análise de Big Data
title_full_unstemmed	Processamento aproximado depesquisas para análise de Big Data
title_sort	Processamento aproximado depesquisas para análise de Big Data
author	Paz, Solange de Lemos
author_facet	Paz, Solange de Lemos
author_role	author
dc.contributor.author.fl_str_mv	Paz, Solange de Lemos
dc.subject.por.fl_str_mv	Redução de dados Processamento aproximado de pesquisas Processamento de Big Data Amostragem Data Reduction Approximate Query Processing Big Data Processing Sampling
topic	Redução de dados Processamento aproximado de pesquisas Processamento de Big Data Amostragem Data Reduction Approximate Query Processing Big Data Processing Sampling
description	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate	2019
dc.date.none.fl_str_mv	2019-09-10
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10316/87927 http://hdl.handle.net/10316/87927 TID:202307352
url	http://hdl.handle.net/10316/87927
identifier_str_mv	TID:202307352
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799133980805562368

Processamento aproximado depesquisas para análise de Big Data

Registros relacionados