Real-time exploration and analysis of big data
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/197422 |
Resumo: | Esta tese consiste em desenvolver métodos para permitir a exploração e análise em tempo real de big data. As soluções devem ser eficientes em termos de memória e de tempo de execução, bem como levar em consideração a (i) escala de dados, (ii) diferentes formas de dados, (iii) análise de dados de streaming e (iv) incerteza de dados. Bancos de da- dos relacionais, ou pacotes estatísticos, têm dificuldade em lidar com grandes conjuntos de dados multidimensionais. As soluções ingênuas podem consumir quantidades proi- bitivamente grandes de memória ou tempo para responder à medida que o número de dimensões aumenta. A visualização interativa de grandes conjuntos de dados segue duas estratégias principais: amostragem e pré-computação. Uma limitação da estratégia de amostragem é a extração não trivial de amostras aleatórias de grandes conjuntos de da- dos, e estratégias de amostragem ingênuas podem gerar resultados tendenciosos. Esta pesquisa foca principalmente em estratégias de pré-computação, as quais se baseiam na idéia de pré-computar agregações. O principal gargalo dessa estratégia é a grande quanti- dade de memória comum às estruturas de dados usadas para acelerar consultas de dados, por exemplo, métodos de cubo de dados. Mesmo assim, a exploração e a análise em tempo real de big data são um dos principais desejos. de praticantes de visualização e cientistas de dados. Esta tese discute o problema e apresenta as contribuições do autor. |
id |
URGS_07ed3c73b4da6f67fa19e72ae887eeb3 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/197422 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Pahins, Cícero Augusto de LaraComba, Joao Luiz Dihl2019-07-26T02:31:28Z2018http://hdl.handle.net/10183/197422001098252Esta tese consiste em desenvolver métodos para permitir a exploração e análise em tempo real de big data. As soluções devem ser eficientes em termos de memória e de tempo de execução, bem como levar em consideração a (i) escala de dados, (ii) diferentes formas de dados, (iii) análise de dados de streaming e (iv) incerteza de dados. Bancos de da- dos relacionais, ou pacotes estatísticos, têm dificuldade em lidar com grandes conjuntos de dados multidimensionais. As soluções ingênuas podem consumir quantidades proi- bitivamente grandes de memória ou tempo para responder à medida que o número de dimensões aumenta. A visualização interativa de grandes conjuntos de dados segue duas estratégias principais: amostragem e pré-computação. Uma limitação da estratégia de amostragem é a extração não trivial de amostras aleatórias de grandes conjuntos de da- dos, e estratégias de amostragem ingênuas podem gerar resultados tendenciosos. Esta pesquisa foca principalmente em estratégias de pré-computação, as quais se baseiam na idéia de pré-computar agregações. O principal gargalo dessa estratégia é a grande quanti- dade de memória comum às estruturas de dados usadas para acelerar consultas de dados, por exemplo, métodos de cubo de dados. Mesmo assim, a exploração e a análise em tempo real de big data são um dos principais desejos. de praticantes de visualização e cientistas de dados. Esta tese discute o problema e apresenta as contribuições do autor.This thesis consists of developing methods to enable the real-time exploration and anal- ysis of big data. The solutions must be both memory and run-time efficient, as well as take into consideration the (i) scale of data, (ii) different forms of data, (iii) analysis of streaming data and (iv) uncertainty of data. Relational databases, or statistical pack- ages, have difficulty to handle large multidimensional datasets. Naive solutions can take prohibitively large amounts of memory or time to answer as the number of dimensions increases. The interactive visualization of large datasets follows two main strategies: sampling and pre-computation. One limitation of the sampling strategy is the non-trivial extraction of random samples of large datasets, and naïve sampling strategies can generate biased results. This research mainly focuses on pre-computation strategies, which relies on the idea of computing aggregations over several dimensions. The core bottleneck of this strategy is the large memory footprint that is common to data structures used to ac- celerate data queries, e.g., data cube methods. Nevertheless, the real-time exploration and analysis of big data are one of the primary desires of visualization practitioners and data scientists. This thesis discusses the problem and presents the author’s contributions.application/pdfengComputação gráficaProcessamento de imagensData structuresreal-timespatiotemporalReal-time exploration and analysis of big dataExploração e análise de big data em tempo real info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2018doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001098252.pdf.txt001098252.pdf.txtExtracted Texttext/plain382829http://www.lume.ufrgs.br/bitstream/10183/197422/2/001098252.pdf.txt009399c58179ac783b4c6476a776ee40MD52ORIGINAL001098252.pdfTexto completo (inglês)application/pdf51071060http://www.lume.ufrgs.br/bitstream/10183/197422/1/001098252.pdf638a75f7e6cd4399e13035299df5e346MD5110183/1974222021-05-26 04:38:32.423925oai:www.lume.ufrgs.br:10183/197422Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-05-26T07:38:32Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Real-time exploration and analysis of big data |
dc.title.alternative.pt.fl_str_mv |
Exploração e análise de big data em tempo real |
title |
Real-time exploration and analysis of big data |
spellingShingle |
Real-time exploration and analysis of big data Pahins, Cícero Augusto de Lara Computação gráfica Processamento de imagens Data structures real-time spatiotemporal |
title_short |
Real-time exploration and analysis of big data |
title_full |
Real-time exploration and analysis of big data |
title_fullStr |
Real-time exploration and analysis of big data |
title_full_unstemmed |
Real-time exploration and analysis of big data |
title_sort |
Real-time exploration and analysis of big data |
author |
Pahins, Cícero Augusto de Lara |
author_facet |
Pahins, Cícero Augusto de Lara |
author_role |
author |
dc.contributor.author.fl_str_mv |
Pahins, Cícero Augusto de Lara |
dc.contributor.advisor1.fl_str_mv |
Comba, Joao Luiz Dihl |
contributor_str_mv |
Comba, Joao Luiz Dihl |
dc.subject.por.fl_str_mv |
Computação gráfica Processamento de imagens |
topic |
Computação gráfica Processamento de imagens Data structures real-time spatiotemporal |
dc.subject.eng.fl_str_mv |
Data structures real-time spatiotemporal |
description |
Esta tese consiste em desenvolver métodos para permitir a exploração e análise em tempo real de big data. As soluções devem ser eficientes em termos de memória e de tempo de execução, bem como levar em consideração a (i) escala de dados, (ii) diferentes formas de dados, (iii) análise de dados de streaming e (iv) incerteza de dados. Bancos de da- dos relacionais, ou pacotes estatísticos, têm dificuldade em lidar com grandes conjuntos de dados multidimensionais. As soluções ingênuas podem consumir quantidades proi- bitivamente grandes de memória ou tempo para responder à medida que o número de dimensões aumenta. A visualização interativa de grandes conjuntos de dados segue duas estratégias principais: amostragem e pré-computação. Uma limitação da estratégia de amostragem é a extração não trivial de amostras aleatórias de grandes conjuntos de da- dos, e estratégias de amostragem ingênuas podem gerar resultados tendenciosos. Esta pesquisa foca principalmente em estratégias de pré-computação, as quais se baseiam na idéia de pré-computar agregações. O principal gargalo dessa estratégia é a grande quanti- dade de memória comum às estruturas de dados usadas para acelerar consultas de dados, por exemplo, métodos de cubo de dados. Mesmo assim, a exploração e a análise em tempo real de big data são um dos principais desejos. de praticantes de visualização e cientistas de dados. Esta tese discute o problema e apresenta as contribuições do autor. |
publishDate |
2018 |
dc.date.issued.fl_str_mv |
2018 |
dc.date.accessioned.fl_str_mv |
2019-07-26T02:31:28Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/197422 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001098252 |
url |
http://hdl.handle.net/10183/197422 |
identifier_str_mv |
001098252 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/197422/2/001098252.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/197422/1/001098252.pdf |
bitstream.checksum.fl_str_mv |
009399c58179ac783b4c6476a776ee40 638a75f7e6cd4399e13035299df5e346 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085490738593792 |