Real-time exploration and analysis of big data

Detalhes bibliográficos
Autor(a) principal: Pahins, Cícero Augusto de Lara
Data de Publicação: 2018
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/197422
Resumo: Esta tese consiste em desenvolver métodos para permitir a exploração e análise em tempo real de big data. As soluções devem ser eficientes em termos de memória e de tempo de execução, bem como levar em consideração a (i) escala de dados, (ii) diferentes formas de dados, (iii) análise de dados de streaming e (iv) incerteza de dados. Bancos de da- dos relacionais, ou pacotes estatísticos, têm dificuldade em lidar com grandes conjuntos de dados multidimensionais. As soluções ingênuas podem consumir quantidades proi- bitivamente grandes de memória ou tempo para responder à medida que o número de dimensões aumenta. A visualização interativa de grandes conjuntos de dados segue duas estratégias principais: amostragem e pré-computação. Uma limitação da estratégia de amostragem é a extração não trivial de amostras aleatórias de grandes conjuntos de da- dos, e estratégias de amostragem ingênuas podem gerar resultados tendenciosos. Esta pesquisa foca principalmente em estratégias de pré-computação, as quais se baseiam na idéia de pré-computar agregações. O principal gargalo dessa estratégia é a grande quanti- dade de memória comum às estruturas de dados usadas para acelerar consultas de dados, por exemplo, métodos de cubo de dados. Mesmo assim, a exploração e a análise em tempo real de big data são um dos principais desejos. de praticantes de visualização e cientistas de dados. Esta tese discute o problema e apresenta as contribuições do autor.
id URGS_07ed3c73b4da6f67fa19e72ae887eeb3
oai_identifier_str oai:www.lume.ufrgs.br:10183/197422
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Pahins, Cícero Augusto de LaraComba, Joao Luiz Dihl2019-07-26T02:31:28Z2018http://hdl.handle.net/10183/197422001098252Esta tese consiste em desenvolver métodos para permitir a exploração e análise em tempo real de big data. As soluções devem ser eficientes em termos de memória e de tempo de execução, bem como levar em consideração a (i) escala de dados, (ii) diferentes formas de dados, (iii) análise de dados de streaming e (iv) incerteza de dados. Bancos de da- dos relacionais, ou pacotes estatísticos, têm dificuldade em lidar com grandes conjuntos de dados multidimensionais. As soluções ingênuas podem consumir quantidades proi- bitivamente grandes de memória ou tempo para responder à medida que o número de dimensões aumenta. A visualização interativa de grandes conjuntos de dados segue duas estratégias principais: amostragem e pré-computação. Uma limitação da estratégia de amostragem é a extração não trivial de amostras aleatórias de grandes conjuntos de da- dos, e estratégias de amostragem ingênuas podem gerar resultados tendenciosos. Esta pesquisa foca principalmente em estratégias de pré-computação, as quais se baseiam na idéia de pré-computar agregações. O principal gargalo dessa estratégia é a grande quanti- dade de memória comum às estruturas de dados usadas para acelerar consultas de dados, por exemplo, métodos de cubo de dados. Mesmo assim, a exploração e a análise em tempo real de big data são um dos principais desejos. de praticantes de visualização e cientistas de dados. Esta tese discute o problema e apresenta as contribuições do autor.This thesis consists of developing methods to enable the real-time exploration and anal- ysis of big data. The solutions must be both memory and run-time efficient, as well as take into consideration the (i) scale of data, (ii) different forms of data, (iii) analysis of streaming data and (iv) uncertainty of data. Relational databases, or statistical pack- ages, have difficulty to handle large multidimensional datasets. Naive solutions can take prohibitively large amounts of memory or time to answer as the number of dimensions increases. The interactive visualization of large datasets follows two main strategies: sampling and pre-computation. One limitation of the sampling strategy is the non-trivial extraction of random samples of large datasets, and naïve sampling strategies can generate biased results. This research mainly focuses on pre-computation strategies, which relies on the idea of computing aggregations over several dimensions. The core bottleneck of this strategy is the large memory footprint that is common to data structures used to ac- celerate data queries, e.g., data cube methods. Nevertheless, the real-time exploration and analysis of big data are one of the primary desires of visualization practitioners and data scientists. This thesis discusses the problem and presents the author’s contributions.application/pdfengComputação gráficaProcessamento de imagensData structuresreal-timespatiotemporalReal-time exploration and analysis of big dataExploração e análise de big data em tempo real info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2018doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001098252.pdf.txt001098252.pdf.txtExtracted Texttext/plain382829http://www.lume.ufrgs.br/bitstream/10183/197422/2/001098252.pdf.txt009399c58179ac783b4c6476a776ee40MD52ORIGINAL001098252.pdfTexto completo (inglês)application/pdf51071060http://www.lume.ufrgs.br/bitstream/10183/197422/1/001098252.pdf638a75f7e6cd4399e13035299df5e346MD5110183/1974222021-05-26 04:38:32.423925oai:www.lume.ufrgs.br:10183/197422Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-05-26T07:38:32Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Real-time exploration and analysis of big data
dc.title.alternative.pt.fl_str_mv Exploração e análise de big data em tempo real
title Real-time exploration and analysis of big data
spellingShingle Real-time exploration and analysis of big data
Pahins, Cícero Augusto de Lara
Computação gráfica
Processamento de imagens
Data structures
real-time
spatiotemporal
title_short Real-time exploration and analysis of big data
title_full Real-time exploration and analysis of big data
title_fullStr Real-time exploration and analysis of big data
title_full_unstemmed Real-time exploration and analysis of big data
title_sort Real-time exploration and analysis of big data
author Pahins, Cícero Augusto de Lara
author_facet Pahins, Cícero Augusto de Lara
author_role author
dc.contributor.author.fl_str_mv Pahins, Cícero Augusto de Lara
dc.contributor.advisor1.fl_str_mv Comba, Joao Luiz Dihl
contributor_str_mv Comba, Joao Luiz Dihl
dc.subject.por.fl_str_mv Computação gráfica
Processamento de imagens
topic Computação gráfica
Processamento de imagens
Data structures
real-time
spatiotemporal
dc.subject.eng.fl_str_mv Data structures
real-time
spatiotemporal
description Esta tese consiste em desenvolver métodos para permitir a exploração e análise em tempo real de big data. As soluções devem ser eficientes em termos de memória e de tempo de execução, bem como levar em consideração a (i) escala de dados, (ii) diferentes formas de dados, (iii) análise de dados de streaming e (iv) incerteza de dados. Bancos de da- dos relacionais, ou pacotes estatísticos, têm dificuldade em lidar com grandes conjuntos de dados multidimensionais. As soluções ingênuas podem consumir quantidades proi- bitivamente grandes de memória ou tempo para responder à medida que o número de dimensões aumenta. A visualização interativa de grandes conjuntos de dados segue duas estratégias principais: amostragem e pré-computação. Uma limitação da estratégia de amostragem é a extração não trivial de amostras aleatórias de grandes conjuntos de da- dos, e estratégias de amostragem ingênuas podem gerar resultados tendenciosos. Esta pesquisa foca principalmente em estratégias de pré-computação, as quais se baseiam na idéia de pré-computar agregações. O principal gargalo dessa estratégia é a grande quanti- dade de memória comum às estruturas de dados usadas para acelerar consultas de dados, por exemplo, métodos de cubo de dados. Mesmo assim, a exploração e a análise em tempo real de big data são um dos principais desejos. de praticantes de visualização e cientistas de dados. Esta tese discute o problema e apresenta as contribuições do autor.
publishDate 2018
dc.date.issued.fl_str_mv 2018
dc.date.accessioned.fl_str_mv 2019-07-26T02:31:28Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/197422
dc.identifier.nrb.pt_BR.fl_str_mv 001098252
url http://hdl.handle.net/10183/197422
identifier_str_mv 001098252
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/197422/2/001098252.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/197422/1/001098252.pdf
bitstream.checksum.fl_str_mv 009399c58179ac783b4c6476a776ee40
638a75f7e6cd4399e13035299df5e346
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085490738593792