Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídos

Detalhes bibliográficos
Autor(a) principal: Rocha, Guilherme Muzzi da
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-23102020-164945/
Resumo: Consultas analíticas sobre data warehouses convencionais possuem alto custo computacional, desde que requerem a realização de caras operações de junção-estrela considerando grandes volumes de dados. Este custo é ainda maior quando se consideram data warehouses de imagens. Além deles serem mais volumosos, as consultas analíticas são estendidas com predicado de similaridade de imagens, o qual também requer a realização de onerosas operações de cálculos de distância. Nesta dissertação de mestrado, investiga-se esse desafio. Considera-se o contexto de imagens médicas, a sua importância para a tomada de decisão analítica e seu impacto para a sociedade. Neste contexto, as aplicações requerem o compartilhamento e o gerenciamento de grandes volumes de dados, sendo necessário o uso de um framework de processamento paralelo e distribuído. Nesta dissertação, são propostos quatro métodos para o processamento eficiente de consultas analíticas estendidas com predicado de similaridade de imagens em Spark. O método BloOmnImg integra a técnica bloom filter cascade join para o processamento da junção-estrela com a técnica Omni para o processamento das operações de distância. Por ser baseado em uma estrutura de dados probabilística, ele é indicado para sistemas computacionais com pouca memória primária disponível. O método BrOmnImg também usa a técnica Omni, porém a integra com a técnica broadcast join. Por ser baseado em uma estrutura de dados exata, ele é indicado para sistemas computacionais cuja memória primária disponível é suficiente para armazenar essa estrutura. O método BrOmnImgCF estende o método BrOmnImg de forma a utilizar também o predicado convencional das consultas para reduzir ainda mais o número de operações de cálculos de distância entre as imagens. Por fim, o método SimSparkOLAP processa eficientemente consultas analíticas estendidas com predicado de similaridade de imagens, geográficos e socioeconômicos. Os métodos propostos foram validados por meio de testes de desempenho experimentais. Os resultados demonstraram que os métodos proveram ganho de desempenho de até 66,93% frente aos trabalhos relacionados existentes na literatura. Adicionalmente, os métodos propostos foram usados para investigar o potencial semântico do processamento destas consultas analíticas, visando mostrar como os resultados obtidos nesta dissertação de mestrado podem ser usados para enriquecer o suporte à tomada de decisão da área médica.
id USP_cf93561bb0d0430c89d0e94e03df1826
oai_identifier_str oai:teses.usp.br:tde-23102020-164945
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídosEfficient processing analytical queries extended with similarity search predicate over an image data warehouse in parallel and distributed environmentsConsultas OLAP estendidas com predicado de similaridadeData warehouse de imagensImage data warehouseImagens médicasMedical imagesOLAP queries extended with similarity search predicateParallel and distributed processingProcessamento paralelo e distribuídoConsultas analíticas sobre data warehouses convencionais possuem alto custo computacional, desde que requerem a realização de caras operações de junção-estrela considerando grandes volumes de dados. Este custo é ainda maior quando se consideram data warehouses de imagens. Além deles serem mais volumosos, as consultas analíticas são estendidas com predicado de similaridade de imagens, o qual também requer a realização de onerosas operações de cálculos de distância. Nesta dissertação de mestrado, investiga-se esse desafio. Considera-se o contexto de imagens médicas, a sua importância para a tomada de decisão analítica e seu impacto para a sociedade. Neste contexto, as aplicações requerem o compartilhamento e o gerenciamento de grandes volumes de dados, sendo necessário o uso de um framework de processamento paralelo e distribuído. Nesta dissertação, são propostos quatro métodos para o processamento eficiente de consultas analíticas estendidas com predicado de similaridade de imagens em Spark. O método BloOmnImg integra a técnica bloom filter cascade join para o processamento da junção-estrela com a técnica Omni para o processamento das operações de distância. Por ser baseado em uma estrutura de dados probabilística, ele é indicado para sistemas computacionais com pouca memória primária disponível. O método BrOmnImg também usa a técnica Omni, porém a integra com a técnica broadcast join. Por ser baseado em uma estrutura de dados exata, ele é indicado para sistemas computacionais cuja memória primária disponível é suficiente para armazenar essa estrutura. O método BrOmnImgCF estende o método BrOmnImg de forma a utilizar também o predicado convencional das consultas para reduzir ainda mais o número de operações de cálculos de distância entre as imagens. Por fim, o método SimSparkOLAP processa eficientemente consultas analíticas estendidas com predicado de similaridade de imagens, geográficos e socioeconômicos. Os métodos propostos foram validados por meio de testes de desempenho experimentais. Os resultados demonstraram que os métodos proveram ganho de desempenho de até 66,93% frente aos trabalhos relacionados existentes na literatura. Adicionalmente, os métodos propostos foram usados para investigar o potencial semântico do processamento destas consultas analíticas, visando mostrar como os resultados obtidos nesta dissertação de mestrado podem ser usados para enriquecer o suporte à tomada de decisão da área médica.Analytical queries over conventional data warehouses have a high computational cost, as they require processing the expensive star join operation considering huge volumes of data. This cost is even greater in image data warehousing environments. First, image data warehouses are more voluminous. Second, analytical queries are extended with similarity search predicate, also requiring the processing of costly operations to calculate the distance between images. In this master thesis, we focus on this challenge. We consider the context of medical images, due to the importance of the analytical decision-making over them and their impact on the society. In this context, medical applications usually share and manage large volumes of data. Thus, they require the use of a parallel and distributed processing framework. We propose four methods for the efficient processing of analytical queries extended with image similarity search predicate in Spark. The first method is BloOmnImg, which is based on the integration of the bloom filter cascade join and the Omni techniques for processing star joins and distance calculations, respectively. BloOmnImg uses a probabilistic structure. Then, it is indicated for computational systems with low primary memory. The second method is BrOmnImg, which also uses the Omni technique, but integrate it with the broadcast join technique. BrOmnImg is based on a exact structure, then it is indicated for computational systems with primary memory enough to store this structure. The BrOmnImgCF method extends BrOmnImg by using the conventional predicate to further reduce the distance calculations between images. Finally, SimSparkOLAP extends BrOmnImg for the efficient processing analytical queries extended with image, geographical and socioeconomic predicates. The proposed methods were validated through performance tests considering different data volumes and configurations for the predicates involved. The results showed the significant performance gain of the methods over related work. The validation of the methods also considered examples of semantic queries and identified their importance to enrich the medical decision-making process.Biblioteca Digitais de Teses e Dissertações da USPCiferri, Cristina Dutra de AguiarRocha, Guilherme Muzzi da2020-08-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-23102020-164945/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-10-23T22:26:02Zoai:teses.usp.br:tde-23102020-164945Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-10-23T22:26:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídos
Efficient processing analytical queries extended with similarity search predicate over an image data warehouse in parallel and distributed environments
title Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídos
spellingShingle Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídos
Rocha, Guilherme Muzzi da
Consultas OLAP estendidas com predicado de similaridade
Data warehouse de imagens
Image data warehouse
Imagens médicas
Medical images
OLAP queries extended with similarity search predicate
Parallel and distributed processing
Processamento paralelo e distribuído
title_short Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídos
title_full Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídos
title_fullStr Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídos
title_full_unstemmed Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídos
title_sort Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídos
author Rocha, Guilherme Muzzi da
author_facet Rocha, Guilherme Muzzi da
author_role author
dc.contributor.none.fl_str_mv Ciferri, Cristina Dutra de Aguiar
dc.contributor.author.fl_str_mv Rocha, Guilherme Muzzi da
dc.subject.por.fl_str_mv Consultas OLAP estendidas com predicado de similaridade
Data warehouse de imagens
Image data warehouse
Imagens médicas
Medical images
OLAP queries extended with similarity search predicate
Parallel and distributed processing
Processamento paralelo e distribuído
topic Consultas OLAP estendidas com predicado de similaridade
Data warehouse de imagens
Image data warehouse
Imagens médicas
Medical images
OLAP queries extended with similarity search predicate
Parallel and distributed processing
Processamento paralelo e distribuído
description Consultas analíticas sobre data warehouses convencionais possuem alto custo computacional, desde que requerem a realização de caras operações de junção-estrela considerando grandes volumes de dados. Este custo é ainda maior quando se consideram data warehouses de imagens. Além deles serem mais volumosos, as consultas analíticas são estendidas com predicado de similaridade de imagens, o qual também requer a realização de onerosas operações de cálculos de distância. Nesta dissertação de mestrado, investiga-se esse desafio. Considera-se o contexto de imagens médicas, a sua importância para a tomada de decisão analítica e seu impacto para a sociedade. Neste contexto, as aplicações requerem o compartilhamento e o gerenciamento de grandes volumes de dados, sendo necessário o uso de um framework de processamento paralelo e distribuído. Nesta dissertação, são propostos quatro métodos para o processamento eficiente de consultas analíticas estendidas com predicado de similaridade de imagens em Spark. O método BloOmnImg integra a técnica bloom filter cascade join para o processamento da junção-estrela com a técnica Omni para o processamento das operações de distância. Por ser baseado em uma estrutura de dados probabilística, ele é indicado para sistemas computacionais com pouca memória primária disponível. O método BrOmnImg também usa a técnica Omni, porém a integra com a técnica broadcast join. Por ser baseado em uma estrutura de dados exata, ele é indicado para sistemas computacionais cuja memória primária disponível é suficiente para armazenar essa estrutura. O método BrOmnImgCF estende o método BrOmnImg de forma a utilizar também o predicado convencional das consultas para reduzir ainda mais o número de operações de cálculos de distância entre as imagens. Por fim, o método SimSparkOLAP processa eficientemente consultas analíticas estendidas com predicado de similaridade de imagens, geográficos e socioeconômicos. Os métodos propostos foram validados por meio de testes de desempenho experimentais. Os resultados demonstraram que os métodos proveram ganho de desempenho de até 66,93% frente aos trabalhos relacionados existentes na literatura. Adicionalmente, os métodos propostos foram usados para investigar o potencial semântico do processamento destas consultas analíticas, visando mostrar como os resultados obtidos nesta dissertação de mestrado podem ser usados para enriquecer o suporte à tomada de decisão da área médica.
publishDate 2020
dc.date.none.fl_str_mv 2020-08-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-23102020-164945/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-23102020-164945/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257376462209024