Otimização de dataflows em frameworks de big data por meio do reúso de dados

Detalhes bibliográficos
Autor(a) principal: Secchim, Gustavo Decarlo Ferreira
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do LNCC
Texto Completo: https://tede.lncc.br/handle/tede/371
Resumo: O uso de arcabouços de Big Data tem aumentado nos últimos anos. Esses arcabouços representam um avanço no que tange o apoio à execução paralela e distribuída de aplicações. Essas aplicações são frequentemente compostas de diversas atividades, gerando assim um dataflow, que em geral processa um grande volume de dados. Por mais que os arcabouços sejam otimizados para explorar localidade dos dados e evitar transferências desnecessárias no ambiente distribuído, tais otimizações são focadas em execuções isoladas, i.e. (não consideram aproveitar dados de execuções anteriores). Esse tipo de reúso de dados pode acelerar dataflows, uma vez que o dado não precisa ser processado novamente caso já tenha sido produzido por uma execução anterior do mesmo dataflow. Esta dissertação apresenta o serviço FORESEE para o compartilhamento de dados gerados nos dataflows. Discutimos e implementamos o serviço utilizando uma arquitetura que permite que múltiplas execuções de dataflows possam compartilhar resultados intermediários, reduzindo tempo de execução. Avaliamos a abordagem com dataflows reais de processamento utilizando dados abertos.
id LNCC_92b586c029b08905db4f6a01b1e08b32
oai_identifier_str oai:tede-server.lncc.br:tede/371
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Otimização de dataflows em frameworks de big data por meio do reúso de dadosBig dataData flowReúso de dadosBase de dadosFrameworksCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOSO uso de arcabouços de Big Data tem aumentado nos últimos anos. Esses arcabouços representam um avanço no que tange o apoio à execução paralela e distribuída de aplicações. Essas aplicações são frequentemente compostas de diversas atividades, gerando assim um dataflow, que em geral processa um grande volume de dados. Por mais que os arcabouços sejam otimizados para explorar localidade dos dados e evitar transferências desnecessárias no ambiente distribuído, tais otimizações são focadas em execuções isoladas, i.e. (não consideram aproveitar dados de execuções anteriores). Esse tipo de reúso de dados pode acelerar dataflows, uma vez que o dado não precisa ser processado novamente caso já tenha sido produzido por uma execução anterior do mesmo dataflow. Esta dissertação apresenta o serviço FORESEE para o compartilhamento de dados gerados nos dataflows. Discutimos e implementamos o serviço utilizando uma arquitetura que permite que múltiplas execuções de dataflows possam compartilhar resultados intermediários, reduzindo tempo de execução. Avaliamos a abordagem com dataflows reais de processamento utilizando dados abertos.The use of Big Data frameworks has increased in recent years. These frameworks represent a breakthrough in terms of support for parallel and distributed execution of applications. These applications are often composed of several activities, thus generating a dataflow, which in general processes a large volume of data. As much as the frameworks are optimized to exploit data locality and avoid unnecessary transfers in the distributed environment, such optimizations are focused on isolated executions, i.e. (Do not consider using data from previous runs). This type of data reuse can speed up dataflows, since the data does not need to be processed again if it has already been produced by a previous execution of the same dataflow. This dissertation presents the FORESEE service for sharing data generated in dataflows. We discuss and implement the service using an architecture that allows multiple executions of dataflows to share intermediate results, reducing execution time. We evaluated the approach with real dataflows using open data processing.Laboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalPorto, Fabio André MachadoOliveira, Daniel Cardoso Moraes dePorto, Fábio André MachadoGadelha Júnior, Luiz Manoel RochaBoeres, Maria Cristina SilvaValduriez, PatrickSecchim, Gustavo Decarlo Ferreira2023-07-11T14:21:28Z2023-05-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023.https://tede.lncc.br/handle/tede/371porhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-07-12T04:16:25Zoai:tede-server.lncc.br:tede/371Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-07-12T04:16:25Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.none.fl_str_mv Otimização de dataflows em frameworks de big data por meio do reúso de dados
title Otimização de dataflows em frameworks de big data por meio do reúso de dados
spellingShingle Otimização de dataflows em frameworks de big data por meio do reúso de dados
Secchim, Gustavo Decarlo Ferreira
Big data
Data flow
Reúso de dados
Base de dados
Frameworks
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
title_short Otimização de dataflows em frameworks de big data por meio do reúso de dados
title_full Otimização de dataflows em frameworks de big data por meio do reúso de dados
title_fullStr Otimização de dataflows em frameworks de big data por meio do reúso de dados
title_full_unstemmed Otimização de dataflows em frameworks de big data por meio do reúso de dados
title_sort Otimização de dataflows em frameworks de big data por meio do reúso de dados
author Secchim, Gustavo Decarlo Ferreira
author_facet Secchim, Gustavo Decarlo Ferreira
author_role author
dc.contributor.none.fl_str_mv Porto, Fabio André Machado
Oliveira, Daniel Cardoso Moraes de
Porto, Fábio André Machado
Gadelha Júnior, Luiz Manoel Rocha
Boeres, Maria Cristina Silva
Valduriez, Patrick
dc.contributor.author.fl_str_mv Secchim, Gustavo Decarlo Ferreira
dc.subject.por.fl_str_mv Big data
Data flow
Reúso de dados
Base de dados
Frameworks
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
topic Big data
Data flow
Reúso de dados
Base de dados
Frameworks
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
description O uso de arcabouços de Big Data tem aumentado nos últimos anos. Esses arcabouços representam um avanço no que tange o apoio à execução paralela e distribuída de aplicações. Essas aplicações são frequentemente compostas de diversas atividades, gerando assim um dataflow, que em geral processa um grande volume de dados. Por mais que os arcabouços sejam otimizados para explorar localidade dos dados e evitar transferências desnecessárias no ambiente distribuído, tais otimizações são focadas em execuções isoladas, i.e. (não consideram aproveitar dados de execuções anteriores). Esse tipo de reúso de dados pode acelerar dataflows, uma vez que o dado não precisa ser processado novamente caso já tenha sido produzido por uma execução anterior do mesmo dataflow. Esta dissertação apresenta o serviço FORESEE para o compartilhamento de dados gerados nos dataflows. Discutimos e implementamos o serviço utilizando uma arquitetura que permite que múltiplas execuções de dataflows possam compartilhar resultados intermediários, reduzindo tempo de execução. Avaliamos a abordagem com dataflows reais de processamento utilizando dados abertos.
publishDate 2023
dc.date.none.fl_str_mv 2023-07-11T14:21:28Z
2023-05-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023.
https://tede.lncc.br/handle/tede/371
identifier_str_mv SECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023.
url https://tede.lncc.br/handle/tede/371
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1816081207350263808