Otimização de dataflows em frameworks de big data por meio do reúso de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do LNCC |
Texto Completo: | https://tede.lncc.br/handle/tede/371 |
Resumo: | O uso de arcabouços de Big Data tem aumentado nos últimos anos. Esses arcabouços representam um avanço no que tange o apoio à execução paralela e distribuída de aplicações. Essas aplicações são frequentemente compostas de diversas atividades, gerando assim um dataflow, que em geral processa um grande volume de dados. Por mais que os arcabouços sejam otimizados para explorar localidade dos dados e evitar transferências desnecessárias no ambiente distribuído, tais otimizações são focadas em execuções isoladas, i.e. (não consideram aproveitar dados de execuções anteriores). Esse tipo de reúso de dados pode acelerar dataflows, uma vez que o dado não precisa ser processado novamente caso já tenha sido produzido por uma execução anterior do mesmo dataflow. Esta dissertação apresenta o serviço FORESEE para o compartilhamento de dados gerados nos dataflows. Discutimos e implementamos o serviço utilizando uma arquitetura que permite que múltiplas execuções de dataflows possam compartilhar resultados intermediários, reduzindo tempo de execução. Avaliamos a abordagem com dataflows reais de processamento utilizando dados abertos. |
id |
LNCC_92b586c029b08905db4f6a01b1e08b32 |
---|---|
oai_identifier_str |
oai:tede-server.lncc.br:tede/371 |
network_acronym_str |
LNCC |
network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository_id_str |
|
spelling |
Otimização de dataflows em frameworks de big data por meio do reúso de dadosBig dataData flowReúso de dadosBase de dadosFrameworksCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOSO uso de arcabouços de Big Data tem aumentado nos últimos anos. Esses arcabouços representam um avanço no que tange o apoio à execução paralela e distribuída de aplicações. Essas aplicações são frequentemente compostas de diversas atividades, gerando assim um dataflow, que em geral processa um grande volume de dados. Por mais que os arcabouços sejam otimizados para explorar localidade dos dados e evitar transferências desnecessárias no ambiente distribuído, tais otimizações são focadas em execuções isoladas, i.e. (não consideram aproveitar dados de execuções anteriores). Esse tipo de reúso de dados pode acelerar dataflows, uma vez que o dado não precisa ser processado novamente caso já tenha sido produzido por uma execução anterior do mesmo dataflow. Esta dissertação apresenta o serviço FORESEE para o compartilhamento de dados gerados nos dataflows. Discutimos e implementamos o serviço utilizando uma arquitetura que permite que múltiplas execuções de dataflows possam compartilhar resultados intermediários, reduzindo tempo de execução. Avaliamos a abordagem com dataflows reais de processamento utilizando dados abertos.The use of Big Data frameworks has increased in recent years. These frameworks represent a breakthrough in terms of support for parallel and distributed execution of applications. These applications are often composed of several activities, thus generating a dataflow, which in general processes a large volume of data. As much as the frameworks are optimized to exploit data locality and avoid unnecessary transfers in the distributed environment, such optimizations are focused on isolated executions, i.e. (Do not consider using data from previous runs). This type of data reuse can speed up dataflows, since the data does not need to be processed again if it has already been produced by a previous execution of the same dataflow. This dissertation presents the FORESEE service for sharing data generated in dataflows. We discuss and implement the service using an architecture that allows multiple executions of dataflows to share intermediate results, reducing execution time. We evaluated the approach with real dataflows using open data processing.Laboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalPorto, Fabio André MachadoOliveira, Daniel Cardoso Moraes dePorto, Fábio André MachadoGadelha Júnior, Luiz Manoel RochaBoeres, Maria Cristina SilvaValduriez, PatrickSecchim, Gustavo Decarlo Ferreira2023-07-11T14:21:28Z2023-05-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023.https://tede.lncc.br/handle/tede/371porhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-07-12T04:16:25Zoai:tede-server.lncc.br:tede/371Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-07-12T04:16:25Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
dc.title.none.fl_str_mv |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
title |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
spellingShingle |
Otimização de dataflows em frameworks de big data por meio do reúso de dados Secchim, Gustavo Decarlo Ferreira Big data Data flow Reúso de dados Base de dados Frameworks CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS |
title_short |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
title_full |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
title_fullStr |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
title_full_unstemmed |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
title_sort |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
author |
Secchim, Gustavo Decarlo Ferreira |
author_facet |
Secchim, Gustavo Decarlo Ferreira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Porto, Fabio André Machado Oliveira, Daniel Cardoso Moraes de Porto, Fábio André Machado Gadelha Júnior, Luiz Manoel Rocha Boeres, Maria Cristina Silva Valduriez, Patrick |
dc.contributor.author.fl_str_mv |
Secchim, Gustavo Decarlo Ferreira |
dc.subject.por.fl_str_mv |
Big data Data flow Reúso de dados Base de dados Frameworks CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS |
topic |
Big data Data flow Reúso de dados Base de dados Frameworks CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS |
description |
O uso de arcabouços de Big Data tem aumentado nos últimos anos. Esses arcabouços representam um avanço no que tange o apoio à execução paralela e distribuída de aplicações. Essas aplicações são frequentemente compostas de diversas atividades, gerando assim um dataflow, que em geral processa um grande volume de dados. Por mais que os arcabouços sejam otimizados para explorar localidade dos dados e evitar transferências desnecessárias no ambiente distribuído, tais otimizações são focadas em execuções isoladas, i.e. (não consideram aproveitar dados de execuções anteriores). Esse tipo de reúso de dados pode acelerar dataflows, uma vez que o dado não precisa ser processado novamente caso já tenha sido produzido por uma execução anterior do mesmo dataflow. Esta dissertação apresenta o serviço FORESEE para o compartilhamento de dados gerados nos dataflows. Discutimos e implementamos o serviço utilizando uma arquitetura que permite que múltiplas execuções de dataflows possam compartilhar resultados intermediários, reduzindo tempo de execução. Avaliamos a abordagem com dataflows reais de processamento utilizando dados abertos. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-07-11T14:21:28Z 2023-05-22 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
SECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023. https://tede.lncc.br/handle/tede/371 |
identifier_str_mv |
SECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023. |
url |
https://tede.lncc.br/handle/tede/371 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
instacron_str |
LNCC |
institution |
LNCC |
reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
_version_ |
1816081207350263808 |