Otimização de dataflows em frameworks de big data por meio do reúso de dados

Detalhes bibliográficos
Autor(a) principal: Secchim, Gustavo Decarlo Ferreira
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do LNCC
Texto Completo: https://tede.lncc.br/handle/tede/371
Resumo: The use of Big Data frameworks has increased in recent years. These frameworks represent a breakthrough in terms of support for parallel and distributed execution of applications. These applications are often composed of several activities, thus generating a dataflow, which in general processes a large volume of data. As much as the frameworks are optimized to exploit data locality and avoid unnecessary transfers in the distributed environment, such optimizations are focused on isolated executions, i.e. (Do not consider using data from previous runs). This type of data reuse can speed up dataflows, since the data does not need to be processed again if it has already been produced by a previous execution of the same dataflow. This dissertation presents the FORESEE service for sharing data generated in dataflows. We discuss and implement the service using an architecture that allows multiple executions of dataflows to share intermediate results, reducing execution time. We evaluated the approach with real dataflows using open data processing.
id LNCC_92b586c029b08905db4f6a01b1e08b32
oai_identifier_str oai:tede-server.lncc.br:tede/371
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Porto, Fabio André MachadoOliveira, Daniel Cardoso Moraes dePorto, Fábio André MachadoGadelha Júnior, Luiz Manoel RochaBoeres, Maria Cristina SilvaValduriez, Patrickhttps://lattes.cnpq.br/5032226881159086Secchim, Gustavo Decarlo Ferreira2023-07-11T14:21:28Z2023-05-22SECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023.https://tede.lncc.br/handle/tede/371The use of Big Data frameworks has increased in recent years. These frameworks represent a breakthrough in terms of support for parallel and distributed execution of applications. These applications are often composed of several activities, thus generating a dataflow, which in general processes a large volume of data. As much as the frameworks are optimized to exploit data locality and avoid unnecessary transfers in the distributed environment, such optimizations are focused on isolated executions, i.e. (Do not consider using data from previous runs). This type of data reuse can speed up dataflows, since the data does not need to be processed again if it has already been produced by a previous execution of the same dataflow. This dissertation presents the FORESEE service for sharing data generated in dataflows. We discuss and implement the service using an architecture that allows multiple executions of dataflows to share intermediate results, reducing execution time. We evaluated the approach with real dataflows using open data processing.O uso de arcabouços de Big Data tem aumentado nos últimos anos. Esses arcabouços representam um avanço no que tange o apoio à execução paralela e distribuída de aplicações. Essas aplicações são frequentemente compostas de diversas atividades, gerando assim um dataflow, que em geral processa um grande volume de dados. Por mais que os arcabouços sejam otimizados para explorar localidade dos dados e evitar transferências desnecessárias no ambiente distribuído, tais otimizações são focadas em execuções isoladas, i.e. (não consideram aproveitar dados de execuções anteriores). Esse tipo de reúso de dados pode acelerar dataflows, uma vez que o dado não precisa ser processado novamente caso já tenha sido produzido por uma execução anterior do mesmo dataflow. Esta dissertação apresenta o serviço FORESEE para o compartilhamento de dados gerados nos dataflows. Discutimos e implementamos o serviço utilizando uma arquitetura que permite que múltiplas execuções de dataflows possam compartilhar resultados intermediários, reduzindo tempo de execução. Avaliamos a abordagem com dataflows reais de processamento utilizando dados abertos.Submitted by Patrícia Vieira Silva (library@lncc.br) on 2023-07-11T14:20:55Z No. of bitstreams: 2 Dissertacao_Gustavo Decarlo Ferreira Secchim.pdf: 1831118 bytes, checksum: afe9846bce3fe61d703a471861a86d23 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)Approved for entry into archive by Patrícia Vieira Silva (library@lncc.br) on 2023-07-11T14:21:16Z (GMT) No. of bitstreams: 2 Dissertacao_Gustavo Decarlo Ferreira Secchim.pdf: 1831118 bytes, checksum: afe9846bce3fe61d703a471861a86d23 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)Made available in DSpace on 2023-07-11T14:21:28Z (GMT). No. of bitstreams: 2 Dissertacao_Gustavo Decarlo Ferreira Secchim.pdf: 1831118 bytes, checksum: afe9846bce3fe61d703a471861a86d23 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2023-05-22application/pdfhttp://tede-server.lncc.br:8080/retrieve/1612/Dissertacao_Gustavo%20Decarlo%20Ferreira%20Secchim.pdf.jpgporLaboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem ComputacionalLNCCBrasilCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessBig dataData flowReúso de dadosBase de dadosFrameworksCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOSOtimização de dataflows em frameworks de big data por meio do reúso de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCCTHUMBNAILDissertacao_Gustavo Decarlo Ferreira Secchim.pdf.jpgDissertacao_Gustavo Decarlo Ferreira Secchim.pdf.jpgimage/jpeg3438http://tede-server.lncc.br:8080/tede/bitstream/tede/371/7/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdf.jpgd05fc4674d9baf9a1da3676efc0f0986MD57TEXTDissertacao_Gustavo Decarlo Ferreira Secchim.pdf.txtDissertacao_Gustavo Decarlo Ferreira Secchim.pdf.txttext/plain81183http://tede-server.lncc.br:8080/tede/bitstream/tede/371/6/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdf.txt357fa128d5ad62795b16a7f3e1d2313eMD56ORIGINALDissertacao_Gustavo Decarlo Ferreira Secchim.pdfDissertacao_Gustavo Decarlo Ferreira Secchim.pdfapplication/pdf1831118http://tede-server.lncc.br:8080/tede/bitstream/tede/371/5/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdfafe9846bce3fe61d703a471861a86d23MD55CC-LICENSElicense_urllicense_urltext/plain; charset=utf-849http://tede-server.lncc.br:8080/tede/bitstream/tede/371/2/license_url4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_texttext/html; charset=utf-80http://tede-server.lncc.br:8080/tede/bitstream/tede/371/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-80http://tede-server.lncc.br:8080/tede/bitstream/tede/371/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54LICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://tede-server.lncc.br:8080/tede/bitstream/tede/371/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51tede/3712023-07-12 01:16:25.904oai:tede-server.lncc.br:tede/371Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-07-12T04:16:25Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.por.fl_str_mv Otimização de dataflows em frameworks de big data por meio do reúso de dados
title Otimização de dataflows em frameworks de big data por meio do reúso de dados
spellingShingle Otimização de dataflows em frameworks de big data por meio do reúso de dados
Secchim, Gustavo Decarlo Ferreira
Big data
Data flow
Reúso de dados
Base de dados
Frameworks
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
title_short Otimização de dataflows em frameworks de big data por meio do reúso de dados
title_full Otimização de dataflows em frameworks de big data por meio do reúso de dados
title_fullStr Otimização de dataflows em frameworks de big data por meio do reúso de dados
title_full_unstemmed Otimização de dataflows em frameworks de big data por meio do reúso de dados
title_sort Otimização de dataflows em frameworks de big data por meio do reúso de dados
author Secchim, Gustavo Decarlo Ferreira
author_facet Secchim, Gustavo Decarlo Ferreira
author_role author
dc.contributor.advisor1.fl_str_mv Porto, Fabio André Machado
dc.contributor.advisor2.fl_str_mv Oliveira, Daniel Cardoso Moraes de
dc.contributor.referee1.fl_str_mv Porto, Fábio André Machado
dc.contributor.referee2.fl_str_mv Gadelha Júnior, Luiz Manoel Rocha
dc.contributor.referee3.fl_str_mv Boeres, Maria Cristina Silva
dc.contributor.referee4.fl_str_mv Valduriez, Patrick
dc.contributor.authorLattes.fl_str_mv https://lattes.cnpq.br/5032226881159086
dc.contributor.author.fl_str_mv Secchim, Gustavo Decarlo Ferreira
contributor_str_mv Porto, Fabio André Machado
Oliveira, Daniel Cardoso Moraes de
Porto, Fábio André Machado
Gadelha Júnior, Luiz Manoel Rocha
Boeres, Maria Cristina Silva
Valduriez, Patrick
dc.subject.por.fl_str_mv Big data
Data flow
Reúso de dados
Base de dados
Frameworks
topic Big data
Data flow
Reúso de dados
Base de dados
Frameworks
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
description The use of Big Data frameworks has increased in recent years. These frameworks represent a breakthrough in terms of support for parallel and distributed execution of applications. These applications are often composed of several activities, thus generating a dataflow, which in general processes a large volume of data. As much as the frameworks are optimized to exploit data locality and avoid unnecessary transfers in the distributed environment, such optimizations are focused on isolated executions, i.e. (Do not consider using data from previous runs). This type of data reuse can speed up dataflows, since the data does not need to be processed again if it has already been produced by a previous execution of the same dataflow. This dissertation presents the FORESEE service for sharing data generated in dataflows. We discuss and implement the service using an architecture that allows multiple executions of dataflows to share intermediate results, reducing execution time. We evaluated the approach with real dataflows using open data processing.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-07-11T14:21:28Z
dc.date.issued.fl_str_mv 2023-05-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023.
dc.identifier.uri.fl_str_mv https://tede.lncc.br/handle/tede/371
identifier_str_mv SECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023.
url https://tede.lncc.br/handle/tede/371
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Modelagem Computacional
dc.publisher.initials.fl_str_mv LNCC
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
bitstream.url.fl_str_mv http://tede-server.lncc.br:8080/tede/bitstream/tede/371/7/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdf.jpg
http://tede-server.lncc.br:8080/tede/bitstream/tede/371/6/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdf.txt
http://tede-server.lncc.br:8080/tede/bitstream/tede/371/5/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdf
http://tede-server.lncc.br:8080/tede/bitstream/tede/371/2/license_url
http://tede-server.lncc.br:8080/tede/bitstream/tede/371/3/license_text
http://tede-server.lncc.br:8080/tede/bitstream/tede/371/4/license_rdf
http://tede-server.lncc.br:8080/tede/bitstream/tede/371/1/license.txt
bitstream.checksum.fl_str_mv d05fc4674d9baf9a1da3676efc0f0986
357fa128d5ad62795b16a7f3e1d2313e
afe9846bce3fe61d703a471861a86d23
4afdbb8c545fd630ea7db775da747b2f
d41d8cd98f00b204e9800998ecf8427e
d41d8cd98f00b204e9800998ecf8427e
bd3efa91386c1718a7f26a329fdcb468
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1797683220192428032