Otimização de dataflows em frameworks de big data por meio do reúso de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do LNCC |
Texto Completo: | https://tede.lncc.br/handle/tede/371 |
Resumo: | The use of Big Data frameworks has increased in recent years. These frameworks represent a breakthrough in terms of support for parallel and distributed execution of applications. These applications are often composed of several activities, thus generating a dataflow, which in general processes a large volume of data. As much as the frameworks are optimized to exploit data locality and avoid unnecessary transfers in the distributed environment, such optimizations are focused on isolated executions, i.e. (Do not consider using data from previous runs). This type of data reuse can speed up dataflows, since the data does not need to be processed again if it has already been produced by a previous execution of the same dataflow. This dissertation presents the FORESEE service for sharing data generated in dataflows. We discuss and implement the service using an architecture that allows multiple executions of dataflows to share intermediate results, reducing execution time. We evaluated the approach with real dataflows using open data processing. |
id |
LNCC_92b586c029b08905db4f6a01b1e08b32 |
---|---|
oai_identifier_str |
oai:tede-server.lncc.br:tede/371 |
network_acronym_str |
LNCC |
network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository_id_str |
|
spelling |
Porto, Fabio André MachadoOliveira, Daniel Cardoso Moraes dePorto, Fábio André MachadoGadelha Júnior, Luiz Manoel RochaBoeres, Maria Cristina SilvaValduriez, Patrickhttps://lattes.cnpq.br/5032226881159086Secchim, Gustavo Decarlo Ferreira2023-07-11T14:21:28Z2023-05-22SECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023.https://tede.lncc.br/handle/tede/371The use of Big Data frameworks has increased in recent years. These frameworks represent a breakthrough in terms of support for parallel and distributed execution of applications. These applications are often composed of several activities, thus generating a dataflow, which in general processes a large volume of data. As much as the frameworks are optimized to exploit data locality and avoid unnecessary transfers in the distributed environment, such optimizations are focused on isolated executions, i.e. (Do not consider using data from previous runs). This type of data reuse can speed up dataflows, since the data does not need to be processed again if it has already been produced by a previous execution of the same dataflow. This dissertation presents the FORESEE service for sharing data generated in dataflows. We discuss and implement the service using an architecture that allows multiple executions of dataflows to share intermediate results, reducing execution time. We evaluated the approach with real dataflows using open data processing.O uso de arcabouços de Big Data tem aumentado nos últimos anos. Esses arcabouços representam um avanço no que tange o apoio à execução paralela e distribuída de aplicações. Essas aplicações são frequentemente compostas de diversas atividades, gerando assim um dataflow, que em geral processa um grande volume de dados. Por mais que os arcabouços sejam otimizados para explorar localidade dos dados e evitar transferências desnecessárias no ambiente distribuído, tais otimizações são focadas em execuções isoladas, i.e. (não consideram aproveitar dados de execuções anteriores). Esse tipo de reúso de dados pode acelerar dataflows, uma vez que o dado não precisa ser processado novamente caso já tenha sido produzido por uma execução anterior do mesmo dataflow. Esta dissertação apresenta o serviço FORESEE para o compartilhamento de dados gerados nos dataflows. Discutimos e implementamos o serviço utilizando uma arquitetura que permite que múltiplas execuções de dataflows possam compartilhar resultados intermediários, reduzindo tempo de execução. Avaliamos a abordagem com dataflows reais de processamento utilizando dados abertos.Submitted by Patrícia Vieira Silva (library@lncc.br) on 2023-07-11T14:20:55Z No. of bitstreams: 2 Dissertacao_Gustavo Decarlo Ferreira Secchim.pdf: 1831118 bytes, checksum: afe9846bce3fe61d703a471861a86d23 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)Approved for entry into archive by Patrícia Vieira Silva (library@lncc.br) on 2023-07-11T14:21:16Z (GMT) No. of bitstreams: 2 Dissertacao_Gustavo Decarlo Ferreira Secchim.pdf: 1831118 bytes, checksum: afe9846bce3fe61d703a471861a86d23 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)Made available in DSpace on 2023-07-11T14:21:28Z (GMT). No. of bitstreams: 2 Dissertacao_Gustavo Decarlo Ferreira Secchim.pdf: 1831118 bytes, checksum: afe9846bce3fe61d703a471861a86d23 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2023-05-22application/pdfhttp://tede-server.lncc.br:8080/retrieve/1612/Dissertacao_Gustavo%20Decarlo%20Ferreira%20Secchim.pdf.jpgporLaboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem ComputacionalLNCCBrasilCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessBig dataData flowReúso de dadosBase de dadosFrameworksCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOSOtimização de dataflows em frameworks de big data por meio do reúso de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCCTHUMBNAILDissertacao_Gustavo Decarlo Ferreira Secchim.pdf.jpgDissertacao_Gustavo Decarlo Ferreira Secchim.pdf.jpgimage/jpeg3438http://tede-server.lncc.br:8080/tede/bitstream/tede/371/7/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdf.jpgd05fc4674d9baf9a1da3676efc0f0986MD57TEXTDissertacao_Gustavo Decarlo Ferreira Secchim.pdf.txtDissertacao_Gustavo Decarlo Ferreira Secchim.pdf.txttext/plain81183http://tede-server.lncc.br:8080/tede/bitstream/tede/371/6/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdf.txt357fa128d5ad62795b16a7f3e1d2313eMD56ORIGINALDissertacao_Gustavo Decarlo Ferreira Secchim.pdfDissertacao_Gustavo Decarlo Ferreira Secchim.pdfapplication/pdf1831118http://tede-server.lncc.br:8080/tede/bitstream/tede/371/5/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdfafe9846bce3fe61d703a471861a86d23MD55CC-LICENSElicense_urllicense_urltext/plain; charset=utf-849http://tede-server.lncc.br:8080/tede/bitstream/tede/371/2/license_url4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_texttext/html; charset=utf-80http://tede-server.lncc.br:8080/tede/bitstream/tede/371/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-80http://tede-server.lncc.br:8080/tede/bitstream/tede/371/4/license_rdfd41d8cd98f00b204e9800998ecf8427eMD54LICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://tede-server.lncc.br:8080/tede/bitstream/tede/371/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51tede/3712023-07-12 01:16:25.904oai:tede-server.lncc.br:tede/371Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-07-12T04:16:25Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
dc.title.por.fl_str_mv |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
title |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
spellingShingle |
Otimização de dataflows em frameworks de big data por meio do reúso de dados Secchim, Gustavo Decarlo Ferreira Big data Data flow Reúso de dados Base de dados Frameworks CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS |
title_short |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
title_full |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
title_fullStr |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
title_full_unstemmed |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
title_sort |
Otimização de dataflows em frameworks de big data por meio do reúso de dados |
author |
Secchim, Gustavo Decarlo Ferreira |
author_facet |
Secchim, Gustavo Decarlo Ferreira |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Porto, Fabio André Machado |
dc.contributor.advisor2.fl_str_mv |
Oliveira, Daniel Cardoso Moraes de |
dc.contributor.referee1.fl_str_mv |
Porto, Fábio André Machado |
dc.contributor.referee2.fl_str_mv |
Gadelha Júnior, Luiz Manoel Rocha |
dc.contributor.referee3.fl_str_mv |
Boeres, Maria Cristina Silva |
dc.contributor.referee4.fl_str_mv |
Valduriez, Patrick |
dc.contributor.authorLattes.fl_str_mv |
https://lattes.cnpq.br/5032226881159086 |
dc.contributor.author.fl_str_mv |
Secchim, Gustavo Decarlo Ferreira |
contributor_str_mv |
Porto, Fabio André Machado Oliveira, Daniel Cardoso Moraes de Porto, Fábio André Machado Gadelha Júnior, Luiz Manoel Rocha Boeres, Maria Cristina Silva Valduriez, Patrick |
dc.subject.por.fl_str_mv |
Big data Data flow Reúso de dados Base de dados Frameworks |
topic |
Big data Data flow Reúso de dados Base de dados Frameworks CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS |
description |
The use of Big Data frameworks has increased in recent years. These frameworks represent a breakthrough in terms of support for parallel and distributed execution of applications. These applications are often composed of several activities, thus generating a dataflow, which in general processes a large volume of data. As much as the frameworks are optimized to exploit data locality and avoid unnecessary transfers in the distributed environment, such optimizations are focused on isolated executions, i.e. (Do not consider using data from previous runs). This type of data reuse can speed up dataflows, since the data does not need to be processed again if it has already been produced by a previous execution of the same dataflow. This dissertation presents the FORESEE service for sharing data generated in dataflows. We discuss and implement the service using an architecture that allows multiple executions of dataflows to share intermediate results, reducing execution time. We evaluated the approach with real dataflows using open data processing. |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-07-11T14:21:28Z |
dc.date.issued.fl_str_mv |
2023-05-22 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023. |
dc.identifier.uri.fl_str_mv |
https://tede.lncc.br/handle/tede/371 |
identifier_str_mv |
SECCHIM, G. D. F. Otimização de dataflows em frameworks de big data por meio do reúso de dados. 2023. 52 f. Dissertação (Mestrado em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2023. |
url |
https://tede.lncc.br/handle/tede/371 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Modelagem Computacional |
dc.publisher.initials.fl_str_mv |
LNCC |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) |
publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
instacron_str |
LNCC |
institution |
LNCC |
reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
bitstream.url.fl_str_mv |
http://tede-server.lncc.br:8080/tede/bitstream/tede/371/7/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdf.jpg http://tede-server.lncc.br:8080/tede/bitstream/tede/371/6/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdf.txt http://tede-server.lncc.br:8080/tede/bitstream/tede/371/5/Dissertacao_Gustavo+Decarlo+Ferreira+Secchim.pdf http://tede-server.lncc.br:8080/tede/bitstream/tede/371/2/license_url http://tede-server.lncc.br:8080/tede/bitstream/tede/371/3/license_text http://tede-server.lncc.br:8080/tede/bitstream/tede/371/4/license_rdf http://tede-server.lncc.br:8080/tede/bitstream/tede/371/1/license.txt |
bitstream.checksum.fl_str_mv |
d05fc4674d9baf9a1da3676efc0f0986 357fa128d5ad62795b16a7f3e1d2313e afe9846bce3fe61d703a471861a86d23 4afdbb8c545fd630ea7db775da747b2f d41d8cd98f00b204e9800998ecf8427e d41d8cd98f00b204e9800998ecf8427e bd3efa91386c1718a7f26a329fdcb468 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
_version_ |
1797683220192428032 |