Deduplicação de dados não-estruturados de processos streaming em tempo real

Detalhes bibliográficos
Autor(a) principal: Esteves, João Victor Azevedo
Data de Publicação: 2021
Outros Autores: jvaesteves@gmail.com
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UERJ
Texto Completo: http://www.bdtd.uerj.br/handle/1/20124
Resumo: Data duplication is a widespread problem in data streams processing applications that can occur due to software errors or the adoption of data loss prevention measures, this problem is usually treated after ingesting the data into a repository, either by an auxiliary process or by the analyzes themselves about the data disregarding duplicates. However, with the need for analyzes made as close to the moment of data creation and in the shortest possible time, both approaches become insufficient to meet both requirements, making it necessary for deduplication to occur during ingestion. This work explores methods that can be used with the Apache Spark library to deal with data deduplication in real time, analyzing the use of resources and the delivery time of each method and identifying their use cases. This work investigates Apache Spark native deduplication operators (distinct and drop Duplicates) and auxiliary tools (RocksDB, Apache Ignite and Apache Hudi) that provide data deduplication and fault tolerance mechanisms to the application. The experimental results show that there is an increase in the data delivery time when using external mechanisms, but that these mechanisms become essential for an ingestion process to ensure that there is no loss of data used during deduplication, ensuring that no duplicates are persisted. In addition, other factors influence the choice of the best deduplication method, such as the use of computational resources and the size of the persisted data
id UERJ_137fc977966fbaa906e0b0de66896a3f
oai_identifier_str oai:www.bdtd.uerj.br:1/20124
network_acronym_str UERJ
network_name_str Biblioteca Digital de Teses e Dissertações da UERJ
repository_id_str 2903
spelling Costa, Rosa Maria Esteves Moreira daAlmeida, Ana Carolina Brito deLifschitz, SergioSztajnberg, AlexandreBaião, Fernanda Araujohttp://lattes.cnpq.br/4732611197679025Esteves, João Victor Azevedojvaesteves@gmail.com2023-08-10T13:01:05Z2021-06-11ESTEVES, João Victor Azevedo. Deduplicação de dados não-estruturados de processos streaming em tempo real. 2021. 86 f. Dissertação (Mestrado em Ciências Computacionais) Instituto de Matemática e Estatística, Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2021.http://www.bdtd.uerj.br/handle/1/20124Data duplication is a widespread problem in data streams processing applications that can occur due to software errors or the adoption of data loss prevention measures, this problem is usually treated after ingesting the data into a repository, either by an auxiliary process or by the analyzes themselves about the data disregarding duplicates. However, with the need for analyzes made as close to the moment of data creation and in the shortest possible time, both approaches become insufficient to meet both requirements, making it necessary for deduplication to occur during ingestion. This work explores methods that can be used with the Apache Spark library to deal with data deduplication in real time, analyzing the use of resources and the delivery time of each method and identifying their use cases. This work investigates Apache Spark native deduplication operators (distinct and drop Duplicates) and auxiliary tools (RocksDB, Apache Ignite and Apache Hudi) that provide data deduplication and fault tolerance mechanisms to the application. The experimental results show that there is an increase in the data delivery time when using external mechanisms, but that these mechanisms become essential for an ingestion process to ensure that there is no loss of data used during deduplication, ensuring that no duplicates are persisted. In addition, other factors influence the choice of the best deduplication method, such as the use of computational resources and the size of the persisted dataA duplicação de dados é um problema comum em aplicações de processamento contínuo de dados, que pode ocorrer devido aos erros de software ou à adoção de medidas de prevenção de perda de dados, esse problema é usualmente tratado após a ingestão dos dados de um repositório, seja por um processo auxiliar ou pelas próprias análises sobre os dados desconsiderarem duplicatas. Entretanto, com a necessidade de análises feitas o mais próximo do momento da criação de um dado e no menor tempo possível, ambas abordagens se tornam insuficientes para atender a ambos os requisitos, sendo necessário que a deduplicação ocorra em tempo de ingestão. Este trabalho explora métodos podem ser utilizados com a biblioteca Apache Spark para tratar a deduplicação de dados em tempo real, analisando o uso de recursos e o tempo de entrega de cada método e identificando seus casos de usos. E investiga operadores de deduplicação nativos do Apache Spark (distinct e dropDuplicates) e ferramentas auxiliares (RocksDB, Apache Ignite e Apache Hudi), que fornecem mecanismos de deduplicação de dados e tolerância a falhas a aplicação. Os resultados experimentais mostram que há um aumento no tempo de entrega dos dados ao utilizar mecanismos externos, mas que estes mecanismos se tornam primordiais para que um processo de ingestão garanta que não haja a perda dos dados utilizados durante a deduplicação, garantindo que nenhuma duplicata seja persistida. Além disso, outros fatores influenciam a escolha do melhor método de deduplicação, como o uso de recursos computacionais e o tamanho dos dados persistidosSubmitted by Bárbara CTC/A (babalusotnas@gmail.com) on 2023-08-10T13:01:05Z No. of bitstreams: 1 Dissertação - João Victor Azevedo Esteves - 2021 - Completa.pdf.pdf: 1679447 bytes, checksum: 558e1aba2f9ebbd1ed74aaec517a30d5 (MD5)Made available in DSpace on 2023-08-10T13:01:05Z (GMT). No. of bitstreams: 1 Dissertação - João Victor Azevedo Esteves - 2021 - Completa.pdf.pdf: 1679447 bytes, checksum: 558e1aba2f9ebbd1ed74aaec517a30d5 (MD5) Previous issue date: 2021-06-11application/pdfporUniversidade do Estado do Rio de JaneiroPrograma de Pós-Graduação em Ciências ComputacionaisUERJBrasilCentro de Tecnologia e Ciências::Instituto de Matemática e EstatísticaData deduplicationStreaming data processingFault toleranceProcessamento de dadosProcessamento de arquivo (Computação)Mineração de dados (Computação)Deduplicação de dadosProcessamento de dados em streamingTolerância a falhasCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAODeduplicação de dados não-estruturados de processos streaming em tempo realUnstructured data deduplication in real-time streaming processesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UERJinstname:Universidade do Estado do Rio de Janeiro (UERJ)instacron:UERJORIGINALDissertação - João Victor Azevedo Esteves - 2021 - Completa.pdfDissertação - João Victor Azevedo Esteves - 2021 - Completa.pdfapplication/pdf1679447http://www.bdtd.uerj.br/bitstream/1/20124/2/Disserta%C3%A7%C3%A3o+-+Jo%C3%A3o+Victor+Azevedo+Esteves+-+2021+-+Completa.pdf558e1aba2f9ebbd1ed74aaec517a30d5MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82123http://www.bdtd.uerj.br/bitstream/1/20124/1/license.txte5502652da718045d7fcd832b79fca29MD511/201242024-02-27 14:34:50.281oai:www.bdtd.uerj.br:1/20124Tk9UQTogTElDRU7Dh0EgUkVERSBTSVJJVVMKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxJQ0VOw4dBIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIFVuaXZlcnNpZGFkZSAKZG8gRXN0YWRvIGRvIFJpbyBkZSBKYW5laXJvIChVRVJKKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFVFUkogcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFVFUkogcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGEgc3VhIHRlc2Ugb3UgCmRpc3NlcnRhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIApuZXN0YSBsaWNlbsOnYS4gVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0byBkYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG7Do28sIHF1ZSBzZWphIGRlIHNldSAKY29uaGVjaW1lbnRvLCBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyBkZSBuaW5ndcOpbS4KCkNhc28gYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIGNvbnRlbmhhIG1hdGVyaWFsIHF1ZSB2b2PDqiBuw6NvIHBvc3N1aSBhIHRpdHVsYXJpZGFkZSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMsIHZvY8OqIApkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgw6AgVUVSSiBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgCmlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91IG5vIGNvbnRlw7pkbyBkYSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gb3JhIGRlcG9zaXRhZGEuCgpDQVNPIEEgVEVTRSBPVSBESVNTRVJUQcOHw4NPIE9SQSBERVBPU0lUQURBIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ8ONTklPIE9VIApBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyBPUkdBTklTTU8gUVVFIE7Dg08gU0VKQSBFU1RBClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBVbml2ZXJzaWRhZGUgZG8gRXN0YWRvIGRvIFJpbyBkZSBKYW5laXJvIChVRVJKKSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://www.bdtd.uerj.br/PUBhttps://www.bdtd.uerj.br:8443/oai/requestbdtd.suporte@uerj.bropendoar:29032024-02-27T17:34:50Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)false
dc.title.por.fl_str_mv Deduplicação de dados não-estruturados de processos streaming em tempo real
dc.title.alternative.eng.fl_str_mv Unstructured data deduplication in real-time streaming processes
title Deduplicação de dados não-estruturados de processos streaming em tempo real
spellingShingle Deduplicação de dados não-estruturados de processos streaming em tempo real
Esteves, João Victor Azevedo
Data deduplication
Streaming data processing
Fault tolerance
Processamento de dados
Processamento de arquivo (Computação)
Mineração de dados (Computação)
Deduplicação de dados
Processamento de dados em streaming
Tolerância a falhas
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
title_short Deduplicação de dados não-estruturados de processos streaming em tempo real
title_full Deduplicação de dados não-estruturados de processos streaming em tempo real
title_fullStr Deduplicação de dados não-estruturados de processos streaming em tempo real
title_full_unstemmed Deduplicação de dados não-estruturados de processos streaming em tempo real
title_sort Deduplicação de dados não-estruturados de processos streaming em tempo real
author Esteves, João Victor Azevedo
author_facet Esteves, João Victor Azevedo
jvaesteves@gmail.com
author_role author
author2 jvaesteves@gmail.com
author2_role author
dc.contributor.advisor1.fl_str_mv Costa, Rosa Maria Esteves Moreira da
dc.contributor.advisor-co1.fl_str_mv Almeida, Ana Carolina Brito de
dc.contributor.referee1.fl_str_mv Lifschitz, Sergio
dc.contributor.referee2.fl_str_mv Sztajnberg, Alexandre
dc.contributor.referee3.fl_str_mv Baião, Fernanda Araujo
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/4732611197679025
dc.contributor.author.fl_str_mv Esteves, João Victor Azevedo
jvaesteves@gmail.com
contributor_str_mv Costa, Rosa Maria Esteves Moreira da
Almeida, Ana Carolina Brito de
Lifschitz, Sergio
Sztajnberg, Alexandre
Baião, Fernanda Araujo
dc.subject.eng.fl_str_mv Data deduplication
Streaming data processing
Fault tolerance
topic Data deduplication
Streaming data processing
Fault tolerance
Processamento de dados
Processamento de arquivo (Computação)
Mineração de dados (Computação)
Deduplicação de dados
Processamento de dados em streaming
Tolerância a falhas
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
dc.subject.por.fl_str_mv Processamento de dados
Processamento de arquivo (Computação)
Mineração de dados (Computação)
Deduplicação de dados
Processamento de dados em streaming
Tolerância a falhas
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
description Data duplication is a widespread problem in data streams processing applications that can occur due to software errors or the adoption of data loss prevention measures, this problem is usually treated after ingesting the data into a repository, either by an auxiliary process or by the analyzes themselves about the data disregarding duplicates. However, with the need for analyzes made as close to the moment of data creation and in the shortest possible time, both approaches become insufficient to meet both requirements, making it necessary for deduplication to occur during ingestion. This work explores methods that can be used with the Apache Spark library to deal with data deduplication in real time, analyzing the use of resources and the delivery time of each method and identifying their use cases. This work investigates Apache Spark native deduplication operators (distinct and drop Duplicates) and auxiliary tools (RocksDB, Apache Ignite and Apache Hudi) that provide data deduplication and fault tolerance mechanisms to the application. The experimental results show that there is an increase in the data delivery time when using external mechanisms, but that these mechanisms become essential for an ingestion process to ensure that there is no loss of data used during deduplication, ensuring that no duplicates are persisted. In addition, other factors influence the choice of the best deduplication method, such as the use of computational resources and the size of the persisted data
publishDate 2021
dc.date.issued.fl_str_mv 2021-06-11
dc.date.accessioned.fl_str_mv 2023-08-10T13:01:05Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ESTEVES, João Victor Azevedo. Deduplicação de dados não-estruturados de processos streaming em tempo real. 2021. 86 f. Dissertação (Mestrado em Ciências Computacionais) Instituto de Matemática e Estatística, Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2021.
dc.identifier.uri.fl_str_mv http://www.bdtd.uerj.br/handle/1/20124
identifier_str_mv ESTEVES, João Victor Azevedo. Deduplicação de dados não-estruturados de processos streaming em tempo real. 2021. 86 f. Dissertação (Mestrado em Ciências Computacionais) Instituto de Matemática e Estatística, Universidade do Estado do Rio de Janeiro, Rio de Janeiro, 2021.
url http://www.bdtd.uerj.br/handle/1/20124
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciências Computacionais
dc.publisher.initials.fl_str_mv UERJ
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Tecnologia e Ciências::Instituto de Matemática e Estatística
publisher.none.fl_str_mv Universidade do Estado do Rio de Janeiro
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UERJ
instname:Universidade do Estado do Rio de Janeiro (UERJ)
instacron:UERJ
instname_str Universidade do Estado do Rio de Janeiro (UERJ)
instacron_str UERJ
institution UERJ
reponame_str Biblioteca Digital de Teses e Dissertações da UERJ
collection Biblioteca Digital de Teses e Dissertações da UERJ
bitstream.url.fl_str_mv http://www.bdtd.uerj.br/bitstream/1/20124/2/Disserta%C3%A7%C3%A3o+-+Jo%C3%A3o+Victor+Azevedo+Esteves+-+2021+-+Completa.pdf
http://www.bdtd.uerj.br/bitstream/1/20124/1/license.txt
bitstream.checksum.fl_str_mv 558e1aba2f9ebbd1ed74aaec517a30d5
e5502652da718045d7fcd832b79fca29
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UERJ - Universidade do Estado do Rio de Janeiro (UERJ)
repository.mail.fl_str_mv bdtd.suporte@uerj.br
_version_ 1811728737258962944