Um modelo de suporte para conformidade de data lake com a LGPD
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/49411 |
Resumo: | Na era do Big Data, um grande volume de dados estruturados, semi-estruturados, e principalmente não estruturados é gerado muito mais rápido por tecnologias digitais e sistemas de informação. Neste contexto, Data Lakes surgiram como uma alternativa aos tradicionais Data Warehouses, tornando-se uma das soluções de Big Data mais utilizadas para análise e gerenciamento distribuído de grande volumes de dados. A ideia principal do Data Lake é ingerir dados brutos e processá-los durante seu uso, caracterizando a abordagem schema on-read. Durante seu ciclo de vida em um Data Lake, um dado pode passar por inúmeras transformações, levando a questões de rastreabilidade. Com a Lei Geral de Proteção de Dados Pessoais - LGPD em vigor, as organizações precisam ter ao seu dispor, além das mudanças ocorridas nos dados, informações sobre quem modificou, onde modificou e as dependências geradas. Visando atender esse problema, alguns modelos de metadados foram propostos na literatura. No entanto, nenhum deles foca em apresentar metadados que descrevam o ciclo de vida dos dados. Sendo assim, essa dissertação propõe um Modelo de Suporte para Conformidade de Data Lake com a LGPD (Data Lake Compliance Model - DLCM), que tem como objetivo descrever os conjuntos de dados no Data Lake e os tratamentos aplicados sobre eles. Para isso, o DLCM subdivide-se em duas partes: A primeira reúne todos os elementos de metadados necessários para atendimento de uma solicitação de acesso aos dados, enquanto que a segunda parte, é composta pelo agrupamento desses metadados por categorias, onde cada categoria possui um modelo associado. Os resultados obtidos a partir da avaliação do DLCM mostraram a relevância da solução proposta no contexto de Data Lakes. |
id |
UFPE_21633a0316a4a980f35848b30dbf089a |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/49411 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
MACIEL, Vitória Maria da Silvahttp://lattes.cnpq.br/3550115034365337http://lattes.cnpq.br/2512064355660153http://lattes.cnpq.br/2328386382232459LÓSCIO, Bernadette FariasOLIVEIRA, Marcelo Iury de Sousa2023-03-21T16:27:31Z2023-03-21T16:27:31Z2022-03-10MACIEL, Vitória Maria da Silva. Um modelo de suporte para conformidade de data lake com a LGPD. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022.https://repositorio.ufpe.br/handle/123456789/49411Na era do Big Data, um grande volume de dados estruturados, semi-estruturados, e principalmente não estruturados é gerado muito mais rápido por tecnologias digitais e sistemas de informação. Neste contexto, Data Lakes surgiram como uma alternativa aos tradicionais Data Warehouses, tornando-se uma das soluções de Big Data mais utilizadas para análise e gerenciamento distribuído de grande volumes de dados. A ideia principal do Data Lake é ingerir dados brutos e processá-los durante seu uso, caracterizando a abordagem schema on-read. Durante seu ciclo de vida em um Data Lake, um dado pode passar por inúmeras transformações, levando a questões de rastreabilidade. Com a Lei Geral de Proteção de Dados Pessoais - LGPD em vigor, as organizações precisam ter ao seu dispor, além das mudanças ocorridas nos dados, informações sobre quem modificou, onde modificou e as dependências geradas. Visando atender esse problema, alguns modelos de metadados foram propostos na literatura. No entanto, nenhum deles foca em apresentar metadados que descrevam o ciclo de vida dos dados. Sendo assim, essa dissertação propõe um Modelo de Suporte para Conformidade de Data Lake com a LGPD (Data Lake Compliance Model - DLCM), que tem como objetivo descrever os conjuntos de dados no Data Lake e os tratamentos aplicados sobre eles. Para isso, o DLCM subdivide-se em duas partes: A primeira reúne todos os elementos de metadados necessários para atendimento de uma solicitação de acesso aos dados, enquanto que a segunda parte, é composta pelo agrupamento desses metadados por categorias, onde cada categoria possui um modelo associado. Os resultados obtidos a partir da avaliação do DLCM mostraram a relevância da solução proposta no contexto de Data Lakes.CNPqIn the age of Big Data, a large volume of structured, semi-structured, and mostly unstructured data is generated much faster by digital technologies and information systems. In this context, Data Lakes emerged as an alternative to traditional Data Warehouses, becoming one of the most used Big Data solutions for distributed analysis and management of large volumes of data. The main idea of Data Lake is to ingest raw data and process it during its use, characterizing the schema on-read approach. During its life cycle in a Data Lake, data can undergo numerous transformations, leading to traceability issues. With the General Personal Data Protection Law - LGPD in place, organizations need to have at their disposal, in addition to the changes that have occurred, information about who modified the data, where they modified it and the dependencies generated. In order to address this problem, some metadata models have been proposed in the literature. However, none of them focus on presenting metadata that describes the data life cycle. Therefore, this dissertation proposes a Support Model for Data Lake Compliance with the LGPD (Data Lake Compliance Model - DLCM), which aims to describe the datasets in the Data Lake and the treatments applied to them. For this, the DLCM is subdivided into two parts: The first part gathers all the metadata elements necessary to fulfill a data access request, while the second part is composed by the grouping of these metadata by categories, where each category has an associated model. The results obtained from the DLCM evaluation showed the relevance of the proposed solution in the context of Data Lakes.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessBanco de dadosRastreabilidadeMetadadosUm modelo de suporte para conformidade de data lake com a LGPDinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPECC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/49411/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52ORIGINALDISSERTAÇÃO Vitória Maria da Silva Maciel.pdfDISSERTAÇÃO Vitória Maria da Silva Maciel.pdfapplication/pdf3140351https://repositorio.ufpe.br/bitstream/123456789/49411/1/DISSERTA%c3%87%c3%83O%20Vit%c3%b3ria%20Maria%20da%20Silva%20Maciel.pdfba3b8797d88eca894a3bd626bb99b7eeMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82362https://repositorio.ufpe.br/bitstream/123456789/49411/3/license.txt5e89a1613ddc8510c6576f4b23a78973MD53TEXTDISSERTAÇÃO Vitória Maria da Silva Maciel.pdf.txtDISSERTAÇÃO Vitória Maria da Silva Maciel.pdf.txtExtracted texttext/plain156092https://repositorio.ufpe.br/bitstream/123456789/49411/4/DISSERTA%c3%87%c3%83O%20Vit%c3%b3ria%20Maria%20da%20Silva%20Maciel.pdf.txt70aa83705d01cd0a2cfa4d48baf157c8MD54THUMBNAILDISSERTAÇÃO Vitória Maria da Silva Maciel.pdf.jpgDISSERTAÇÃO Vitória Maria da Silva Maciel.pdf.jpgGenerated Thumbnailimage/jpeg1207https://repositorio.ufpe.br/bitstream/123456789/49411/5/DISSERTA%c3%87%c3%83O%20Vit%c3%b3ria%20Maria%20da%20Silva%20Maciel.pdf.jpg8f046eaeeba8accc735369444f365825MD55123456789/494112023-03-22 02:16:19.101oai:repositorio.ufpe.br:123456789/49411VGVybW8gZGUgRGVww7NzaXRvIExlZ2FsIGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2l6YcOnw6NvIGRlIERvY3VtZW50b3Mgbm8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRQoKCkRlY2xhcm8gZXN0YXIgY2llbnRlIGRlIHF1ZSBlc3RlIFRlcm1vIGRlIERlcMOzc2l0byBMZWdhbCBlIEF1dG9yaXphw6fDo28gdGVtIG8gb2JqZXRpdm8gZGUgZGl2dWxnYcOnw6NvIGRvcyBkb2N1bWVudG9zIGRlcG9zaXRhZG9zIG5vIFJlcG9zaXTDs3JpbyBEaWdpdGFsIGRhIFVGUEUgZSBkZWNsYXJvIHF1ZToKCkkgLSBvcyBkYWRvcyBwcmVlbmNoaWRvcyBubyBmb3JtdWzDoXJpbyBkZSBkZXDDs3NpdG8gc8OjbyB2ZXJkYWRlaXJvcyBlIGF1dMOqbnRpY29zOwoKSUkgLSAgbyBjb250ZcO6ZG8gZGlzcG9uaWJpbGl6YWRvIMOpIGRlIHJlc3BvbnNhYmlsaWRhZGUgZGUgc3VhIGF1dG9yaWE7CgpJSUkgLSBvIGNvbnRlw7pkbyDDqSBvcmlnaW5hbCwgZSBzZSBvIHRyYWJhbGhvIGUvb3UgcGFsYXZyYXMgZGUgb3V0cmFzIHBlc3NvYXMgZm9yYW0gdXRpbGl6YWRvcywgZXN0YXMgZm9yYW0gZGV2aWRhbWVudGUgcmVjb25oZWNpZGFzOwoKSVYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIG9icmEgY29sZXRpdmEgKG1haXMgZGUgdW0gYXV0b3IpOiB0b2RvcyBvcyBhdXRvcmVzIGVzdMOjbyBjaWVudGVzIGRvIGRlcMOzc2l0byBlIGRlIGFjb3JkbyBjb20gZXN0ZSB0ZXJtbzsKClYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIFRyYWJhbGhvIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28sIERpc3NlcnRhw6fDo28gb3UgVGVzZTogbyBhcnF1aXZvIGRlcG9zaXRhZG8gY29ycmVzcG9uZGUgw6AgdmVyc8OjbyBmaW5hbCBkbyB0cmFiYWxobzsKClZJIC0gcXVhbmRvIHRyYXRhci1zZSBkZSBUcmFiYWxobyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvLCBEaXNzZXJ0YcOnw6NvIG91IFRlc2U6IGVzdG91IGNpZW50ZSBkZSBxdWUgYSBhbHRlcmHDp8OjbyBkYSBtb2RhbGlkYWRlIGRlIGFjZXNzbyBhbyBkb2N1bWVudG8gYXDDs3MgbyBkZXDDs3NpdG8gZSBhbnRlcyBkZSBmaW5kYXIgbyBwZXLDrW9kbyBkZSBlbWJhcmdvLCBxdWFuZG8gZm9yIGVzY29saGlkbyBhY2Vzc28gcmVzdHJpdG8sIHNlcsOhIHBlcm1pdGlkYSBtZWRpYW50ZSBzb2xpY2l0YcOnw6NvIGRvIChhKSBhdXRvciAoYSkgYW8gU2lzdGVtYSBJbnRlZ3JhZG8gZGUgQmlibGlvdGVjYXMgZGEgVUZQRSAoU0lCL1VGUEUpLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gQWJlcnRvOgoKTmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRlIGF1dG9yIHF1ZSByZWNhZW0gc29icmUgZXN0ZSBkb2N1bWVudG8sIGZ1bmRhbWVudGFkbyBuYSBMZWkgZGUgRGlyZWl0byBBdXRvcmFsIG5vIDkuNjEwLCBkZSAxOSBkZSBmZXZlcmVpcm8gZGUgMTk5OCwgYXJ0LiAyOSwgaW5jaXNvIElJSSwgYXV0b3Jpem8gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIGEgZGlzcG9uaWJpbGl6YXIgZ3JhdHVpdGFtZW50ZSwgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkIChhcXVpc2nDp8OjbykgYXRyYXbDqXMgZG8gc2l0ZSBkbyBSZXBvc2l0w7NyaW8gRGlnaXRhbCBkYSBVRlBFIG5vIGVuZGVyZcOnbyBodHRwOi8vd3d3LnJlcG9zaXRvcmlvLnVmcGUuYnIsIGEgcGFydGlyIGRhIGRhdGEgZGUgZGVww7NzaXRvLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gUmVzdHJpdG86CgpOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGUgYXV0b3IgcXVlIHJlY2FlbSBzb2JyZSBlc3RlIGRvY3VtZW50bywgZnVuZGFtZW50YWRvIG5hIExlaSBkZSBEaXJlaXRvIEF1dG9yYWwgbm8gOS42MTAgZGUgMTkgZGUgZmV2ZXJlaXJvIGRlIDE5OTgsIGFydC4gMjksIGluY2lzbyBJSUksIGF1dG9yaXpvIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgUGVybmFtYnVjbyBhIGRpc3BvbmliaWxpemFyIGdyYXR1aXRhbWVudGUsIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCAoYXF1aXNpw6fDo28pIGF0cmF2w6lzIGRvIHNpdGUgZG8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRSBubyBlbmRlcmXDp28gaHR0cDovL3d3dy5yZXBvc2l0b3Jpby51ZnBlLmJyLCBxdWFuZG8gZmluZGFyIG8gcGVyw61vZG8gZGUgZW1iYXJnbyBjb25kaXplbnRlIGFvIHRpcG8gZGUgZG9jdW1lbnRvLCBjb25mb3JtZSBpbmRpY2FkbyBubyBjYW1wbyBEYXRhIGRlIEVtYmFyZ28uCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212023-03-22T05:16:19Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
Um modelo de suporte para conformidade de data lake com a LGPD |
title |
Um modelo de suporte para conformidade de data lake com a LGPD |
spellingShingle |
Um modelo de suporte para conformidade de data lake com a LGPD MACIEL, Vitória Maria da Silva Banco de dados Rastreabilidade Metadados |
title_short |
Um modelo de suporte para conformidade de data lake com a LGPD |
title_full |
Um modelo de suporte para conformidade de data lake com a LGPD |
title_fullStr |
Um modelo de suporte para conformidade de data lake com a LGPD |
title_full_unstemmed |
Um modelo de suporte para conformidade de data lake com a LGPD |
title_sort |
Um modelo de suporte para conformidade de data lake com a LGPD |
author |
MACIEL, Vitória Maria da Silva |
author_facet |
MACIEL, Vitória Maria da Silva |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/3550115034365337 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/2512064355660153 |
dc.contributor.advisor-coLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/2328386382232459 |
dc.contributor.author.fl_str_mv |
MACIEL, Vitória Maria da Silva |
dc.contributor.advisor1.fl_str_mv |
LÓSCIO, Bernadette Farias |
dc.contributor.advisor-co1.fl_str_mv |
OLIVEIRA, Marcelo Iury de Sousa |
contributor_str_mv |
LÓSCIO, Bernadette Farias OLIVEIRA, Marcelo Iury de Sousa |
dc.subject.por.fl_str_mv |
Banco de dados Rastreabilidade Metadados |
topic |
Banco de dados Rastreabilidade Metadados |
description |
Na era do Big Data, um grande volume de dados estruturados, semi-estruturados, e principalmente não estruturados é gerado muito mais rápido por tecnologias digitais e sistemas de informação. Neste contexto, Data Lakes surgiram como uma alternativa aos tradicionais Data Warehouses, tornando-se uma das soluções de Big Data mais utilizadas para análise e gerenciamento distribuído de grande volumes de dados. A ideia principal do Data Lake é ingerir dados brutos e processá-los durante seu uso, caracterizando a abordagem schema on-read. Durante seu ciclo de vida em um Data Lake, um dado pode passar por inúmeras transformações, levando a questões de rastreabilidade. Com a Lei Geral de Proteção de Dados Pessoais - LGPD em vigor, as organizações precisam ter ao seu dispor, além das mudanças ocorridas nos dados, informações sobre quem modificou, onde modificou e as dependências geradas. Visando atender esse problema, alguns modelos de metadados foram propostos na literatura. No entanto, nenhum deles foca em apresentar metadados que descrevam o ciclo de vida dos dados. Sendo assim, essa dissertação propõe um Modelo de Suporte para Conformidade de Data Lake com a LGPD (Data Lake Compliance Model - DLCM), que tem como objetivo descrever os conjuntos de dados no Data Lake e os tratamentos aplicados sobre eles. Para isso, o DLCM subdivide-se em duas partes: A primeira reúne todos os elementos de metadados necessários para atendimento de uma solicitação de acesso aos dados, enquanto que a segunda parte, é composta pelo agrupamento desses metadados por categorias, onde cada categoria possui um modelo associado. Os resultados obtidos a partir da avaliação do DLCM mostraram a relevância da solução proposta no contexto de Data Lakes. |
publishDate |
2022 |
dc.date.issued.fl_str_mv |
2022-03-10 |
dc.date.accessioned.fl_str_mv |
2023-03-21T16:27:31Z |
dc.date.available.fl_str_mv |
2023-03-21T16:27:31Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MACIEL, Vitória Maria da Silva. Um modelo de suporte para conformidade de data lake com a LGPD. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/49411 |
identifier_str_mv |
MACIEL, Vitória Maria da Silva. Um modelo de suporte para conformidade de data lake com a LGPD. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022. |
url |
https://repositorio.ufpe.br/handle/123456789/49411 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pos Graduacao em Ciencia da Computacao |
dc.publisher.initials.fl_str_mv |
UFPE |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/49411/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/49411/1/DISSERTA%c3%87%c3%83O%20Vit%c3%b3ria%20Maria%20da%20Silva%20Maciel.pdf https://repositorio.ufpe.br/bitstream/123456789/49411/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/49411/4/DISSERTA%c3%87%c3%83O%20Vit%c3%b3ria%20Maria%20da%20Silva%20Maciel.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/49411/5/DISSERTA%c3%87%c3%83O%20Vit%c3%b3ria%20Maria%20da%20Silva%20Maciel.pdf.jpg |
bitstream.checksum.fl_str_mv |
e39d27027a6cc9cb039ad269a5db8e34 ba3b8797d88eca894a3bd626bb99b7ee 5e89a1613ddc8510c6576f4b23a78973 70aa83705d01cd0a2cfa4d48baf157c8 8f046eaeeba8accc735369444f365825 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1802310903349116928 |