Towards auditable and intelligent privacy-preserving Record linkage.

Detalhes bibliográficos
Autor(a) principal: NÓBREGA, Thiago Pereira da.
Data de Publicação: 2022
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFCG
Texto Completo: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29393
Resumo: A Resolução de Entidade com Garantias de Privacidade (REGP) pretende integrar dados privados/sens ́ıveis de varias fontes de dados mantidas por diferentes partes. A REGP tem por objetivo identificar registros (por exemplo, pessoas ou objetos) que representam a mesma entidade do mundo real em fontes de dados privados mantidas por diferentes custodiantes. Devido a leis e regulamentos recentes (por exemplo, Regulamento Geral de Proteção de Dados), as abordagens PPRL são cada vez mais exigidas em áreas de aplicação do mundo real, como saude, análise de crédito, avaliação de políticas publicas e segurança nacional.Em cenarios prá ticos, o processo PPRL precisa lidar com problemas de eficiência, eficacia (qualidade de ligação) e privacidade. Por exemplo, o processo de PPRL precisa ser executado sobre grandes fontes de dados (por exemplo, um banco de dados contendo informações pessoais de programas governamentais de distribuição de renda e assistência), com uma classificação precisa das entidades e, ao mesmo tempo, proteger a privacidade de a informação. Nesse contexto, este trabalho propõe melhorias no processo PPRL com o intuito de mitigar alguns dos gargalos do REGP. Particularmente, este trabalho apresenta três grandes contribuições para o processo REGP: i) um protocolo que permite a auditabilidade da computação realizada durante o REGP, ii) uma metodologia não supervisionada que aproveita o conhecimento de conjuntos de dados publicos para treinar classificador baseado em Machine Learning para o REGP, e iii) uma nova representação, ̧para os dados PPRL codificados/anonimizados que permitem o uso de novas redes neuro e classificadores de aprendizado profundo no contexto do PPRL. As presentes contribuições aprimoram várias partes do processo PPRL, visando torna-lo mais facilmente utilizado em aplicações do mundo real. Com a contribuição apresentada na tese, esperamos facilitar diversas aplicações ̃ do mundo real (por exemplo, estudos médicos, epidemiol ogicos e populacionais) e reduzir os esforços legais/burocraticos para acessar e processar os dados, tornando a execução dessas aplicações mais simples para empresas e governos.
id UFCG_e3311b0a12b1533c8c381033e0059532
oai_identifier_str oai:localhost:riufcg/29393
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str 4851
spelling Towards auditable and intelligent privacy-preserving Record linkage.Rumo à vinculação de registros auditável e inteligente que preserva a privacidade.Hacia una vinculación de registros auditable e inteligente que preserve la privacidad.Machine LearningPrivacidadeBlockchainSegurança e privacidadeResolução de entidadesIntegração de dadosAprendizado de máquinaPrivacySecurity and privacyEntity resolutionData integrationSeguridad y privacidadResolución de la entidadIntegración de datosPrivacidadTeoria da ComputaçãoA Resolução de Entidade com Garantias de Privacidade (REGP) pretende integrar dados privados/sens ́ıveis de varias fontes de dados mantidas por diferentes partes. A REGP tem por objetivo identificar registros (por exemplo, pessoas ou objetos) que representam a mesma entidade do mundo real em fontes de dados privados mantidas por diferentes custodiantes. Devido a leis e regulamentos recentes (por exemplo, Regulamento Geral de Proteção de Dados), as abordagens PPRL são cada vez mais exigidas em áreas de aplicação do mundo real, como saude, análise de crédito, avaliação de políticas publicas e segurança nacional.Em cenarios prá ticos, o processo PPRL precisa lidar com problemas de eficiência, eficacia (qualidade de ligação) e privacidade. Por exemplo, o processo de PPRL precisa ser executado sobre grandes fontes de dados (por exemplo, um banco de dados contendo informações pessoais de programas governamentais de distribuição de renda e assistência), com uma classificação precisa das entidades e, ao mesmo tempo, proteger a privacidade de a informação. Nesse contexto, este trabalho propõe melhorias no processo PPRL com o intuito de mitigar alguns dos gargalos do REGP. Particularmente, este trabalho apresenta três grandes contribuições para o processo REGP: i) um protocolo que permite a auditabilidade da computação realizada durante o REGP, ii) uma metodologia não supervisionada que aproveita o conhecimento de conjuntos de dados publicos para treinar classificador baseado em Machine Learning para o REGP, e iii) uma nova representação, ̧para os dados PPRL codificados/anonimizados que permitem o uso de novas redes neuro e classificadores de aprendizado profundo no contexto do PPRL. As presentes contribuições aprimoram várias partes do processo PPRL, visando torna-lo mais facilmente utilizado em aplicações do mundo real. Com a contribuição apresentada na tese, esperamos facilitar diversas aplicações ̃ do mundo real (por exemplo, estudos médicos, epidemiol ogicos e populacionais) e reduzir os esforços legais/burocraticos para acessar e processar os dados, tornando a execução dessas aplicações mais simples para empresas e governos.The Entity Resolution with Privacy Guarantees (REGP) intends to integrate data private/sensitive files from various data sources maintained by different parties. The REGP aims to identify records (for example, people or objects) that represent the same real-world entity in private data sources maintained by different custodians. Due to recent laws and regulations (e.g. General Regulation of Data Protection), PPRL approaches are increasingly required in application areas from the real world, such as health, credit analysis, public policy evaluation and security national. In practical scenarios, the PPRL process needs to deal with efficiency problems, efficiency (call quality) and privacy. For example, the PPRL process needs to run on large data sources (for example, a database containing personal information from government cash distribution and assistance programs), with an accurate classification of entities while protecting the privacy of the information. In this context, this work proposes improvements in the PPRL process with the in order to mitigate some of the bottlenecks of REGP. In particular, this work presents three major contributions to the REGP process: i) a protocol that enables auditability computation performed during REGP, ii) an unsupervised methodology that leverages knowledge of public datasets to train classifier based on in Machine Learning for the REGP, and iii) a new representation, ̧for the PPRL data encoded/anonymized that allow the use of new neuro networks and classifiers of deep learning in the context of PPRL. The present contributions improve several parts of the PPRL process, aiming to make it more easily used in applications of the real world. With the contribution presented in the thesis, we hope to facilitate several applications ̃ from the real world (e.g., medical, epidemiological, and population studies) and reduce legal/bureaucratic efforts to access and process the data, making enforcement of these simpler applications for businesses and governments.La Resolución de la Entidad con Garantías de Privacidad (REGP) pretende integrar datos archivos privados/confidenciales de varias fuentes de datos en poder de diferentes partes. El REGP tiene como objetivo identificar registros (por ejemplo, personas u objetos) que representan la misma entidad del mundo real en fuentes de datos privadas mantenidas por diferentes custodios Debido a leyes y reglamentos recientes (por ejemplo, Reglamento General de Protección de datos), los enfoques PPRL son cada vez más necesarios en las áreas de aplicación del mundo real, como salud, análisis de crédito, evaluación de políticas públicas y seguridad nacional En escenarios prácticos, el proceso PPRL necesita hacer frente a problemas de eficiencia, eficiencia (calidad de la llamada) y privacidad. Por ejemplo, el proceso PPRL necesita se ejecuta en grandes fuentes de datos (por ejemplo, una base de datos que contiene información personal de los programas gubernamentales de asistencia y distribución de efectivo), con una clasificación precisa de entidades mientras se protege la privacidad de la información. En este contexto, este trabajo propone mejoras en el proceso PPRL con la para mitigar algunos de los cuellos de botella de REGP. En particular, este trabajo presenta tres principales contribuciones al proceso REGP: i) un protocolo que permite la auditabilidad cálculo realizado durante REGP, ii) una metodología no supervisada que aprovecha el conocimiento de conjuntos de datos públicos para entrenar clasificador basado en en Machine Learning para el REGP, y iii) una nueva representación, ̧para los datos PPRL codificados/anonimizados que permiten el uso de nuevas redes neuronales y clasificadores de aprendizaje profundo en el contexto de PPRL. Las presentes contribuciones mejoran varias partes del proceso PPRL, con el objetivo de hacerlo más fácil de usar en aplicaciones de la mundo real. Con el aporte presentado en la tesis, esperamos facilitar varias aplicaciones ̃ del mundo real (por ejemplo, estudios médicos, epidemiológicos y de población) y reducir esfuerzos legales/burocráticos para acceder y procesar los datos, haciendo que la aplicación de estas aplicaciones más simples para empresas y gobiernos.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGPIRES, Carlos Eduardo Santos.PIRES, C. E. S.http://lattes.cnpq.br/4986021622366786NASCIMENTO FILHO, Dimas Cassimiro do.NASCIMENTO FILHO, D. C.http://lattes.cnpq.br/3151296501932443CAMPELO, Cláudio Elízio Calazans.CAMPELO, C. E. C.http://lattes.cnpq.br/2042247762832979MARINHO, Leandro Balby.MARINHO, L. B.http://lattes.cnpq.br/3728312501032061MACHADO, Javam de Castro.MACHADO, J. C.http://lattes.cnpq.br/9884980518986225PITA, Robespierre Dantas da Rocha.PITA, R. D. R.http://lattes.cnpq.br/9031151666715654NÓBREGA, Thiago Pereira da.2022-12-122023-04-17T12:26:26Z2023-04-172023-04-17T12:26:26Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29393NÓBREGA, Thiago Pereira da. Towards auditable and intelligent privacy-preserving Record linkage. 2022. 237 fl. Tese (Doutorado em Ciência da Computação), Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29393porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2023-04-17T12:27:23Zoai:localhost:riufcg/29393Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512023-04-17T12:27:23Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv Towards auditable and intelligent privacy-preserving Record linkage.
Rumo à vinculação de registros auditável e inteligente que preserva a privacidade.
Hacia una vinculación de registros auditable e inteligente que preserve la privacidad.
title Towards auditable and intelligent privacy-preserving Record linkage.
spellingShingle Towards auditable and intelligent privacy-preserving Record linkage.
NÓBREGA, Thiago Pereira da.
Machine Learning
Privacidade
Blockchain
Segurança e privacidade
Resolução de entidades
Integração de dados
Aprendizado de máquina
Privacy
Security and privacy
Entity resolution
Data integration
Seguridad y privacidad
Resolución de la entidad
Integración de datos
Privacidad
Teoria da Computação
title_short Towards auditable and intelligent privacy-preserving Record linkage.
title_full Towards auditable and intelligent privacy-preserving Record linkage.
title_fullStr Towards auditable and intelligent privacy-preserving Record linkage.
title_full_unstemmed Towards auditable and intelligent privacy-preserving Record linkage.
title_sort Towards auditable and intelligent privacy-preserving Record linkage.
author NÓBREGA, Thiago Pereira da.
author_facet NÓBREGA, Thiago Pereira da.
author_role author
dc.contributor.none.fl_str_mv PIRES, Carlos Eduardo Santos.
PIRES, C. E. S.
http://lattes.cnpq.br/4986021622366786
NASCIMENTO FILHO, Dimas Cassimiro do.
NASCIMENTO FILHO, D. C.
http://lattes.cnpq.br/3151296501932443
CAMPELO, Cláudio Elízio Calazans.
CAMPELO, C. E. C.
http://lattes.cnpq.br/2042247762832979
MARINHO, Leandro Balby.
MARINHO, L. B.
http://lattes.cnpq.br/3728312501032061
MACHADO, Javam de Castro.
MACHADO, J. C.
http://lattes.cnpq.br/9884980518986225
PITA, Robespierre Dantas da Rocha.
PITA, R. D. R.
http://lattes.cnpq.br/9031151666715654
dc.contributor.author.fl_str_mv NÓBREGA, Thiago Pereira da.
dc.subject.por.fl_str_mv Machine Learning
Privacidade
Blockchain
Segurança e privacidade
Resolução de entidades
Integração de dados
Aprendizado de máquina
Privacy
Security and privacy
Entity resolution
Data integration
Seguridad y privacidad
Resolución de la entidad
Integración de datos
Privacidad
Teoria da Computação
topic Machine Learning
Privacidade
Blockchain
Segurança e privacidade
Resolução de entidades
Integração de dados
Aprendizado de máquina
Privacy
Security and privacy
Entity resolution
Data integration
Seguridad y privacidad
Resolución de la entidad
Integración de datos
Privacidad
Teoria da Computação
description A Resolução de Entidade com Garantias de Privacidade (REGP) pretende integrar dados privados/sens ́ıveis de varias fontes de dados mantidas por diferentes partes. A REGP tem por objetivo identificar registros (por exemplo, pessoas ou objetos) que representam a mesma entidade do mundo real em fontes de dados privados mantidas por diferentes custodiantes. Devido a leis e regulamentos recentes (por exemplo, Regulamento Geral de Proteção de Dados), as abordagens PPRL são cada vez mais exigidas em áreas de aplicação do mundo real, como saude, análise de crédito, avaliação de políticas publicas e segurança nacional.Em cenarios prá ticos, o processo PPRL precisa lidar com problemas de eficiência, eficacia (qualidade de ligação) e privacidade. Por exemplo, o processo de PPRL precisa ser executado sobre grandes fontes de dados (por exemplo, um banco de dados contendo informações pessoais de programas governamentais de distribuição de renda e assistência), com uma classificação precisa das entidades e, ao mesmo tempo, proteger a privacidade de a informação. Nesse contexto, este trabalho propõe melhorias no processo PPRL com o intuito de mitigar alguns dos gargalos do REGP. Particularmente, este trabalho apresenta três grandes contribuições para o processo REGP: i) um protocolo que permite a auditabilidade da computação realizada durante o REGP, ii) uma metodologia não supervisionada que aproveita o conhecimento de conjuntos de dados publicos para treinar classificador baseado em Machine Learning para o REGP, e iii) uma nova representação, ̧para os dados PPRL codificados/anonimizados que permitem o uso de novas redes neuro e classificadores de aprendizado profundo no contexto do PPRL. As presentes contribuições aprimoram várias partes do processo PPRL, visando torna-lo mais facilmente utilizado em aplicações do mundo real. Com a contribuição apresentada na tese, esperamos facilitar diversas aplicações ̃ do mundo real (por exemplo, estudos médicos, epidemiol ogicos e populacionais) e reduzir os esforços legais/burocraticos para acessar e processar os dados, tornando a execução dessas aplicações mais simples para empresas e governos.
publishDate 2022
dc.date.none.fl_str_mv 2022-12-12
2023-04-17T12:26:26Z
2023-04-17
2023-04-17T12:26:26Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29393
NÓBREGA, Thiago Pereira da. Towards auditable and intelligent privacy-preserving Record linkage. 2022. 237 fl. Tese (Doutorado em Ciência da Computação), Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29393
url http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29393
identifier_str_mv NÓBREGA, Thiago Pereira da. Towards auditable and intelligent privacy-preserving Record linkage. 2022. 237 fl. Tese (Doutorado em Ciência da Computação), Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/29393
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1809744573434429440