Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento

Detalhes bibliográficos
Autor(a) principal: Mendonça, André Luís da Costa
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal do Ceará (UFC)
Texto Completo: http://www.repositorio.ufc.br/handle/riufc/38796
Resumo: Differential Privacy is a mathematical model designed to hinder the process of distinguishing individuals’ records on statistical databases, while maximizing data utility. Although Differential Privacy has been widely used for protecting the privacy of individual users’ data, it was not designed to provide its guarantees for correlated data, since it considers, in essence, independence of records in the database. Existing techniques using Differential Privacy on correlated data attempt to use dependence parameters or correlation coefficients (such as Pearson or Spearman’s Rank) to measure the correlation among records in a dataset. However, they tend to introduce an amount of noise higher than the necessary in the query answer, decreasing the data utility. Different from the existing works, we propose an approach that clusters similar records, which are more likely to be correlated, based on Density-Based Spatial Clustering of Applications with Noise (DBSCAN) and Gaussian Mixture Model (GMM). Our approach also employs a correlated Laplace mechanism to compute the privatized answers, satisfying the privacy guarantees of Differential Privacy. The experimental evaluation exhibits the benefits of our clustering strategy in terms of effectiveness and efficiency, considering data utility and privacy.
id UFC-7_25cb69bcc698f40fa9118d76faa8c7c6
oai_identifier_str oai:repositorio.ufc.br:riufc/38796
network_acronym_str UFC-7
network_name_str Repositório Institucional da Universidade Federal do Ceará (UFC)
repository_id_str
spelling Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamentoA differentially private approach for correlated data with clusteringPrivacidade de dadosPrivacidade diferencialDados correlacionadosAgrupamento de dadosDifferential Privacy is a mathematical model designed to hinder the process of distinguishing individuals’ records on statistical databases, while maximizing data utility. Although Differential Privacy has been widely used for protecting the privacy of individual users’ data, it was not designed to provide its guarantees for correlated data, since it considers, in essence, independence of records in the database. Existing techniques using Differential Privacy on correlated data attempt to use dependence parameters or correlation coefficients (such as Pearson or Spearman’s Rank) to measure the correlation among records in a dataset. However, they tend to introduce an amount of noise higher than the necessary in the query answer, decreasing the data utility. Different from the existing works, we propose an approach that clusters similar records, which are more likely to be correlated, based on Density-Based Spatial Clustering of Applications with Noise (DBSCAN) and Gaussian Mixture Model (GMM). Our approach also employs a correlated Laplace mechanism to compute the privatized answers, satisfying the privacy guarantees of Differential Privacy. The experimental evaluation exhibits the benefits of our clustering strategy in terms of effectiveness and efficiency, considering data utility and privacy.A Privacidade Diferencial é um modelo matemático desenvolvido para dificultar o processo de identificação de indivíduos em conjuntos de dados estatísticos mantendo, ainda, a utilidade dos dados elevada. Embora a Privacidade Diferencial tenha sido amplamente utilizada para proteger a privacidade dos indivíduos, ela não foi desenvolvida para prover as mesmas garantias sobre dados correlacionados, uma vez que o modelo considera, em essência, a independência dos dados entre si. As técnicas existentes que utilizam Privacidade Diferencial em dados correlacionados buscam utilizar parâmetros de correlação ou coeficientes de correlação, e.g. Pearson e Spearman, para medir a correlação entre os indivíduos do conjunto de dados. No entanto, tais parâmetros e coeficientes tendem a introduzir, nas respostas das consultas, uma quantidade de ruído maior que a necessária, reduzindo consideravelmente a utilidade dos dados providos. Diferente dos trabalhos existentes, este trabalho propõe uma abordagem que agrupa os indivíduos semelhantes, i.e. aqueles com maior probabilidade de estarem correlacionados, através de duas técnicas de agrupamento: o Agrupamento Espacial Baseado em Densidade de Aplicações com Ruído (DBSCAN) e o Modelo de Mistura de Gaussianas (GMM). A abordagem também emprega o mecanismo de Laplace, que computa o ruído a ser adicionado nas respostas anonimizadas, satisfazendo, assim, as propriedades da Privacidade Diferencial. Os resultados da avaliação experimental confirmam os benefícios da estratégia de agrupamento em termos de eficácia, para melhoramento da utilidade, e desempenho comparado aos trabalhos existentes.Machado, Javam de CastroMendonça, André Luís da Costa2019-01-15T11:54:46Z2019-01-15T11:54:46Z2018info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfMENDONÇA, André Luís da Costa. Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento. 2018. 93 f. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal do Ceará, Fortaleza, 2018.http://www.repositorio.ufc.br/handle/riufc/38796porreponame:Repositório Institucional da Universidade Federal do Ceará (UFC)instname:Universidade Federal do Ceará (UFC)instacron:UFCinfo:eu-repo/semantics/openAccess2019-01-15T11:54:46Zoai:repositorio.ufc.br:riufc/38796Repositório InstitucionalPUBhttp://www.repositorio.ufc.br/ri-oai/requestbu@ufc.br || repositorio@ufc.bropendoar:2019-01-15T11:54:46Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)false
dc.title.none.fl_str_mv Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
A differentially private approach for correlated data with clustering
title Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
spellingShingle Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
Mendonça, André Luís da Costa
Privacidade de dados
Privacidade diferencial
Dados correlacionados
Agrupamento de dados
title_short Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
title_full Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
title_fullStr Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
title_full_unstemmed Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
title_sort Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento
author Mendonça, André Luís da Costa
author_facet Mendonça, André Luís da Costa
author_role author
dc.contributor.none.fl_str_mv Machado, Javam de Castro
dc.contributor.author.fl_str_mv Mendonça, André Luís da Costa
dc.subject.por.fl_str_mv Privacidade de dados
Privacidade diferencial
Dados correlacionados
Agrupamento de dados
topic Privacidade de dados
Privacidade diferencial
Dados correlacionados
Agrupamento de dados
description Differential Privacy is a mathematical model designed to hinder the process of distinguishing individuals’ records on statistical databases, while maximizing data utility. Although Differential Privacy has been widely used for protecting the privacy of individual users’ data, it was not designed to provide its guarantees for correlated data, since it considers, in essence, independence of records in the database. Existing techniques using Differential Privacy on correlated data attempt to use dependence parameters or correlation coefficients (such as Pearson or Spearman’s Rank) to measure the correlation among records in a dataset. However, they tend to introduce an amount of noise higher than the necessary in the query answer, decreasing the data utility. Different from the existing works, we propose an approach that clusters similar records, which are more likely to be correlated, based on Density-Based Spatial Clustering of Applications with Noise (DBSCAN) and Gaussian Mixture Model (GMM). Our approach also employs a correlated Laplace mechanism to compute the privatized answers, satisfying the privacy guarantees of Differential Privacy. The experimental evaluation exhibits the benefits of our clustering strategy in terms of effectiveness and efficiency, considering data utility and privacy.
publishDate 2018
dc.date.none.fl_str_mv 2018
2019-01-15T11:54:46Z
2019-01-15T11:54:46Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv MENDONÇA, André Luís da Costa. Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento. 2018. 93 f. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal do Ceará, Fortaleza, 2018.
http://www.repositorio.ufc.br/handle/riufc/38796
identifier_str_mv MENDONÇA, André Luís da Costa. Uma abordagem de privacidade diferencial para dados correlacionados utilizando técnicas de agrupamento. 2018. 93 f. Dissertação (Mestrado em Ciência da Computação)-Universidade Federal do Ceará, Fortaleza, 2018.
url http://www.repositorio.ufc.br/handle/riufc/38796
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Ceará (UFC)
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Repositório Institucional da Universidade Federal do Ceará (UFC)
collection Repositório Institucional da Universidade Federal do Ceará (UFC)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Ceará (UFC) - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv bu@ufc.br || repositorio@ufc.br
_version_ 1809935800863817728