Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy

Augusto Felix Marcolin

Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy

Detalhes bibliográficos
Autor(a) principal:	Augusto Felix Marcolin
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/BUOS-B4HGDL
Resumo:	A quantidade de dados produzidos no mundo digital tem crescido exponencialmente nas últimas décadas. Atentas a este fato, empresas e organizações não tem medido esforços para analisar toda essa gama de informação. Contudo, há um crescimento na preocupação acerca da privacidade da informação das pessoas. Nesse contexto, surge a àrea de data privacy, cujo objetivo é garantir anonimização das informações em bases de dados. Tendo em vista o problema exposto, este trabalho apresenta métodos para anonimização de variáveis binárias e categóricas, através de geração de bases sintéticas sob garantia de dierential privacy. Também apresentamos técnicas de inferência para lidar com esse tipo de dado. Inicialmente recriamos e complementamos o estudo de Charest (2011) no âmbito de variáveis binárias anonimizadas. Posteriormente, estendemos o modelo para variáveis de múltiplas categorias. Por m, aplicamos as técnicas de anonimização e inferenciais em uma base de dados da SUSEP(Superintendência de Seguros Privados) a respeito de roubos de carros e indenizações de seguradoras, para o ano de 2016 na região metropolitana de Belo Horizonte e Zona da Mata. Quanto aos resultados, observamos que há uma perda de informação quando utilizamos a metodologia de bases sintéticas sob garantia dedierential privacy. Porém, utilizando as técnicas apropriadas para fazer inferência podemos obter estimativas precisas.

Metadados do item

id	UFMG_0723d056796bd407c2b52b640b8699d9
oai_identifier_str	oai:repositorio.ufmg.br:1843/BUOS-B4HGDL
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Thais Paiva GallettiMarcos Oliveira PratesPedro Olmo Stancioli Vaz de MeloAugusto Felix Marcolin2019-08-10T19:44:25Z2019-08-10T19:44:25Z2018-02-23http://hdl.handle.net/1843/BUOS-B4HGDLA quantidade de dados produzidos no mundo digital tem crescido exponencialmente nas últimas décadas. Atentas a este fato, empresas e organizações não tem medido esforços para analisar toda essa gama de informação. Contudo, há um crescimento na preocupação acerca da privacidade da informação das pessoas. Nesse contexto, surge a àrea de data privacy, cujo objetivo é garantir anonimização das informações em bases de dados. Tendo em vista o problema exposto, este trabalho apresenta métodos para anonimização de variáveis binárias e categóricas, através de geração de bases sintéticas sob garantia de dierential privacy. Também apresentamos técnicas de inferência para lidar com esse tipo de dado. Inicialmente recriamos e complementamos o estudo de Charest (2011) no âmbito de variáveis binárias anonimizadas. Posteriormente, estendemos o modelo para variáveis de múltiplas categorias. Por m, aplicamos as técnicas de anonimização e inferenciais em uma base de dados da SUSEP(Superintendência de Seguros Privados) a respeito de roubos de carros e indenizações de seguradoras, para o ano de 2016 na região metropolitana de Belo Horizonte e Zona da Mata. Quanto aos resultados, observamos que há uma perda de informação quando utilizamos a metodologia de bases sintéticas sob garantia dedierential privacy. Porém, utilizando as técnicas apropriadas para fazer inferência podemos obter estimativas precisas.Theamountofdataproducedindigitalerahasincreasedinthelastdecades. Awareof this, companies and organizations have been making all necessary eorts to analyze this amount of information. However, the attention concerning privacy of individuals records is increasing. In this sense, the data privacy area emerges with the goal to guarantee users anonymity in researches. Given that, this work shows anonymization methods for binary and categorical data, using the concept of dierential privacy synthetic data. We also present inferential techniques to analyze this kind of data. First, we recreate and complement the scenarios proposed by Charest (2011) to binary anonymized data. We then extend the model to categorical variables. Lastly, we apply the anonymization and inferential techniques to a real dataset of car insurance claims in Brazil in 2016 for the metropolian region of Belo Horizonte and Zona da Mata. On the results, we noticed that there is some information loss when the methodology of dierential privacy synthetic data is applied. However, using the appropriate techniques to make inference can provide accurate estimates.Universidade Federal de Minas GeraisUFMGEstatisticaProteção de dadosDados SintéticosDierential PrivacyData PrivacyMétodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacyinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALaugusto_marcolin.pdfapplication/pdf1729886https://repositorio.ufmg.br/bitstream/1843/BUOS-B4HGDL/1/augusto_marcolin.pdf70d5e41c4d0b9f5a3602c8e0b81cf5b6MD51TEXTaugusto_marcolin.pdf.txtaugusto_marcolin.pdf.txtExtracted texttext/plain84878https://repositorio.ufmg.br/bitstream/1843/BUOS-B4HGDL/2/augusto_marcolin.pdf.txtff0e32793b192ebd226b5cffe83f3186MD521843/BUOS-B4HGDL2019-11-14 04:39:21.943oai:repositorio.ufmg.br:1843/BUOS-B4HGDLRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T07:39:21Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy
title	Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy
spellingShingle	Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy Augusto Felix Marcolin Dados Sintéticos Dierential Privacy Data Privacy Estatistica Proteção de dados
title_short	Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy
title_full	Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy
title_fullStr	Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy
title_full_unstemmed	Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy
title_sort	Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy
author	Augusto Felix Marcolin
author_facet	Augusto Felix Marcolin
author_role	author
dc.contributor.advisor1.fl_str_mv	Thais Paiva Galletti
dc.contributor.referee1.fl_str_mv	Marcos Oliveira Prates
dc.contributor.referee2.fl_str_mv	Pedro Olmo Stancioli Vaz de Melo
dc.contributor.author.fl_str_mv	Augusto Felix Marcolin
contributor_str_mv	Thais Paiva Galletti Marcos Oliveira Prates Pedro Olmo Stancioli Vaz de Melo
dc.subject.por.fl_str_mv	Dados Sintéticos Dierential Privacy Data Privacy
topic	Dados Sintéticos Dierential Privacy Data Privacy Estatistica Proteção de dados
dc.subject.other.pt_BR.fl_str_mv	Estatistica Proteção de dados
description	A quantidade de dados produzidos no mundo digital tem crescido exponencialmente nas últimas décadas. Atentas a este fato, empresas e organizações não tem medido esforços para analisar toda essa gama de informação. Contudo, há um crescimento na preocupação acerca da privacidade da informação das pessoas. Nesse contexto, surge a àrea de data privacy, cujo objetivo é garantir anonimização das informações em bases de dados. Tendo em vista o problema exposto, este trabalho apresenta métodos para anonimização de variáveis binárias e categóricas, através de geração de bases sintéticas sob garantia de dierential privacy. Também apresentamos técnicas de inferência para lidar com esse tipo de dado. Inicialmente recriamos e complementamos o estudo de Charest (2011) no âmbito de variáveis binárias anonimizadas. Posteriormente, estendemos o modelo para variáveis de múltiplas categorias. Por m, aplicamos as técnicas de anonimização e inferenciais em uma base de dados da SUSEP(Superintendência de Seguros Privados) a respeito de roubos de carros e indenizações de seguradoras, para o ano de 2016 na região metropolitana de Belo Horizonte e Zona da Mata. Quanto aos resultados, observamos que há uma perda de informação quando utilizamos a metodologia de bases sintéticas sob garantia dedierential privacy. Porém, utilizando as técnicas apropriadas para fazer inferência podemos obter estimativas precisas.
publishDate	2018
dc.date.issued.fl_str_mv	2018-02-23
dc.date.accessioned.fl_str_mv	2019-08-10T19:44:25Z
dc.date.available.fl_str_mv	2019-08-10T19:44:25Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/BUOS-B4HGDL
url	http://hdl.handle.net/1843/BUOS-B4HGDL
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/BUOS-B4HGDL/1/augusto_marcolin.pdf https://repositorio.ufmg.br/bitstream/1843/BUOS-B4HGDL/2/augusto_marcolin.pdf.txt
bitstream.checksum.fl_str_mv	70d5e41c4d0b9f5a3602c8e0b81cf5b6 ff0e32793b192ebd226b5cffe83f3186
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589336663326720

Métodos estatísticos de proteção de dados condenciais sob a condição de Dierential Privacy

Registros relacionados