Comparação de métodos perturbativos: utilidade e perda de informação em bases de microdados

Detalhes bibliográficos
Autor(a) principal: Morais, Jorge
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/84574
Resumo: Dissertação de mestrado em Estatística para Ciência de Dados
id RCAP_fcf08437bbe0607c70d4152a0a3020a7
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/84574
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Comparação de métodos perturbativos: utilidade e perda de informação em bases de microdadosComparison of perturbation methods: utility and information loss in microdataControlo de divulgação estatística (CDE)Perturbação dos dadosPackage sdcMicroRisco de identificaçãoUtilidade dos dadosStatistical disclosure control (SDC)Data perturbationDisclosure riskData utilityPackage sdcMicroCiências Naturais::MatemáticasDissertação de mestrado em Estatística para Ciência de DadosA procura por informação de alta qualidade por parte dos investigadores e do público em geral vem crescendo rapidamente nos últimos anos. Nesse sentido, é importante estabelecer um compromisso entre a disponibilização de informação estatística de qualidade e o cumprimento da legislação de proteção de dados. Técnicas de Controlo de Divulgação Estatística (CDE) sugerem métodos capazes de modificar dados sem revelar informação confidencial que possa ser vinculada a indivíduos específicos. Este projeto pretende descrever e aplicar os vários métodos perturbativos de CDE, demonstrando os passos a efetuar de forma a que seja possível a perturbação dos dados e ainda comparar os diferentes métodos de CDE avaliando a sua utilidade face à perda de informação e face ao risco de identificação. Numa fase inicial descrevem-se os diversos métodos de CDE apresentando-se as vantagens e desvantagens para cada um dos métodos, concluindo-se que a nível teórico o modelo Exact General Additive Data Perturbation (EGADP) e o modelo Data Shuffling produzem o menor risco de identificação e a maior utilidade nos dados. Para além da descrição dos métodos apresentam-se diversas medidas para o cálculo do risco de identificação e para a perda de informação. Utilizando a linguagem de programação R aplicam-se os métodos numa base de microdados fornecida pelo Laboratório de Investigação em Microdados do Banco de Portugal (BPLIM). Para além da aplicação dos métodos descreve-se o package sdcMicro em R, que é essencial na aplicação dos métodos de CDE. Com a aplicação a uma base de microdados real os resultados obtidos permitem concluir que a escolha do método pode variar consoante o objetivo do responsável da base de microdados. Neste caso, os métodos que apresentaram resultados mais favoráveis foram os modelos Aditivos de Ruído. Assim, na aplicação da base de microdados PT2020 fornecida pelo BPLIM conclui-se que: • Caso o objetivo do responsável seja obter o melhor compromisso entre a perda de informação e o risco de identificação, então a escolhe deve ser o modelo Aditivo de Ruído Correlacionado; • Caso o objetivo do responsável seja obter a menor perda de informação e um risco de identificação não muito elevado, então a escolha deve ser o modelo Aditivo de Ruído Independente; • Caso o objetivo do responsável seja obter o menor risco de identificação, independentemente da perda de informação, então a escolha deve ser o modelo Exact General Additive Data Perturbation (EGADP). Conclusões que contrariam em parte a literatura, no entanto, ao longo da dissertação é referido por várias vezes que a escolha do melhor método dependerá muito do objetivo do responsável da base de microdados e que não é possível referir apenas um método capaz de satisfazer os diversos objetivos dos diferentes responsáveis. Nesta dissertação faz-se também uma abordagem aos métodos perturbativos com dados longitudinais, no entanto esta ainda é uma área muito primitiva que precisa de ser mais desenvolvida, tanto a nível teórico como prático.The demand for high-quality information from researchers and the public, in general, has been growing rapidly in recent years. In that sense, it is essential to establish a compromise between the availability of quality statistical information and compliance with data protection legislation. Statistical Disclosure Control (SDC) techniques suggest methods to modify data so that they can be published without revealing confidential information that can be linked to specific respondents. This project aims to describe and apply the various perturbation methods of SDC, showing the steps to be taken to make it possible to perturb the data and also comparing the different methods of SDC, evaluating their data utility and disclosure risk. Initially, the different SDC methods are described, presenting the advantages and disadvantages for each one of the methods, concluding that at a theoretical level the Exact General Additive Data Perturbation (EGADP) model and the Data Shuffling present the lowest disclosure risk and the highest data utility. In addition to the description of the methods, several measures are presented for calculating the disclosure risk and information loss. Using the R programming language, the methods are applied in a microdata base provided by BPLIM. In addition to the application of the methods, the package sdcMicro in R is described, which is essential in the application of CDE methods. With the results obtained in the application to a real data set, it is clear that the method choice depends on the goals of the person responsible for the microdata base. In this case, the methods that presented the most desirable results were the noise additive models. Thus, in the application to a real dataset provided by BPLIM, it is concluded that: • If the responsible person’s objective is to obtain the best compromise between the information lost and the disclosure risk, then the choice should be the Additive Correlated Noise model; • If the responsible person’s objective is to obtain the least loss of information and a not very high disclosure risk, then the choice should be the Independent Noise Additive model; • If the responsible person’s objective is to obtain the lowest disclosure risk, regardless of the information lost, then the choice should be the Exact General Additive Data Perturbation (EGADP) model. Conclusions that partially contradict the literature, however, throughout this paper it is mentioned several times that the choice of the best method depend a lot on the objective of the person responsible for the microdata base and that it is not possible to mention only one method capable of satisfying the various objectives of the differents responsibles. In this dissertation, an approach is also made to perturbative methods with longitudinal data, however, this is still a very primitive area that needs to be further developed, both theoretically and practically.Faria, SusanaSousa, RitaUniversidade do MinhoMorais, Jorge20222022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/84574por203232860info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:36:18Zoai:repositorium.sdum.uminho.pt:1822/84574Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:32:20.333866Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Comparação de métodos perturbativos: utilidade e perda de informação em bases de microdados
Comparison of perturbation methods: utility and information loss in microdata
title Comparação de métodos perturbativos: utilidade e perda de informação em bases de microdados
spellingShingle Comparação de métodos perturbativos: utilidade e perda de informação em bases de microdados
Morais, Jorge
Controlo de divulgação estatística (CDE)
Perturbação dos dados
Package sdcMicro
Risco de identificação
Utilidade dos dados
Statistical disclosure control (SDC)
Data perturbation
Disclosure risk
Data utility
Package sdcMicro
Ciências Naturais::Matemáticas
title_short Comparação de métodos perturbativos: utilidade e perda de informação em bases de microdados
title_full Comparação de métodos perturbativos: utilidade e perda de informação em bases de microdados
title_fullStr Comparação de métodos perturbativos: utilidade e perda de informação em bases de microdados
title_full_unstemmed Comparação de métodos perturbativos: utilidade e perda de informação em bases de microdados
title_sort Comparação de métodos perturbativos: utilidade e perda de informação em bases de microdados
author Morais, Jorge
author_facet Morais, Jorge
author_role author
dc.contributor.none.fl_str_mv Faria, Susana
Sousa, Rita
Universidade do Minho
dc.contributor.author.fl_str_mv Morais, Jorge
dc.subject.por.fl_str_mv Controlo de divulgação estatística (CDE)
Perturbação dos dados
Package sdcMicro
Risco de identificação
Utilidade dos dados
Statistical disclosure control (SDC)
Data perturbation
Disclosure risk
Data utility
Package sdcMicro
Ciências Naturais::Matemáticas
topic Controlo de divulgação estatística (CDE)
Perturbação dos dados
Package sdcMicro
Risco de identificação
Utilidade dos dados
Statistical disclosure control (SDC)
Data perturbation
Disclosure risk
Data utility
Package sdcMicro
Ciências Naturais::Matemáticas
description Dissertação de mestrado em Estatística para Ciência de Dados
publishDate 2022
dc.date.none.fl_str_mv 2022
2022-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/84574
url https://hdl.handle.net/1822/84574
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 203232860
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132835907371008