Imputação de dados sintéticos através de árvores de classificação

Detalhes bibliográficos
Autor(a) principal: Larissa Natany Almeida Martins
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/30799
Resumo: Este trabalho apresenta um estudo sobre a metodologia de geração de dados sintéticos através de árvores de classificação e regressão. Essa metodologia é usada quando existe alguma restrição na divulgação de informações sigilosas por questões éticas ou morais e existe o interesse em divulgar essas informações de maneira segura. Dados sintéticos utilizam a ideia de imputação múltipla, onde os valores originais são imputados por novos valores baseados nas distribuições das variáveis envolvidas no estudo. Várias metodologias podem ser utilizadas para a geração de dados sintéticos. Nesse trabalho utilizamos árvores de classificação e regressão (CART) para a classificação dos grupos envolvidos no estudo, o bootstrap Bayesiano para a estimação da densidade de cada grupo e o método da CDF inversa para a geração final dos dados sintéticos. O objetivo desse trabalho é estender a metodologia utilizada por Reiter e Drechsler (2011) para geração de dados sintéticos utilizando modelos não paramétricos para diferentes distribuições da variável sensível, incluindo o caso de distribuições com caudas pesadas. Iremos também apresentar o cálculo para medida de risco para diferentes hipóteses sobre a informação que um possível intruso possa possuir. Apresentamos a geração dos dados sintéticos para três cenários simulados com distribuições diferentes para verificar a eficiência do modelo. Também foi analisado um banco de dados real. Para os cenários simulados, o cenário 2 apresentou resultados piores do que os cenários 1 e 3, devido a distribuição da variável resposta. Para o banco de dados real os resultados foram considerados satisfatórios.
id UFMG_0c310a43b66c2dba1203be76ec15ecb3
oai_identifier_str oai:repositorio.ufmg.br:1843/30799
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Thais Paiva Galettixxhttp://lattes.cnpq.br/9133103825732566Larissa Natany Almeida Martins2019-11-04T14:34:10Z2019-11-04T14:34:10Z2019-02-12http://hdl.handle.net/1843/30799Este trabalho apresenta um estudo sobre a metodologia de geração de dados sintéticos através de árvores de classificação e regressão. Essa metodologia é usada quando existe alguma restrição na divulgação de informações sigilosas por questões éticas ou morais e existe o interesse em divulgar essas informações de maneira segura. Dados sintéticos utilizam a ideia de imputação múltipla, onde os valores originais são imputados por novos valores baseados nas distribuições das variáveis envolvidas no estudo. Várias metodologias podem ser utilizadas para a geração de dados sintéticos. Nesse trabalho utilizamos árvores de classificação e regressão (CART) para a classificação dos grupos envolvidos no estudo, o bootstrap Bayesiano para a estimação da densidade de cada grupo e o método da CDF inversa para a geração final dos dados sintéticos. O objetivo desse trabalho é estender a metodologia utilizada por Reiter e Drechsler (2011) para geração de dados sintéticos utilizando modelos não paramétricos para diferentes distribuições da variável sensível, incluindo o caso de distribuições com caudas pesadas. Iremos também apresentar o cálculo para medida de risco para diferentes hipóteses sobre a informação que um possível intruso possa possuir. Apresentamos a geração dos dados sintéticos para três cenários simulados com distribuições diferentes para verificar a eficiência do modelo. Também foi analisado um banco de dados real. Para os cenários simulados, o cenário 2 apresentou resultados piores do que os cenários 1 e 3, devido a distribuição da variável resposta. Para o banco de dados real os resultados foram considerados satisfatórios.This work presents a study on the methodology of synthetic data generation through classification and regression trees. This methodology is used when there is any restriction on disclosure of sensitive information for ethical or moral reasons and there is an interest in disclosing such information. Synthetic data use the idea of multiple imputation, where the original values are imputed by new values based on the distributions of the variables involved in the study. Several methodologies can be used to generate synthetic data. In this work we used classification and regression trees (CART) to classify the groups involved in the study, the Bayesian bootstrap to estimate the density of each group and the inverse CDF method for the final generation of synthetic data. The objective of this work is to extend the methodology used by Reiter and Drechsler (2011) to generate synthetic data using non-parametric models for different distributions of the sensitive variable, including the case of distributions with heavy tails. We will also present the calculation to measure risk for different hypotheses about the information that a possible intruder may have. We present the generation of synthetic data for three simulated scenarios with different distributions to verify the efficiency of the model. We also analyzed a real database. For the simulated scenarios, scenario 2 presented worse results than scenarios 1 and 3, due to the distribution of the response variable. For the real database, the results were considered satisfactory.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em EstatísticaUFMGBrasilAtribuição-NãoComercial-SemDerivados 3.0 Portugalhttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/info:eu-repo/semantics/openAccessDados sintéticosCARTDivulgação de dadosImputação de dados sintéticos através de árvores de classificaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufmg.br/bitstream/1843/30799/2/license_rdfcfd6801dba008cb6adbd9838b81582abMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82119https://repositorio.ufmg.br/bitstream/1843/30799/3/license.txt34badce4be7e31e3adb4575ae96af679MD53ORIGINALTese.pdfTese.pdfAbertoapplication/pdf588247https://repositorio.ufmg.br/bitstream/1843/30799/1/Tese.pdf66c3d9fdf19aede195e2c348a6b94b90MD51TEXTTese.pdf.txtTese.pdf.txtExtracted texttext/plain109636https://repositorio.ufmg.br/bitstream/1843/30799/4/Tese.pdf.txt2a9137e6eb23f7b927c8b9a3fc2f36eaMD541843/307992019-11-14 13:14:22.036oai:repositorio.ufmg.br:1843/30799TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KCg==Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T16:14:22Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Imputação de dados sintéticos através de árvores de classificação
title Imputação de dados sintéticos através de árvores de classificação
spellingShingle Imputação de dados sintéticos através de árvores de classificação
Larissa Natany Almeida Martins
Dados sintéticos
CART
Divulgação de dados
title_short Imputação de dados sintéticos através de árvores de classificação
title_full Imputação de dados sintéticos através de árvores de classificação
title_fullStr Imputação de dados sintéticos através de árvores de classificação
title_full_unstemmed Imputação de dados sintéticos através de árvores de classificação
title_sort Imputação de dados sintéticos através de árvores de classificação
author Larissa Natany Almeida Martins
author_facet Larissa Natany Almeida Martins
author_role author
dc.contributor.advisor1.fl_str_mv Thais Paiva Galetti
dc.contributor.advisor1Lattes.fl_str_mv xx
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9133103825732566
dc.contributor.author.fl_str_mv Larissa Natany Almeida Martins
contributor_str_mv Thais Paiva Galetti
dc.subject.por.fl_str_mv Dados sintéticos
CART
Divulgação de dados
topic Dados sintéticos
CART
Divulgação de dados
description Este trabalho apresenta um estudo sobre a metodologia de geração de dados sintéticos através de árvores de classificação e regressão. Essa metodologia é usada quando existe alguma restrição na divulgação de informações sigilosas por questões éticas ou morais e existe o interesse em divulgar essas informações de maneira segura. Dados sintéticos utilizam a ideia de imputação múltipla, onde os valores originais são imputados por novos valores baseados nas distribuições das variáveis envolvidas no estudo. Várias metodologias podem ser utilizadas para a geração de dados sintéticos. Nesse trabalho utilizamos árvores de classificação e regressão (CART) para a classificação dos grupos envolvidos no estudo, o bootstrap Bayesiano para a estimação da densidade de cada grupo e o método da CDF inversa para a geração final dos dados sintéticos. O objetivo desse trabalho é estender a metodologia utilizada por Reiter e Drechsler (2011) para geração de dados sintéticos utilizando modelos não paramétricos para diferentes distribuições da variável sensível, incluindo o caso de distribuições com caudas pesadas. Iremos também apresentar o cálculo para medida de risco para diferentes hipóteses sobre a informação que um possível intruso possa possuir. Apresentamos a geração dos dados sintéticos para três cenários simulados com distribuições diferentes para verificar a eficiência do modelo. Também foi analisado um banco de dados real. Para os cenários simulados, o cenário 2 apresentou resultados piores do que os cenários 1 e 3, devido a distribuição da variável resposta. Para o banco de dados real os resultados foram considerados satisfatórios.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-11-04T14:34:10Z
dc.date.available.fl_str_mv 2019-11-04T14:34:10Z
dc.date.issued.fl_str_mv 2019-02-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/30799
url http://hdl.handle.net/1843/30799
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Atribuição-NãoComercial-SemDerivados 3.0 Portugal
http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribuição-NãoComercial-SemDerivados 3.0 Portugal
http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Estatística
dc.publisher.initials.fl_str_mv UFMG
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/30799/2/license_rdf
https://repositorio.ufmg.br/bitstream/1843/30799/3/license.txt
https://repositorio.ufmg.br/bitstream/1843/30799/1/Tese.pdf
https://repositorio.ufmg.br/bitstream/1843/30799/4/Tese.pdf.txt
bitstream.checksum.fl_str_mv cfd6801dba008cb6adbd9838b81582ab
34badce4be7e31e3adb4575ae96af679
66c3d9fdf19aede195e2c348a6b94b90
2a9137e6eb23f7b927c8b9a3fc2f36ea
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589254438191104