Imputação de dados sintéticos através de árvores de classificação

Larissa Natany Almeida Martins

Imputação de dados sintéticos através de árvores de classificação

Detalhes bibliográficos
Autor(a) principal:	Larissa Natany Almeida Martins
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/30799
Resumo:	Este trabalho apresenta um estudo sobre a metodologia de geração de dados sintéticos através de árvores de classificação e regressão. Essa metodologia é usada quando existe alguma restrição na divulgação de informações sigilosas por questões éticas ou morais e existe o interesse em divulgar essas informações de maneira segura. Dados sintéticos utilizam a ideia de imputação múltipla, onde os valores originais são imputados por novos valores baseados nas distribuições das variáveis envolvidas no estudo. Várias metodologias podem ser utilizadas para a geração de dados sintéticos. Nesse trabalho utilizamos árvores de classificação e regressão (CART) para a classificação dos grupos envolvidos no estudo, o bootstrap Bayesiano para a estimação da densidade de cada grupo e o método da CDF inversa para a geração final dos dados sintéticos. O objetivo desse trabalho é estender a metodologia utilizada por Reiter e Drechsler (2011) para geração de dados sintéticos utilizando modelos não paramétricos para diferentes distribuições da variável sensível, incluindo o caso de distribuições com caudas pesadas. Iremos também apresentar o cálculo para medida de risco para diferentes hipóteses sobre a informação que um possível intruso possa possuir. Apresentamos a geração dos dados sintéticos para três cenários simulados com distribuições diferentes para verificar a eficiência do modelo. Também foi analisado um banco de dados real. Para os cenários simulados, o cenário 2 apresentou resultados piores do que os cenários 1 e 3, devido a distribuição da variável resposta. Para o banco de dados real os resultados foram considerados satisfatórios.

Metadados do item

id	UFMG_0c310a43b66c2dba1203be76ec15ecb3
oai_identifier_str	oai:repositorio.ufmg.br:1843/30799
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Thais Paiva Galettixxhttp://lattes.cnpq.br/9133103825732566Larissa Natany Almeida Martins2019-11-04T14:34:10Z2019-11-04T14:34:10Z2019-02-12http://hdl.handle.net/1843/30799Este trabalho apresenta um estudo sobre a metodologia de geração de dados sintéticos através de árvores de classificação e regressão. Essa metodologia é usada quando existe alguma restrição na divulgação de informações sigilosas por questões éticas ou morais e existe o interesse em divulgar essas informações de maneira segura. Dados sintéticos utilizam a ideia de imputação múltipla, onde os valores originais são imputados por novos valores baseados nas distribuições das variáveis envolvidas no estudo. Várias metodologias podem ser utilizadas para a geração de dados sintéticos. Nesse trabalho utilizamos árvores de classificação e regressão (CART) para a classificação dos grupos envolvidos no estudo, o bootstrap Bayesiano para a estimação da densidade de cada grupo e o método da CDF inversa para a geração final dos dados sintéticos. O objetivo desse trabalho é estender a metodologia utilizada por Reiter e Drechsler (2011) para geração de dados sintéticos utilizando modelos não paramétricos para diferentes distribuições da variável sensível, incluindo o caso de distribuições com caudas pesadas. Iremos também apresentar o cálculo para medida de risco para diferentes hipóteses sobre a informação que um possível intruso possa possuir. Apresentamos a geração dos dados sintéticos para três cenários simulados com distribuições diferentes para verificar a eficiência do modelo. Também foi analisado um banco de dados real. Para os cenários simulados, o cenário 2 apresentou resultados piores do que os cenários 1 e 3, devido a distribuição da variável resposta. Para o banco de dados real os resultados foram considerados satisfatórios.This work presents a study on the methodology of synthetic data generation through classification and regression trees. This methodology is used when there is any restriction on disclosure of sensitive information for ethical or moral reasons and there is an interest in disclosing such information. Synthetic data use the idea of multiple imputation, where the original values are imputed by new values based on the distributions of the variables involved in the study. Several methodologies can be used to generate synthetic data. In this work we used classification and regression trees (CART) to classify the groups involved in the study, the Bayesian bootstrap to estimate the density of each group and the inverse CDF method for the final generation of synthetic data. The objective of this work is to extend the methodology used by Reiter and Drechsler (2011) to generate synthetic data using non-parametric models for different distributions of the sensitive variable, including the case of distributions with heavy tails. We will also present the calculation to measure risk for different hypotheses about the information that a possible intruder may have. We present the generation of synthetic data for three simulated scenarios with different distributions to verify the efficiency of the model. We also analyzed a real database. For the simulated scenarios, scenario 2 presented worse results than scenarios 1 and 3, due to the distribution of the response variable. For the real database, the results were considered satisfactory.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em EstatísticaUFMGBrasilAtribuição-NãoComercial-SemDerivados 3.0 Portugalhttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/info:eu-repo/semantics/openAccessDados sintéticosCARTDivulgação de dadosImputação de dados sintéticos através de árvores de classificaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufmg.br/bitstream/1843/30799/2/license_rdfcfd6801dba008cb6adbd9838b81582abMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82119https://repositorio.ufmg.br/bitstream/1843/30799/3/license.txt34badce4be7e31e3adb4575ae96af679MD53ORIGINALTese.pdfTese.pdfAbertoapplication/pdf588247https://repositorio.ufmg.br/bitstream/1843/30799/1/Tese.pdf66c3d9fdf19aede195e2c348a6b94b90MD51TEXTTese.pdf.txtTese.pdf.txtExtracted texttext/plain109636https://repositorio.ufmg.br/bitstream/1843/30799/4/Tese.pdf.txt2a9137e6eb23f7b927c8b9a3fc2f36eaMD541843/307992019-11-14 13:14:22.036oai:repositorio.ufmg.br:1843/30799TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KCg==Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T16:14:22Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Imputação de dados sintéticos através de árvores de classificação
title	Imputação de dados sintéticos através de árvores de classificação
spellingShingle	Imputação de dados sintéticos através de árvores de classificação Larissa Natany Almeida Martins Dados sintéticos CART Divulgação de dados
title_short	Imputação de dados sintéticos através de árvores de classificação
title_full	Imputação de dados sintéticos através de árvores de classificação
title_fullStr	Imputação de dados sintéticos através de árvores de classificação
title_full_unstemmed	Imputação de dados sintéticos através de árvores de classificação
title_sort	Imputação de dados sintéticos através de árvores de classificação
author	Larissa Natany Almeida Martins
author_facet	Larissa Natany Almeida Martins
author_role	author
dc.contributor.advisor1.fl_str_mv	Thais Paiva Galetti
dc.contributor.advisor1Lattes.fl_str_mv	xx
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/9133103825732566
dc.contributor.author.fl_str_mv	Larissa Natany Almeida Martins
contributor_str_mv	Thais Paiva Galetti
dc.subject.por.fl_str_mv	Dados sintéticos CART Divulgação de dados
topic	Dados sintéticos CART Divulgação de dados
description	Este trabalho apresenta um estudo sobre a metodologia de geração de dados sintéticos através de árvores de classificação e regressão. Essa metodologia é usada quando existe alguma restrição na divulgação de informações sigilosas por questões éticas ou morais e existe o interesse em divulgar essas informações de maneira segura. Dados sintéticos utilizam a ideia de imputação múltipla, onde os valores originais são imputados por novos valores baseados nas distribuições das variáveis envolvidas no estudo. Várias metodologias podem ser utilizadas para a geração de dados sintéticos. Nesse trabalho utilizamos árvores de classificação e regressão (CART) para a classificação dos grupos envolvidos no estudo, o bootstrap Bayesiano para a estimação da densidade de cada grupo e o método da CDF inversa para a geração final dos dados sintéticos. O objetivo desse trabalho é estender a metodologia utilizada por Reiter e Drechsler (2011) para geração de dados sintéticos utilizando modelos não paramétricos para diferentes distribuições da variável sensível, incluindo o caso de distribuições com caudas pesadas. Iremos também apresentar o cálculo para medida de risco para diferentes hipóteses sobre a informação que um possível intruso possa possuir. Apresentamos a geração dos dados sintéticos para três cenários simulados com distribuições diferentes para verificar a eficiência do modelo. Também foi analisado um banco de dados real. Para os cenários simulados, o cenário 2 apresentou resultados piores do que os cenários 1 e 3, devido a distribuição da variável resposta. Para o banco de dados real os resultados foram considerados satisfatórios.
publishDate	2019
dc.date.accessioned.fl_str_mv	2019-11-04T14:34:10Z
dc.date.available.fl_str_mv	2019-11-04T14:34:10Z
dc.date.issued.fl_str_mv	2019-02-12
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/30799
url	http://hdl.handle.net/1843/30799
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Atribuição-NãoComercial-SemDerivados 3.0 Portugal http://creativecommons.org/licenses/by-nc-nd/3.0/pt/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Atribuição-NãoComercial-SemDerivados 3.0 Portugal http://creativecommons.org/licenses/by-nc-nd/3.0/pt/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Estatística
dc.publisher.initials.fl_str_mv	UFMG
dc.publisher.country.fl_str_mv	Brasil
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/30799/2/license_rdf https://repositorio.ufmg.br/bitstream/1843/30799/3/license.txt https://repositorio.ufmg.br/bitstream/1843/30799/1/Tese.pdf https://repositorio.ufmg.br/bitstream/1843/30799/4/Tese.pdf.txt
bitstream.checksum.fl_str_mv	cfd6801dba008cb6adbd9838b81582ab 34badce4be7e31e3adb4575ae96af679 66c3d9fdf19aede195e2c348a6b94b90 2a9137e6eb23f7b927c8b9a3fc2f36ea
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589254438191104

Imputação de dados sintéticos através de árvores de classificação

Registros relacionados