Coordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19

Detalhes bibliográficos
Autor(a) principal: Fernanda Buzza Alves Barros
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/60244
Resumo: Muitos dados coletados por agências possuem características confidenciais e informações sensíveis, portanto as instituições de pesquisa devem obedecer protocolos legais e éticos para não divulgar tais informações de maneira indiscriminada. Este trabalho utiliza a metodologia de dados sintéticos e imputação múltipla que são técnicas desenvolvidas para a divulgação segura de dados sensíveis, uma vez que apresentam uma maior preservação da utilidade dos dados. Esse método substitui os valores originais por valores simulados utilizando distribuições de probabilidades ajustadas aos valores originais, podendo ser aplicado para substituir parcialmente ou completamente os dados originais. O modelo de [26] e atualizado por [25], utiliza essa metodologia para gerar coordenadas geográficas sintéticas, entretanto não existia no modelo a previsão de espaços não habitáveis, como por exemplo aeroporto e lagoas. Portanto, contribuímos com a inclusão de tais espaços e denominamos eles como áreas restritas (espaços em que não existem habitações de indivíduos). Para avaliar essa contribuição no modelo, utilizamos um banco de dados simulado e representamos graficamente os resultados da aplicação com e sem a inclusão das áreas restritas. Por fim, realizamos a aplicação em um banco de dados de casos de COVID-19 da cidade de Montes Claros - MG, e pudemos comprovar a importância da inclusão de espaços inabitáveis nos dados para geração das coordenadas sintéticas.
id UFMG_e1ea065b76c9df645ce9a3802ec18ed8
oai_identifier_str oai:repositorio.ufmg.br:1843/60244
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Thaís Paiva Gallettihttp://lattes.cnpq.br/6313658269652848Marcos Oliveira PratesVictor Hugo Lachos DávilaVinícius Diniz Mayrinkhttp://lattes.cnpq.br/2554654003098795Fernanda Buzza Alves Barros2023-10-30T15:46:41Z2023-10-30T15:46:41Z2023-08-15http://hdl.handle.net/1843/60244Muitos dados coletados por agências possuem características confidenciais e informações sensíveis, portanto as instituições de pesquisa devem obedecer protocolos legais e éticos para não divulgar tais informações de maneira indiscriminada. Este trabalho utiliza a metodologia de dados sintéticos e imputação múltipla que são técnicas desenvolvidas para a divulgação segura de dados sensíveis, uma vez que apresentam uma maior preservação da utilidade dos dados. Esse método substitui os valores originais por valores simulados utilizando distribuições de probabilidades ajustadas aos valores originais, podendo ser aplicado para substituir parcialmente ou completamente os dados originais. O modelo de [26] e atualizado por [25], utiliza essa metodologia para gerar coordenadas geográficas sintéticas, entretanto não existia no modelo a previsão de espaços não habitáveis, como por exemplo aeroporto e lagoas. Portanto, contribuímos com a inclusão de tais espaços e denominamos eles como áreas restritas (espaços em que não existem habitações de indivíduos). Para avaliar essa contribuição no modelo, utilizamos um banco de dados simulado e representamos graficamente os resultados da aplicação com e sem a inclusão das áreas restritas. Por fim, realizamos a aplicação em um banco de dados de casos de COVID-19 da cidade de Montes Claros - MG, e pudemos comprovar a importância da inclusão de espaços inabitáveis nos dados para geração das coordenadas sintéticas.Many data collected by agencies have confidential characteristics and sensitive information, so research institutions must obey legal and ethical protocols not to disclose such information indiscriminately. This work uses the methodology of synthetic data and multiple imputation, which are techniques developed for the safe disclosure of sensitive data, since they present a greater preservation of the usefulness of the data. This method replaces the original values with simulated values using probability distributions fitted to the original values, and can be applied to replace partially or completely the original data. The model by [26] and updated by [25], uses this methodology to generate synthetic geographic coordinates, however the model did not include the prediction of non-inhabitable spaces, such as airports and lakes. Therefore, we contribute to the inclusion of such spaces and call them restricted areas (spaces where individuals do not live). To evaluate this contribution in the model, we used a simulated database and graphically represented the results of the application with and without the inclusion of restricted areas. Finally, we carried out the application in a database of COVID-19 cases in the city of Montes Claros - MG, and we were able to prove the importance of including uninhabitable spaces in the data for the generation of synthetic coordinates.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em EstatísticaUFMGBrasilICX - DEPARTAMENTO DE ESTATÍSTICAEstatística – TesesAnálise espacial (Estatística) – TesesSaúde pública – Estatística – Dados não estruturados - TesesDados SintéticosConfidencialidadeCoordenadas Geográficas SintéticasEstatística EspacialCoordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGLICENSElicense.txtlicense.txttext/plain; charset=utf-82118https://repositorio.ufmg.br/bitstream/1843/60244/2/license.txtcda590c95a0b51b4d15f60c9642ca272MD52ORIGINALCoordenadas sintéticas em bancos de dados confidenciais uma aplicação em dados de covid-19.pdfCoordenadas sintéticas em bancos de dados confidenciais uma aplicação em dados de covid-19.pdfapplication/pdf15616214https://repositorio.ufmg.br/bitstream/1843/60244/1/Coordenadas%20sint%c3%a9ticas%20em%20bancos%20de%20dados%20confidenciais%20uma%20aplica%c3%a7%c3%a3o%20em%20dados%20de%20covid-19.pdf4fb46a36da243d56f27550b987457420MD511843/602442023-10-30 12:46:41.751oai:repositorio.ufmg.br:1843/60244TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2023-10-30T15:46:41Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Coordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19
title Coordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19
spellingShingle Coordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19
Fernanda Buzza Alves Barros
Dados Sintéticos
Confidencialidade
Coordenadas Geográficas Sintéticas
Estatística Espacial
Estatística – Teses
Análise espacial (Estatística) – Teses
Saúde pública – Estatística – Dados não estruturados - Teses
title_short Coordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19
title_full Coordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19
title_fullStr Coordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19
title_full_unstemmed Coordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19
title_sort Coordenadas sintéticas em bancos de dados confidenciais: uma aplicação em dados de covid-19
author Fernanda Buzza Alves Barros
author_facet Fernanda Buzza Alves Barros
author_role author
dc.contributor.advisor1.fl_str_mv Thaís Paiva Galletti
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6313658269652848
dc.contributor.advisor-co1.fl_str_mv Marcos Oliveira Prates
dc.contributor.referee1.fl_str_mv Victor Hugo Lachos Dávila
dc.contributor.referee2.fl_str_mv Vinícius Diniz Mayrink
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/2554654003098795
dc.contributor.author.fl_str_mv Fernanda Buzza Alves Barros
contributor_str_mv Thaís Paiva Galletti
Marcos Oliveira Prates
Victor Hugo Lachos Dávila
Vinícius Diniz Mayrink
dc.subject.por.fl_str_mv Dados Sintéticos
Confidencialidade
Coordenadas Geográficas Sintéticas
Estatística Espacial
topic Dados Sintéticos
Confidencialidade
Coordenadas Geográficas Sintéticas
Estatística Espacial
Estatística – Teses
Análise espacial (Estatística) – Teses
Saúde pública – Estatística – Dados não estruturados - Teses
dc.subject.other.pt_BR.fl_str_mv Estatística – Teses
Análise espacial (Estatística) – Teses
Saúde pública – Estatística – Dados não estruturados - Teses
description Muitos dados coletados por agências possuem características confidenciais e informações sensíveis, portanto as instituições de pesquisa devem obedecer protocolos legais e éticos para não divulgar tais informações de maneira indiscriminada. Este trabalho utiliza a metodologia de dados sintéticos e imputação múltipla que são técnicas desenvolvidas para a divulgação segura de dados sensíveis, uma vez que apresentam uma maior preservação da utilidade dos dados. Esse método substitui os valores originais por valores simulados utilizando distribuições de probabilidades ajustadas aos valores originais, podendo ser aplicado para substituir parcialmente ou completamente os dados originais. O modelo de [26] e atualizado por [25], utiliza essa metodologia para gerar coordenadas geográficas sintéticas, entretanto não existia no modelo a previsão de espaços não habitáveis, como por exemplo aeroporto e lagoas. Portanto, contribuímos com a inclusão de tais espaços e denominamos eles como áreas restritas (espaços em que não existem habitações de indivíduos). Para avaliar essa contribuição no modelo, utilizamos um banco de dados simulado e representamos graficamente os resultados da aplicação com e sem a inclusão das áreas restritas. Por fim, realizamos a aplicação em um banco de dados de casos de COVID-19 da cidade de Montes Claros - MG, e pudemos comprovar a importância da inclusão de espaços inabitáveis nos dados para geração das coordenadas sintéticas.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-10-30T15:46:41Z
dc.date.available.fl_str_mv 2023-10-30T15:46:41Z
dc.date.issued.fl_str_mv 2023-08-15
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/60244
url http://hdl.handle.net/1843/60244
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Estatística
dc.publisher.initials.fl_str_mv UFMG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICX - DEPARTAMENTO DE ESTATÍSTICA
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/60244/2/license.txt
https://repositorio.ufmg.br/bitstream/1843/60244/1/Coordenadas%20sint%c3%a9ticas%20em%20bancos%20de%20dados%20confidenciais%20uma%20aplica%c3%a7%c3%a3o%20em%20dados%20de%20covid-19.pdf
bitstream.checksum.fl_str_mv cda590c95a0b51b4d15f60c9642ca272
4fb46a36da243d56f27550b987457420
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589501678780416