Building anonymised database samples

Detalhes bibliográficos
Autor(a) principal: Areal, Bruno Miguel de Melo Gonçalves
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/7699
Resumo: Dissertação para obtenção do Grau de Mestre em Engenharia Informática
id RCAP_61cb585c13f6ae9f712a54aec8a2609c
oai_identifier_str oai:run.unl.pt:10362/7699
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Building anonymised database samplesAnonymous samplingDatabase samplingTest databasesDatabaseSampling algorithmDissertação para obtenção do Grau de Mestre em Engenharia InformáticaIn this work we propose Anonym Database Sampler (ADS), a flexible and modular system capable of extracting an anonymised, consistent and representative sample from a relational database. ADS was envisioned for use in testing and development environments. To this end, a sample specification input is requested from the user, that is used by ADS’s sampling engine to perform a stratified random sample. Afterwards a First-choice hill climbing algorithm is applied to the sample, optimising the selected data towards the specified requisites. Finally, if some restrictions are still to be met, tuples and/or keys modifications are performed, ensuring that the final sample fully complies with the initial sample specification. While having a representative and sound database that developers can use in these environments can be a great advantage, we assume that this representativeness does not need to comply with a truly statistical representativity, which would be much harder to obtain. Thereby, ADS samples are not appropriate for any kind of statistical data analysis. After the sample being successfully extracted, due to the sensitivity of the data contained in most organisation databases, a data anonymisation step is performed. The sampled data is consistently enciphered and masked, preventing data privacy breaches that could occur by delivering to developers a database containing some real operational data.Faculdade de Ciências e TecnologiaAlferes, José JúlioGoulão, MiguelRUNAreal, Bruno Miguel de Melo Gonçalves2012-08-03T10:56:37Z20112011-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/7699enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T03:39:48Zoai:run.unl.pt:10362/7699Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:17:39.901804Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Building anonymised database samples
title Building anonymised database samples
spellingShingle Building anonymised database samples
Areal, Bruno Miguel de Melo Gonçalves
Anonymous sampling
Database sampling
Test databases
Database
Sampling algorithm
title_short Building anonymised database samples
title_full Building anonymised database samples
title_fullStr Building anonymised database samples
title_full_unstemmed Building anonymised database samples
title_sort Building anonymised database samples
author Areal, Bruno Miguel de Melo Gonçalves
author_facet Areal, Bruno Miguel de Melo Gonçalves
author_role author
dc.contributor.none.fl_str_mv Alferes, José Júlio
Goulão, Miguel
RUN
dc.contributor.author.fl_str_mv Areal, Bruno Miguel de Melo Gonçalves
dc.subject.por.fl_str_mv Anonymous sampling
Database sampling
Test databases
Database
Sampling algorithm
topic Anonymous sampling
Database sampling
Test databases
Database
Sampling algorithm
description Dissertação para obtenção do Grau de Mestre em Engenharia Informática
publishDate 2011
dc.date.none.fl_str_mv 2011
2011-01-01T00:00:00Z
2012-08-03T10:56:37Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/7699
url http://hdl.handle.net/10362/7699
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Faculdade de Ciências e Tecnologia
publisher.none.fl_str_mv Faculdade de Ciências e Tecnologia
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137824127057920