Anonymizing Private Information: From Noise to Data

Ferreira, Francisco Martins

Anonymizing Private Information: From Noise to Data

Detalhes bibliográficos
Autor(a) principal:	Ferreira, Francisco Martins
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10316/95554
Resumo:	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia

Metadados do item

id	RCAP_9fe27fa076858b6eabb274abfa41fe9b
oai_identifier_str	oai:estudogeral.uc.pt:10316/95554
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Anonymizing Private Information: From Noise to DataAnonymizing Private Information: From Noise to DataMachine LearningGenerative Adversarial NetworksDados SintéticosDados TabularesDeteção de FraudeMachine LearningGenerative Adversarial NetworksSynthetic DataTabular DataFraud DetectionDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaIn the Information Age data has become more important for all types of organizations. The information carried by large datasets habilitates the creation of intelligent systems that overcome inefficiencies and create a safer and better quality of life. Because of this, organizations have come to see data as a competitive advantage.Fraud Detection solutions are one example of intelligent systems that are highly dependent on having access to large amounts of data. These solutions receive information about monetary transactions and classify them as legitimate or fraudulent in real time. This field has benefitted from higher availability of data, allowing the application of Machine Learning (ML) algorithms that leverage the information in datasets to finding fraudulent activity in real-time.In a context of systematic gathering of information, privacy dictates how data can be used and shared, in order to protect the information of users and organizations. In order to retain the utility of data, a growing amount of effort has been dedicated to creating and exploring avenues for privacy conscious data sharing.Generating synthetic datasets that carry the same information as real data allows for the creation of ML solutions while respecting the limitations placed on data usage. In this work, we introduce Duo-GAN and DW-GAN as frameworks for synthetic data generation that learn the specificities of financial transactions data and generate fictitious data that keeps the utility of the original collections of data. Both these frameworks use two generators, one for generating fraudulent instances and one for generating legitimate instances. This allows each generator to learn the distribution for each class, avoiding the problems created by highly unbalanced data. Duo-GAN achieves positive results, in some instances achieving a disparity of only 4% in F1 score between classifiers trained with synthetic data and classifiers trained with real data and both tested on the same real data. DW-GAN presents positive results too with disparity of 3% in F1 score in the same conditions.Na Idade da Informação os dados tornaram-se mais importantes para todos os tipos de organizações. A informação contida pelos grandes datasets permite a criação de sistemas inteligentes que ultrapassam ineficiências e criam qualidade de vida melhor e mais segura. Devido a isto, as organizações começaram a ver os dados com uma vantagem competitiva.As soluções de Deteção de Fraude são exemplos de sistemas inteligentes que dependem do acesso a grandes quantidades de dados. Estas soluções recebem informação relativas a transações monetárias e atribuem classificações de legítimas ou fraudulentas em tempo real. Este é um dos campos que beneficiou da maior disponibilidade de dados, sendo capaz de aplicar algoritmos de Machine Learning que utilizam a informação contida nos datasets para detetar atividade fraudulenta em tempo real.Num contexto de agregação sistemática de informação, a privacidade dita como os dados podem ser utilizados e partilhados, com o objetivo de proteger a informação dos utilizadores de sistemas e de organizações. De forma a reter a utilidade dos dados, uma quantidade crescente de esforço tem sido dispendido em criar e explorar avenidas para a partilha de dados respeitando a privacidade.A geração de dados sintéticos que contém a mesma informação que os dados reais permite a criação de soluções de Machine Learning (ML) mantendo o respeito pelas limitações colocadas sobre a utilização de dados.Neste trabalho introduzimos Duo-GAN e DW-GAN como frameworks para geração de dados sintéticos que aprendem as especificidades dos dados de transações financeiras e geram dados fictícios que retém a utilidade das coleções de dados originais. Ambos os frameworks utilizam dois geradores, um para gerar instâncias fraudulentas e outro para gerar instâncias legítimas. Isto permite que cada gerador aprenda a distribuição de cada uma das classes, evitando assim os problemas criados por datasets desiquilibrados. O Duo- GAN atinge resultados positivos, em certos casos atingindo uma disparidade de apenas 4% no F1 score entre classificadores treinados com dados sintéticos e classificadores treinados com dados reais, e ambos testados nos mesmos dados reais. O DW-GAN também apresenta resultados positivos, com disparidade de 3% no F1 score para as mesmas condições.Outro - This work is partially funded by national funds through the FCT - Foundation for Science and Technology, I.P., within the scope of the project CISUC - UID/CEC/00326/2020 and by European Social Fund, through the Regional Operational Program Centro 2020. and by the CMU\|Portugal project CAMELOT (POCI-01-0247-FEDER-045915).2021-07-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/95554http://hdl.handle.net/10316/95554TID:202753271engFerreira, Francisco Martinsinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-08-16T07:56:00Zoai:estudogeral.uc.pt:10316/95554Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:14:01.598255Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Anonymizing Private Information: From Noise to Data Anonymizing Private Information: From Noise to Data
title	Anonymizing Private Information: From Noise to Data
spellingShingle	Anonymizing Private Information: From Noise to Data Ferreira, Francisco Martins Machine Learning Generative Adversarial Networks Dados Sintéticos Dados Tabulares Deteção de Fraude Machine Learning Generative Adversarial Networks Synthetic Data Tabular Data Fraud Detection
title_short	Anonymizing Private Information: From Noise to Data
title_full	Anonymizing Private Information: From Noise to Data
title_fullStr	Anonymizing Private Information: From Noise to Data
title_full_unstemmed	Anonymizing Private Information: From Noise to Data
title_sort	Anonymizing Private Information: From Noise to Data
author	Ferreira, Francisco Martins
author_facet	Ferreira, Francisco Martins
author_role	author
dc.contributor.author.fl_str_mv	Ferreira, Francisco Martins
dc.subject.por.fl_str_mv	Machine Learning Generative Adversarial Networks Dados Sintéticos Dados Tabulares Deteção de Fraude Machine Learning Generative Adversarial Networks Synthetic Data Tabular Data Fraud Detection
topic	Machine Learning Generative Adversarial Networks Dados Sintéticos Dados Tabulares Deteção de Fraude Machine Learning Generative Adversarial Networks Synthetic Data Tabular Data Fraud Detection
description	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate	2021
dc.date.none.fl_str_mv	2021-07-13
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10316/95554 http://hdl.handle.net/10316/95554 TID:202753271
url	http://hdl.handle.net/10316/95554
identifier_str_mv	TID:202753271
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799134037840756736

Anonymizing Private Information: From Noise to Data

Registros relacionados