Adversarial Attacks to Classification Systems

Leal, João Miguel Gouveia

Adversarial Attacks to Classification Systems

Detalhes bibliográficos
Autor(a) principal:	Leal, João Miguel Gouveia
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10316/102193
Resumo:	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia

Metadados do item

id	RCAP_681c51e8ac9a1323eac2552d73429539
oai_identifier_str	oai:estudogeral.uc.pt:10316/102193
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Adversarial Attacks to Classification SystemsAtaques Adversariais a Sistemas de ClassificaçãoDeep LearningAprendizagem AdversarialAtaques AdversariaisRobustezMétricas de DesempenhoDeep LearningAdversarial LearningAdversarial AttacksRobustnessPerformance MetricsDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaAmostras adversariais são inputs corrompidos com perturbações pouco visíveis, que são classificadas incorretamente por um determinado modelo alvo. Adversários criam amostras adversariais a partir de vários métodos que dependem da informação disponível sobre o sistema alvo. Num cenário white-box, os adversários tem acesso completo ao modelo enquanto que, num cenario black-box, apenas a camada mais externa do modelo está disponível. Investigadores têm desenvolvido amostras adversariais que são capazes de enganar modelos alvo mesmo quando o adversário tem quantidade mínima de informação sobre o sistema alvo do ataque. De forma a construir modelos que sejam robustos a amostras adversariais, vários autores propuseram defesas adversariais que são mecanismos com o objetivo de proteger os modelos de deep learning de ataques adversariais. No entanto, tem sido demonstrado que estas defesas falham o que indica que construir modelos robustos é uma tarefa extremamente complexa. Motivados por isto, várias ferramentas têm sido desenvolvidas que agrupam vários ataques adversariais de forma a permitir a utilizadores testarem os seus modelos, no entanto nenhuma ferramenta oferece um sistema de pipeline e a informação que dão sobre a robustez dos modelos testados é escassa. Para além disto, várias ferramentas deixaram de receber suporte o que acaba por levar a ferramentas com ataques antigos e com ataques semelhantes entre elas. Nesta dissertação, uma nova ferramenta foi desenvolvida com um mecanismo de pipeline que permite aos utilizadores introduzirem os seus modelos e escolherem, dos oito ataques atualmente suportados, aqueles que desejam usar na execução da pipeline. Após a execução da pipeline, cada modelo obtém uma pontuação baseada no desempenho que teve perante todas as imagens adversariais geradas pelos ataques adversariais de forma a permitir uma melhor compreensão da robustez do modelo. Com o intuito de testar a validez e as capacidades da ferramenta, foi realizada uma experiência com o mecanismo de pipeline, modelos treinados a partir de um dataset de classificação de imagens e dos oito ataques adversariais suportados. Os resultados permitiram compreender melhor a robustez dos modelos. A avaliação de um modelo não deverá ser baseada apenas na exatidão perante as amostras adversariais, mas também deverá considerar a perturbação que uma amostra necessita de possuir de forma a que seja capaz de enganar o modelo alvo.Adversarial samples are inputs corrupted with inconspicuous perturbations misclassified by a given target model. Adversaries create adversarial samples using various methods that depend on the information available about the target system. In a white-box scenario, adversaries have full access to the model, and in a black-box scenario, usually, only the output layer is accessible. Researchers have developed adversarial samples that can fool target models even when the adversary has almost no information about the target system. To construct classifiers robust to adversarial samples, many authors have proposed adversarial defenses, mechanisms intended to protect deep learning models from adversarial attacks. However, many of these defenses have been shown to fail, which asserts that building robust models is an extremely arduous and complicated task to achieve. Motivated by this, there have been developed frameworks that group various adversarial attacks to allow users to test their models, however, none of them provide a pipeline mechanism and lack enough information about the robustness of the tested models. Various frameworks have also stopped receiving support, leading to frameworks with antiquated attacks and similar attacks between them. In this dissertation, a new framework was developed with a pipeline mechanism that allows users to input their models and to choose from the currently, eight adversarial attacks. After executing the pipeline, each model obtains a score based on its performance against all of the images generated by the adversarial attacks allowing for a better understanding of the robust levels of those same models. To test the validity and capabilities of the framework, an experiment was performed using the pipeline mechanism with models trained using an image classification dataset and the eight supported adversarial attacks. The results obtained allow for a deeper understanding of the robustness of the models. The evaluation of a model shouldn't be based only on the accuracy of the model on the adversarial samples but should take into consideration the amount of perturbation that a sample needs to have to be able to fool the target classifier.Outro - Projeto confinanciado por COMPETE 2020 e pela União Europeia. Referência do projeto: POCI-01-0247-FEDER-0469692022-09-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/102193http://hdl.handle.net/10316/102193TID:203062361engLeal, João Miguel Gouveiainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-09-27T20:42:39Zoai:estudogeral.uc.pt:10316/102193Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:19:14.408917Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Adversarial Attacks to Classification Systems Ataques Adversariais a Sistemas de Classificação
title	Adversarial Attacks to Classification Systems
spellingShingle	Adversarial Attacks to Classification Systems Leal, João Miguel Gouveia Deep Learning Aprendizagem Adversarial Ataques Adversariais Robustez Métricas de Desempenho Deep Learning Adversarial Learning Adversarial Attacks Robustness Performance Metrics
title_short	Adversarial Attacks to Classification Systems
title_full	Adversarial Attacks to Classification Systems
title_fullStr	Adversarial Attacks to Classification Systems
title_full_unstemmed	Adversarial Attacks to Classification Systems
title_sort	Adversarial Attacks to Classification Systems
author	Leal, João Miguel Gouveia
author_facet	Leal, João Miguel Gouveia
author_role	author
dc.contributor.author.fl_str_mv	Leal, João Miguel Gouveia
dc.subject.por.fl_str_mv	Deep Learning Aprendizagem Adversarial Ataques Adversariais Robustez Métricas de Desempenho Deep Learning Adversarial Learning Adversarial Attacks Robustness Performance Metrics
topic	Deep Learning Aprendizagem Adversarial Ataques Adversariais Robustez Métricas de Desempenho Deep Learning Adversarial Learning Adversarial Attacks Robustness Performance Metrics
description	Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate	2022
dc.date.none.fl_str_mv	2022-09-09
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10316/102193 http://hdl.handle.net/10316/102193 TID:203062361
url	http://hdl.handle.net/10316/102193
identifier_str_mv	TID:203062361
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799134086935085056

Adversarial Attacks to Classification Systems

Registros relacionados