Deteção de e-mails phishing aplicando machine learning ao conteúdo

Detalhes bibliográficos
Autor(a) principal: Saraiva, Marco António Carvalhosa
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/20.500.11960/2840
Resumo: A engenharia social é um conceito no qual é aplicado a manipulação psicológica para levar a vítima a executar ações em prol do ator malicioso. Uma das formas mais comuns de praticar atos de engenharia social é o phishing. No mundo cibernético, o phishing é usado para manipular os utilizadores para a prática de extorsão e roubo de dados sensíveis. Esta prática é cada vez mais usada, o que torna preocupante e alarmante a forma de como é possível ser alvo deste ataque. Relatórios na área revelam que os utilizadores estão constantemente a ser alvo de e-mails que fingem ser legítimos, mas que na verdade estão a ser vítimas de um ataque phishing. O número de sites e de campanhas de e-mail de phishing continua a crescer ano após ano, sendo que, e a título de exemplo, no ano de 2021, os ataques phishing cresceram 200% devido ao aproveitamento da pandemia Covid-19 com campanhas de vacinas e tratamento para o vírus. Existe uma grande preocupação da comunidade académica e da indústria em mitigar o problema porém os desafios são muitos. Tal deve-se em certa medida ao fato de que parte da solução passa pelo ser humano, desenvolvendo a capacidade do mesmo ter consciência e tomar decisões corretas para evitar que o ataque seja bem-sucedido. Endereçar um problema como o do phishing requer ações ao nível pessoas, procedimental e tecnológico (PPT). O lado humano tem sido alvo de constantes ações de treino e consciencialização, mas mesmo assim o fenómeno não para de crescer. Neste trabalho propomos uma solução tecnológica para reforçar a capacidade de mitigar ataques de phishing, ou seja, criar uma linha de defesa para que o utilizador final não tenha de lidar com e-mails phishing no dia a dia, de forma a evitar o erro humano e assim criar possíveis estragos e prejuízos. A proposta apresentada envolve a criação de um dataset a partir de e-mails previamente classificados como sendo de phishing e não phishing. Para a criação do dataset foram considerados aspetos linguísticos do próprio e-mail. Para tal foi aplicada uma técnica de extração de informação automatizada, denominada de Named-entity Recognition (NER). Esta técnica retira do corpo do e-mail características que formam o conjunto de dados. O conjunto de dados resultado foi analisado, tratado e submetido a algoritmos de ML, mais propriamente a algoritmos de classificação A análise de resultados permite concluir que, através deste método é possível determinar se um e-mail é de phishing e ou com uma taxa de acerto de 91.13%. Foi ainda possível concluir que a escolha das features para a fase de treino dos modelos de ML tem um papel preponderante para maximizar a taxa de acerto. Salienta-se que a proposta aqui apresentada para determinar se um e-mail é de phishing ou não poderá de forma simples ser integrada com outras soluções, melhorando assim a capacidade de detetar e evitar este tipo de ataques.
id RCAP_119a0c08ab2d24d90ed39d8392e4f179
oai_identifier_str oai:repositorio.ipvc.pt:20.500.11960/2840
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Deteção de e-mails phishing aplicando machine learning ao conteúdoPhishingMachine learningDatasetE-mailsA engenharia social é um conceito no qual é aplicado a manipulação psicológica para levar a vítima a executar ações em prol do ator malicioso. Uma das formas mais comuns de praticar atos de engenharia social é o phishing. No mundo cibernético, o phishing é usado para manipular os utilizadores para a prática de extorsão e roubo de dados sensíveis. Esta prática é cada vez mais usada, o que torna preocupante e alarmante a forma de como é possível ser alvo deste ataque. Relatórios na área revelam que os utilizadores estão constantemente a ser alvo de e-mails que fingem ser legítimos, mas que na verdade estão a ser vítimas de um ataque phishing. O número de sites e de campanhas de e-mail de phishing continua a crescer ano após ano, sendo que, e a título de exemplo, no ano de 2021, os ataques phishing cresceram 200% devido ao aproveitamento da pandemia Covid-19 com campanhas de vacinas e tratamento para o vírus. Existe uma grande preocupação da comunidade académica e da indústria em mitigar o problema porém os desafios são muitos. Tal deve-se em certa medida ao fato de que parte da solução passa pelo ser humano, desenvolvendo a capacidade do mesmo ter consciência e tomar decisões corretas para evitar que o ataque seja bem-sucedido. Endereçar um problema como o do phishing requer ações ao nível pessoas, procedimental e tecnológico (PPT). O lado humano tem sido alvo de constantes ações de treino e consciencialização, mas mesmo assim o fenómeno não para de crescer. Neste trabalho propomos uma solução tecnológica para reforçar a capacidade de mitigar ataques de phishing, ou seja, criar uma linha de defesa para que o utilizador final não tenha de lidar com e-mails phishing no dia a dia, de forma a evitar o erro humano e assim criar possíveis estragos e prejuízos. A proposta apresentada envolve a criação de um dataset a partir de e-mails previamente classificados como sendo de phishing e não phishing. Para a criação do dataset foram considerados aspetos linguísticos do próprio e-mail. Para tal foi aplicada uma técnica de extração de informação automatizada, denominada de Named-entity Recognition (NER). Esta técnica retira do corpo do e-mail características que formam o conjunto de dados. O conjunto de dados resultado foi analisado, tratado e submetido a algoritmos de ML, mais propriamente a algoritmos de classificação A análise de resultados permite concluir que, através deste método é possível determinar se um e-mail é de phishing e ou com uma taxa de acerto de 91.13%. Foi ainda possível concluir que a escolha das features para a fase de treino dos modelos de ML tem um papel preponderante para maximizar a taxa de acerto. Salienta-se que a proposta aqui apresentada para determinar se um e-mail é de phishing ou não poderá de forma simples ser integrada com outras soluções, melhorando assim a capacidade de detetar e evitar este tipo de ataques.Social engineering is a concept in which psychological manipulation is applied to get the victim to perform actions on behalf of the malicious actor. One of the most common forms of social engineering is phishing. In the cyber world, phishing is used to manipulate users into extortion and theft of sensitive data. This practice is increasingly used, which makes it worrying and alarming how it is possible to be the target of this attack. Reports in the area reveal that users are constantly being targeted by e-mails that pretend to be legitimate, but are actually victims of a phishing attack. The number of phishing websites and e-mail campaigns continues to grow year after year, and in 2021, phishing attacks grew by 200% due to to take advantage of the Covid-19 pandemic with campaigns for vaccines and treatment for the virus. There is great concern from the academic community and the industry to mitigate the problem, but the challenges are many. To a certain extent, this is due to the fact that part of the solution involves human beings, developing their ability to be aware and make correct decisions to prevent the attack from being successful. Addressing a problem like phishing requires people, procedural, and technology (PPT) action. The human side has been the target of constant training and awareness actions, but even so the phenomenon continues to grow. In this work we propose a technological solution to reinforce the ability to mitigate phishing attacks, that is, to create a line of defense so that the end user does not have to deal with e-mails phishing on a daily basis, in order to avoid human error and create possible damage and losses.. The proposal presented involves the creation of a dataset from e-mails previously classified as phishing and not phishing. To create the dataset, linguistic aspects of the e-mail itself were considered. For this, an automated information extraction technique, called Named-entity Recognition (NER) was applied. This technique removes the characteristics that form the data set from the body of the e-mail. The resulting dataset was analyzed, treated and submitted to Machine Learning (ML) algorithms, more specifically to classification algorithms. The analysis of results allows us to conclude that, through this method, it is possible to determine if an e-mail is from phishing and or with a hit rate of 91.13%. It was also possible to conclude that the choice of features for the training phase of ML models has a preponderant role in maximizing the hit rate. It should be noted that the proposal presented here to determine whether an e-mail is from phishing or not can simply be integrated with other solutions, thus improving the ability to detect and prevent this type of attack.2022-11-18T16:40:03Z2022-10-06T00:00:00Z2022-10-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/octet-streamhttp://hdl.handle.net/20.500.11960/2840TID:203102622porSaraiva, Marco António Carvalhosainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-21T14:42:39Zoai:repositorio.ipvc.pt:20.500.11960/2840Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:44:27.830936Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Deteção de e-mails phishing aplicando machine learning ao conteúdo
title Deteção de e-mails phishing aplicando machine learning ao conteúdo
spellingShingle Deteção de e-mails phishing aplicando machine learning ao conteúdo
Saraiva, Marco António Carvalhosa
Phishing
Machine learning
Dataset
E-mails
title_short Deteção de e-mails phishing aplicando machine learning ao conteúdo
title_full Deteção de e-mails phishing aplicando machine learning ao conteúdo
title_fullStr Deteção de e-mails phishing aplicando machine learning ao conteúdo
title_full_unstemmed Deteção de e-mails phishing aplicando machine learning ao conteúdo
title_sort Deteção de e-mails phishing aplicando machine learning ao conteúdo
author Saraiva, Marco António Carvalhosa
author_facet Saraiva, Marco António Carvalhosa
author_role author
dc.contributor.author.fl_str_mv Saraiva, Marco António Carvalhosa
dc.subject.por.fl_str_mv Phishing
Machine learning
Dataset
E-mails
topic Phishing
Machine learning
Dataset
E-mails
description A engenharia social é um conceito no qual é aplicado a manipulação psicológica para levar a vítima a executar ações em prol do ator malicioso. Uma das formas mais comuns de praticar atos de engenharia social é o phishing. No mundo cibernético, o phishing é usado para manipular os utilizadores para a prática de extorsão e roubo de dados sensíveis. Esta prática é cada vez mais usada, o que torna preocupante e alarmante a forma de como é possível ser alvo deste ataque. Relatórios na área revelam que os utilizadores estão constantemente a ser alvo de e-mails que fingem ser legítimos, mas que na verdade estão a ser vítimas de um ataque phishing. O número de sites e de campanhas de e-mail de phishing continua a crescer ano após ano, sendo que, e a título de exemplo, no ano de 2021, os ataques phishing cresceram 200% devido ao aproveitamento da pandemia Covid-19 com campanhas de vacinas e tratamento para o vírus. Existe uma grande preocupação da comunidade académica e da indústria em mitigar o problema porém os desafios são muitos. Tal deve-se em certa medida ao fato de que parte da solução passa pelo ser humano, desenvolvendo a capacidade do mesmo ter consciência e tomar decisões corretas para evitar que o ataque seja bem-sucedido. Endereçar um problema como o do phishing requer ações ao nível pessoas, procedimental e tecnológico (PPT). O lado humano tem sido alvo de constantes ações de treino e consciencialização, mas mesmo assim o fenómeno não para de crescer. Neste trabalho propomos uma solução tecnológica para reforçar a capacidade de mitigar ataques de phishing, ou seja, criar uma linha de defesa para que o utilizador final não tenha de lidar com e-mails phishing no dia a dia, de forma a evitar o erro humano e assim criar possíveis estragos e prejuízos. A proposta apresentada envolve a criação de um dataset a partir de e-mails previamente classificados como sendo de phishing e não phishing. Para a criação do dataset foram considerados aspetos linguísticos do próprio e-mail. Para tal foi aplicada uma técnica de extração de informação automatizada, denominada de Named-entity Recognition (NER). Esta técnica retira do corpo do e-mail características que formam o conjunto de dados. O conjunto de dados resultado foi analisado, tratado e submetido a algoritmos de ML, mais propriamente a algoritmos de classificação A análise de resultados permite concluir que, através deste método é possível determinar se um e-mail é de phishing e ou com uma taxa de acerto de 91.13%. Foi ainda possível concluir que a escolha das features para a fase de treino dos modelos de ML tem um papel preponderante para maximizar a taxa de acerto. Salienta-se que a proposta aqui apresentada para determinar se um e-mail é de phishing ou não poderá de forma simples ser integrada com outras soluções, melhorando assim a capacidade de detetar e evitar este tipo de ataques.
publishDate 2022
dc.date.none.fl_str_mv 2022-11-18T16:40:03Z
2022-10-06T00:00:00Z
2022-10-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/20.500.11960/2840
TID:203102622
url http://hdl.handle.net/20.500.11960/2840
identifier_str_mv TID:203102622
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/octet-stream
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799131529965731840