Applying Machine Learning to Detect Phishing URLs
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Revista de Engenharia e Pesquisa Aplicada |
Texto Completo: | http://revistas.poli.br/index.php/repa/article/view/2773 |
Resumo: | Ataques de phishing são um dos ciberataques mais comuns e difíceis de mitigar de forma automatizada. Nos últimos anos, foram propostas uma série de técnicas de detecção e mitigação automatizadas com sucessos variados. Devido ao grande volume de phishing criado diariamente e um tempo de vida médio baixo, é necessária uma técnica de classificação de phishing que consiga atuar de forma rápida e automática. Nesse projeto, propõe-se utilizar técnicas de aprendizado de máquina para realizar essa classificação. Foram coletados mais de 50.000 urls, com mais de 20.000 pertencentes a páginas web que continham um ataque phishing. A partir dessas urls, foi construído um conjunto de dados contendo 15 atributos para o treinamento, validação e testes de modelos de inteligência computacional. Foi realizado um trabalho em três etapas: construção do conjunto de dados, treino de modelos de classificação, e avaliação do desempenho dos modelos treinados. Foram treinados modelos de classificação utilizando os algoritmos Random Forest, XGBoost e Rede Neural Artificial. As métricas utilizadas para avaliar o desempenho dos modelos foram acurácia, precisão e revocação. Os resultados experimentais mostraram o melhor desempenho do modelo de classificação utilizando Floresta Aleatória nas métricas de acurácia, precisão, revocação e F1 Score. |
id |
UFPE-2_4d2cdb6729a27bdf677430aa5d0e18e6 |
---|---|
oai_identifier_str |
oai:ojs.poli.br:article/2773 |
network_acronym_str |
UFPE-2 |
network_name_str |
Revista de Engenharia e Pesquisa Aplicada |
repository_id_str |
|
spelling |
Applying Machine Learning to Detect Phishing URLsAplicação de Aprendizado de Máquinas para Detecção de URLs PhishingAtaques de phishing são um dos ciberataques mais comuns e difíceis de mitigar de forma automatizada. Nos últimos anos, foram propostas uma série de técnicas de detecção e mitigação automatizadas com sucessos variados. Devido ao grande volume de phishing criado diariamente e um tempo de vida médio baixo, é necessária uma técnica de classificação de phishing que consiga atuar de forma rápida e automática. Nesse projeto, propõe-se utilizar técnicas de aprendizado de máquina para realizar essa classificação. Foram coletados mais de 50.000 urls, com mais de 20.000 pertencentes a páginas web que continham um ataque phishing. A partir dessas urls, foi construído um conjunto de dados contendo 15 atributos para o treinamento, validação e testes de modelos de inteligência computacional. Foi realizado um trabalho em três etapas: construção do conjunto de dados, treino de modelos de classificação, e avaliação do desempenho dos modelos treinados. Foram treinados modelos de classificação utilizando os algoritmos Random Forest, XGBoost e Rede Neural Artificial. As métricas utilizadas para avaliar o desempenho dos modelos foram acurácia, precisão e revocação. Os resultados experimentais mostraram o melhor desempenho do modelo de classificação utilizando Floresta Aleatória nas métricas de acurácia, precisão, revocação e F1 Score.Escola Politécnica de Pernambuco2023-12-28info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdftext/htmlhttp://revistas.poli.br/index.php/repa/article/view/277310.25286/repa.v9i1.2773Journal of Engineering and Applied Research; Vol 9 No 1 (2024): Edição Especial em Ciência de Dados e Analytics; 41-49Revista de Engenharia e Pesquisa Aplicada; v. 9 n. 1 (2024): Edição Especial em Ciência de Dados e Analytics; 41-492525-425110.25286/repa.v9i1reponame:Revista de Engenharia e Pesquisa Aplicadainstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEporhttp://revistas.poli.br/index.php/repa/article/view/2773/897http://revistas.poli.br/index.php/repa/article/view/2773/898Copyright (c) 2024 Noam Eyal Resnick, Carmelo José Albanez Bastos-Filhohttp://creativecommons.org/licenses/by-nc/4.0info:eu-repo/semantics/openAccessResnick, Noam EyalBastos-Filho, Carmelo José Albanez2023-12-30T10:15:41Zoai:ojs.poli.br:article/2773Revistahttp://revistas.poli.br/index.php/repaONGhttp://revistas.poli.br/index.php/repa/oai||repa@poli.br2525-42512525-4251opendoar:2023-12-30T10:15:41Revista de Engenharia e Pesquisa Aplicada - Universidade Federal de Pernambuco (UFPE)false |
dc.title.none.fl_str_mv |
Applying Machine Learning to Detect Phishing URLs Aplicação de Aprendizado de Máquinas para Detecção de URLs Phishing |
title |
Applying Machine Learning to Detect Phishing URLs |
spellingShingle |
Applying Machine Learning to Detect Phishing URLs Resnick, Noam Eyal |
title_short |
Applying Machine Learning to Detect Phishing URLs |
title_full |
Applying Machine Learning to Detect Phishing URLs |
title_fullStr |
Applying Machine Learning to Detect Phishing URLs |
title_full_unstemmed |
Applying Machine Learning to Detect Phishing URLs |
title_sort |
Applying Machine Learning to Detect Phishing URLs |
author |
Resnick, Noam Eyal |
author_facet |
Resnick, Noam Eyal Bastos-Filho, Carmelo José Albanez |
author_role |
author |
author2 |
Bastos-Filho, Carmelo José Albanez |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Resnick, Noam Eyal Bastos-Filho, Carmelo José Albanez |
description |
Ataques de phishing são um dos ciberataques mais comuns e difíceis de mitigar de forma automatizada. Nos últimos anos, foram propostas uma série de técnicas de detecção e mitigação automatizadas com sucessos variados. Devido ao grande volume de phishing criado diariamente e um tempo de vida médio baixo, é necessária uma técnica de classificação de phishing que consiga atuar de forma rápida e automática. Nesse projeto, propõe-se utilizar técnicas de aprendizado de máquina para realizar essa classificação. Foram coletados mais de 50.000 urls, com mais de 20.000 pertencentes a páginas web que continham um ataque phishing. A partir dessas urls, foi construído um conjunto de dados contendo 15 atributos para o treinamento, validação e testes de modelos de inteligência computacional. Foi realizado um trabalho em três etapas: construção do conjunto de dados, treino de modelos de classificação, e avaliação do desempenho dos modelos treinados. Foram treinados modelos de classificação utilizando os algoritmos Random Forest, XGBoost e Rede Neural Artificial. As métricas utilizadas para avaliar o desempenho dos modelos foram acurácia, precisão e revocação. Os resultados experimentais mostraram o melhor desempenho do modelo de classificação utilizando Floresta Aleatória nas métricas de acurácia, precisão, revocação e F1 Score. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-12-28 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://revistas.poli.br/index.php/repa/article/view/2773 10.25286/repa.v9i1.2773 |
url |
http://revistas.poli.br/index.php/repa/article/view/2773 |
identifier_str_mv |
10.25286/repa.v9i1.2773 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
http://revistas.poli.br/index.php/repa/article/view/2773/897 http://revistas.poli.br/index.php/repa/article/view/2773/898 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2024 Noam Eyal Resnick, Carmelo José Albanez Bastos-Filho http://creativecommons.org/licenses/by-nc/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2024 Noam Eyal Resnick, Carmelo José Albanez Bastos-Filho http://creativecommons.org/licenses/by-nc/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf text/html |
dc.publisher.none.fl_str_mv |
Escola Politécnica de Pernambuco |
publisher.none.fl_str_mv |
Escola Politécnica de Pernambuco |
dc.source.none.fl_str_mv |
Journal of Engineering and Applied Research; Vol 9 No 1 (2024): Edição Especial em Ciência de Dados e Analytics; 41-49 Revista de Engenharia e Pesquisa Aplicada; v. 9 n. 1 (2024): Edição Especial em Ciência de Dados e Analytics; 41-49 2525-4251 10.25286/repa.v9i1 reponame:Revista de Engenharia e Pesquisa Aplicada instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Revista de Engenharia e Pesquisa Aplicada |
collection |
Revista de Engenharia e Pesquisa Aplicada |
repository.name.fl_str_mv |
Revista de Engenharia e Pesquisa Aplicada - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
||repa@poli.br |
_version_ |
1798036000521322496 |