Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | http://hdl.handle.net/11449/202882 |
Resumo: | Este trabalho apresenta um método para detecção de domínios maliciosos por meio do tráfego de DNS passivo. Para tanto, a abordagem utilizada é um dataset de DNS passivo como fonte de dados para a tarefa de classificação dos domínios entre maliciosos e legítimos. A partir deste dataset, são extraídas doze features exclusivas do tráfego DNS. Os registros presentes no dataset DNS passivo são rotulados utilizando allowlists e blocklists de nomes de domínios e IPs. Para balanceamento das classes, foi utilizado a técnica de Random Undersampling. Na etapa de treinamento, foram utilizados e comparados o desempenho dos três algoritmos de aprendizado de máquina supervisionado baseados em árvores de decisão. Os modelos foram testados considerando suas capacidades de identificar domínios maliciosos, o modelo com melhor desempenho foi o que utilizou o algoritmo XGBoost, com uma AUC média de 0,9776 e sem indicativos de overfitting presente. |
id |
UNSP_499f3a0c5613b7c1dbb64dadee48c58e |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/202882 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoostDetection of malicious domains using passive DNS using XGBoostDomain name systemMachine learningMalicious domainPassive DNSDomínios maliciososDNS passivoEste trabalho apresenta um método para detecção de domínios maliciosos por meio do tráfego de DNS passivo. Para tanto, a abordagem utilizada é um dataset de DNS passivo como fonte de dados para a tarefa de classificação dos domínios entre maliciosos e legítimos. A partir deste dataset, são extraídas doze features exclusivas do tráfego DNS. Os registros presentes no dataset DNS passivo são rotulados utilizando allowlists e blocklists de nomes de domínios e IPs. Para balanceamento das classes, foi utilizado a técnica de Random Undersampling. Na etapa de treinamento, foram utilizados e comparados o desempenho dos três algoritmos de aprendizado de máquina supervisionado baseados em árvores de decisão. Os modelos foram testados considerando suas capacidades de identificar domínios maliciosos, o modelo com melhor desempenho foi o que utilizou o algoritmo XGBoost, com uma AUC média de 0,9776 e sem indicativos de overfitting presente.This paper presents a method for detecting malicious domains through passive DNS traffic. For this, the approach used is a passive DNS dataset as a data source for the task of classifying the domains between malicious and legitimate. From this dataset, twelve exclusive features of DNS traffic are extracted. The records present in the passive DNS dataset are labeled using allowlists and blocklists of domain names and IPs. To balance the classes, the Random Undersampling technique was used. In the training stage, the performance of the three supervised machine learning algorithms based on decision trees was used and compared. The models were tested considering their ability to identify malicious domains, the model with the best performance was the one that used the XGBoost algorithm, with an average AUC of 0.9776 and with no indications of overfitting present.OutraNIC.br: 2764/2018Universidade Estadual Paulista (Unesp)Cansian, Adriano Mauro [UNESP]Universidade Estadual Paulista (Unesp)Silveira, Marcos Rogério2021-03-09T18:37:02Z2021-03-09T18:37:02Z2021-01-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/20288233004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-01-17T06:30:07Zoai:repositorio.unesp.br:11449/202882Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T23:18:37.367193Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost Detection of malicious domains using passive DNS using XGBoost |
title |
Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost |
spellingShingle |
Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost Silveira, Marcos Rogério Domain name system Machine learning Malicious domain Passive DNS Domínios maliciosos DNS passivo |
title_short |
Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost |
title_full |
Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost |
title_fullStr |
Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost |
title_full_unstemmed |
Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost |
title_sort |
Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost |
author |
Silveira, Marcos Rogério |
author_facet |
Silveira, Marcos Rogério |
author_role |
author |
dc.contributor.none.fl_str_mv |
Cansian, Adriano Mauro [UNESP] Universidade Estadual Paulista (Unesp) |
dc.contributor.author.fl_str_mv |
Silveira, Marcos Rogério |
dc.subject.por.fl_str_mv |
Domain name system Machine learning Malicious domain Passive DNS Domínios maliciosos DNS passivo |
topic |
Domain name system Machine learning Malicious domain Passive DNS Domínios maliciosos DNS passivo |
description |
Este trabalho apresenta um método para detecção de domínios maliciosos por meio do tráfego de DNS passivo. Para tanto, a abordagem utilizada é um dataset de DNS passivo como fonte de dados para a tarefa de classificação dos domínios entre maliciosos e legítimos. A partir deste dataset, são extraídas doze features exclusivas do tráfego DNS. Os registros presentes no dataset DNS passivo são rotulados utilizando allowlists e blocklists de nomes de domínios e IPs. Para balanceamento das classes, foi utilizado a técnica de Random Undersampling. Na etapa de treinamento, foram utilizados e comparados o desempenho dos três algoritmos de aprendizado de máquina supervisionado baseados em árvores de decisão. Os modelos foram testados considerando suas capacidades de identificar domínios maliciosos, o modelo com melhor desempenho foi o que utilizou o algoritmo XGBoost, com uma AUC média de 0,9776 e sem indicativos de overfitting presente. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-03-09T18:37:02Z 2021-03-09T18:37:02Z 2021-01-19 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11449/202882 33004153073P2 |
url |
http://hdl.handle.net/11449/202882 |
identifier_str_mv |
33004153073P2 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808129506008891392 |