Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost

Detalhes bibliográficos
Autor(a) principal: Silveira, Marcos Rogério
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/202882
Resumo: Este trabalho apresenta um método para detecção de domínios maliciosos por meio do tráfego de DNS passivo. Para tanto, a abordagem utilizada é um dataset de DNS passivo como fonte de dados para a tarefa de classificação dos domínios entre maliciosos e legítimos. A partir deste dataset, são extraídas doze features exclusivas do tráfego DNS. Os registros presentes no dataset DNS passivo são rotulados utilizando allowlists e blocklists de nomes de domínios e IPs. Para balanceamento das classes, foi utilizado a técnica de Random Undersampling. Na etapa de treinamento, foram utilizados e comparados o desempenho dos três algoritmos de aprendizado de máquina supervisionado baseados em árvores de decisão. Os modelos foram testados considerando suas capacidades de identificar domínios maliciosos, o modelo com melhor desempenho foi o que utilizou o algoritmo XGBoost, com uma AUC média de 0,9776 e sem indicativos de overfitting presente.
id UNSP_499f3a0c5613b7c1dbb64dadee48c58e
oai_identifier_str oai:repositorio.unesp.br:11449/202882
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoostDetection of malicious domains using passive DNS using XGBoostDomain name systemMachine learningMalicious domainPassive DNSDomínios maliciososDNS passivoEste trabalho apresenta um método para detecção de domínios maliciosos por meio do tráfego de DNS passivo. Para tanto, a abordagem utilizada é um dataset de DNS passivo como fonte de dados para a tarefa de classificação dos domínios entre maliciosos e legítimos. A partir deste dataset, são extraídas doze features exclusivas do tráfego DNS. Os registros presentes no dataset DNS passivo são rotulados utilizando allowlists e blocklists de nomes de domínios e IPs. Para balanceamento das classes, foi utilizado a técnica de Random Undersampling. Na etapa de treinamento, foram utilizados e comparados o desempenho dos três algoritmos de aprendizado de máquina supervisionado baseados em árvores de decisão. Os modelos foram testados considerando suas capacidades de identificar domínios maliciosos, o modelo com melhor desempenho foi o que utilizou o algoritmo XGBoost, com uma AUC média de 0,9776 e sem indicativos de overfitting presente.This paper presents a method for detecting malicious domains through passive DNS traffic. For this, the approach used is a passive DNS dataset as a data source for the task of classifying the domains between malicious and legitimate. From this dataset, twelve exclusive features of DNS traffic are extracted. The records present in the passive DNS dataset are labeled using allowlists and blocklists of domain names and IPs. To balance the classes, the Random Undersampling technique was used. In the training stage, the performance of the three supervised machine learning algorithms based on decision trees was used and compared. The models were tested considering their ability to identify malicious domains, the model with the best performance was the one that used the XGBoost algorithm, with an average AUC of 0.9776 and with no indications of overfitting present.OutraNIC.br: 2764/2018Universidade Estadual Paulista (Unesp)Cansian, Adriano Mauro [UNESP]Universidade Estadual Paulista (Unesp)Silveira, Marcos Rogério2021-03-09T18:37:02Z2021-03-09T18:37:02Z2021-01-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/20288233004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-01-17T06:30:07Zoai:repositorio.unesp.br:11449/202882Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-01-17T06:30:07Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost
Detection of malicious domains using passive DNS using XGBoost
title Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost
spellingShingle Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost
Silveira, Marcos Rogério
Domain name system
Machine learning
Malicious domain
Passive DNS
Domínios maliciosos
DNS passivo
title_short Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost
title_full Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost
title_fullStr Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost
title_full_unstemmed Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost
title_sort Detecção de domínios maliciosos por meio de DNS passivo utilizando XGBoost
author Silveira, Marcos Rogério
author_facet Silveira, Marcos Rogério
author_role author
dc.contributor.none.fl_str_mv Cansian, Adriano Mauro [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Silveira, Marcos Rogério
dc.subject.por.fl_str_mv Domain name system
Machine learning
Malicious domain
Passive DNS
Domínios maliciosos
DNS passivo
topic Domain name system
Machine learning
Malicious domain
Passive DNS
Domínios maliciosos
DNS passivo
description Este trabalho apresenta um método para detecção de domínios maliciosos por meio do tráfego de DNS passivo. Para tanto, a abordagem utilizada é um dataset de DNS passivo como fonte de dados para a tarefa de classificação dos domínios entre maliciosos e legítimos. A partir deste dataset, são extraídas doze features exclusivas do tráfego DNS. Os registros presentes no dataset DNS passivo são rotulados utilizando allowlists e blocklists de nomes de domínios e IPs. Para balanceamento das classes, foi utilizado a técnica de Random Undersampling. Na etapa de treinamento, foram utilizados e comparados o desempenho dos três algoritmos de aprendizado de máquina supervisionado baseados em árvores de decisão. Os modelos foram testados considerando suas capacidades de identificar domínios maliciosos, o modelo com melhor desempenho foi o que utilizou o algoritmo XGBoost, com uma AUC média de 0,9776 e sem indicativos de overfitting presente.
publishDate 2021
dc.date.none.fl_str_mv 2021-03-09T18:37:02Z
2021-03-09T18:37:02Z
2021-01-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/202882
33004153073P2
url http://hdl.handle.net/11449/202882
identifier_str_mv 33004153073P2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1803047361252950016