Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina

Detalhes bibliográficos
Autor(a) principal: Silva, João Vitor Valle
Data de Publicação: 2020
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: https://app.uff.br/riuff/handle/1/16224
Resumo: Abordagens baseadas em anomalia para detectar intrusões em redes carecem de avaliações precisas, comparações e aplicações devido à escassez de conjuntos de dados adequados. Consequentemente, pesquisadores recorrem a conjuntos de dados defeituosos que não possuem relação com dados de redes reais nem fornecem conhecimento sobre problemas relacionados a redes, tais como o DARPA 1998 e suas variantes KDD-99 e NSL-KDD 99. Este trabalho propõe um estudo estatístico sobre as variáveis do conjunto de dados NSL- KDD e conclui que tanto o NSL-KDD 99 quanto o KDD-99 não são adequados para serem utilizados como parâmetro de comparação para criação de novos Sistemas de Detecção de Intrusões. Esses conjuntos de dados introduzem viés nos modelos classificatórios, dado que as variáveis estão altamente correlacionadas entre si e com a classe alvo. A abordagem proposta analisa a correlação entre as variáveis do conjunto ao invés de buscar por valores redundantes ou desbalanceamento dos dados. Os resultados são suportados por cinco técnicas de aprendizado de máquina treinadas para discriminar ataques de tráfego normal. Os resultados mostram que classificação enviesada ocorre, pois existe uma alta correlação entre as variáveis e a classe-alvo
id UFF-2_a781319b1b810c76a2b38f5140e36524
oai_identifier_str oai:app.uff.br:1/16224
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquinaSistemas de detecção de intrusãoAprendizado de máquinaKDD-99TelecomunicaçãoSegurança de dados on-lineAprendizado de máquinaAnálise estatísticaNetwork securityIntrusion detection systemsMachine learningAbordagens baseadas em anomalia para detectar intrusões em redes carecem de avaliações precisas, comparações e aplicações devido à escassez de conjuntos de dados adequados. Consequentemente, pesquisadores recorrem a conjuntos de dados defeituosos que não possuem relação com dados de redes reais nem fornecem conhecimento sobre problemas relacionados a redes, tais como o DARPA 1998 e suas variantes KDD-99 e NSL-KDD 99. Este trabalho propõe um estudo estatístico sobre as variáveis do conjunto de dados NSL- KDD e conclui que tanto o NSL-KDD 99 quanto o KDD-99 não são adequados para serem utilizados como parâmetro de comparação para criação de novos Sistemas de Detecção de Intrusões. Esses conjuntos de dados introduzem viés nos modelos classificatórios, dado que as variáveis estão altamente correlacionadas entre si e com a classe alvo. A abordagem proposta analisa a correlação entre as variáveis do conjunto ao invés de buscar por valores redundantes ou desbalanceamento dos dados. Os resultados são suportados por cinco técnicas de aprendizado de máquina treinadas para discriminar ataques de tráfego normal. Os resultados mostram que classificação enviesada ocorre, pois existe uma alta correlação entre as variáveis e a classe-alvoAnomaly-based approaches for detecting network intrusions suffer from accurate evaluation, comparison, and deployment due to the scarcity of adequate datasets. Consequently, researchers resort to suboptimal datasets that no longer relate to a real-world network nor provide insights for current network issues, such as the DARPA’98 dataset and its variants KDD-99 and NSL-KDD 99. In this work, we propose a statistical study over the NSL-KDD 99 features, and we conclude that NSL-KDD 99 and the old KDD-99 should not be used as a benchmark for creating novel anomaly-based approaches intrusion detection systems because they introduce a biased classification, since features are higly correlated. The proposed approach analyzes the correlation among features instead of checking for redundant values or the imbalance of data. Our results are paired with the performance of five machine learning techniques trained to discriminate attack from normal traffic. We show that biased classification occurs because there was a high correlation between features and classesUniversidade Federal FluminenseNiterói, RJMattos, Diogo Menezes FerrazaniMedeiros, Dianne Scherly Varela deMoraes, Igor MonteiroSilva, João Vitor Valle2020-12-08T13:24:30Z2020-12-08T13:24:30Z2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSILVA, João Vitor Valle. Análise estatística sobre o conjunto de dados KDD-99 para o desenvolvimento de sistemas de segurança de rede usando aprendizado de máquina. 2020. 68f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Telecomunicações) - Universidade Federal Fluminense, 2020.https://app.uff.br/riuff/handle/1/16224Aluno de Graduaçãohttp://creativecommons.org/licenses/by-nc-nd/3.0/br/CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2022-05-17T18:18:08Zoai:app.uff.br:1/16224Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202022-05-17T18:18:08Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina
title Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina
spellingShingle Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina
Silva, João Vitor Valle
Sistemas de detecção de intrusão
Aprendizado de máquina
KDD-99
Telecomunicação
Segurança de dados on-line
Aprendizado de máquina
Análise estatística
Network security
Intrusion detection systems
Machine learning
title_short Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina
title_full Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina
title_fullStr Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina
title_full_unstemmed Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina
title_sort Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina
author Silva, João Vitor Valle
author_facet Silva, João Vitor Valle
author_role author
dc.contributor.none.fl_str_mv Mattos, Diogo Menezes Ferrazani
Medeiros, Dianne Scherly Varela de
Moraes, Igor Monteiro
dc.contributor.author.fl_str_mv Silva, João Vitor Valle
dc.subject.por.fl_str_mv Sistemas de detecção de intrusão
Aprendizado de máquina
KDD-99
Telecomunicação
Segurança de dados on-line
Aprendizado de máquina
Análise estatística
Network security
Intrusion detection systems
Machine learning
topic Sistemas de detecção de intrusão
Aprendizado de máquina
KDD-99
Telecomunicação
Segurança de dados on-line
Aprendizado de máquina
Análise estatística
Network security
Intrusion detection systems
Machine learning
description Abordagens baseadas em anomalia para detectar intrusões em redes carecem de avaliações precisas, comparações e aplicações devido à escassez de conjuntos de dados adequados. Consequentemente, pesquisadores recorrem a conjuntos de dados defeituosos que não possuem relação com dados de redes reais nem fornecem conhecimento sobre problemas relacionados a redes, tais como o DARPA 1998 e suas variantes KDD-99 e NSL-KDD 99. Este trabalho propõe um estudo estatístico sobre as variáveis do conjunto de dados NSL- KDD e conclui que tanto o NSL-KDD 99 quanto o KDD-99 não são adequados para serem utilizados como parâmetro de comparação para criação de novos Sistemas de Detecção de Intrusões. Esses conjuntos de dados introduzem viés nos modelos classificatórios, dado que as variáveis estão altamente correlacionadas entre si e com a classe alvo. A abordagem proposta analisa a correlação entre as variáveis do conjunto ao invés de buscar por valores redundantes ou desbalanceamento dos dados. Os resultados são suportados por cinco técnicas de aprendizado de máquina treinadas para discriminar ataques de tráfego normal. Os resultados mostram que classificação enviesada ocorre, pois existe uma alta correlação entre as variáveis e a classe-alvo
publishDate 2020
dc.date.none.fl_str_mv 2020-12-08T13:24:30Z
2020-12-08T13:24:30Z
2020
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SILVA, João Vitor Valle. Análise estatística sobre o conjunto de dados KDD-99 para o desenvolvimento de sistemas de segurança de rede usando aprendizado de máquina. 2020. 68f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Telecomunicações) - Universidade Federal Fluminense, 2020.
https://app.uff.br/riuff/handle/1/16224
Aluno de Graduação
identifier_str_mv SILVA, João Vitor Valle. Análise estatística sobre o conjunto de dados KDD-99 para o desenvolvimento de sistemas de segurança de rede usando aprendizado de máquina. 2020. 68f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Telecomunicações) - Universidade Federal Fluminense, 2020.
Aluno de Graduação
url https://app.uff.br/riuff/handle/1/16224
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal Fluminense
Niterói, RJ
publisher.none.fl_str_mv Universidade Federal Fluminense
Niterói, RJ
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1802135462001770496