Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | https://app.uff.br/riuff/handle/1/16224 |
Resumo: | Abordagens baseadas em anomalia para detectar intrusões em redes carecem de avaliações precisas, comparações e aplicações devido à escassez de conjuntos de dados adequados. Consequentemente, pesquisadores recorrem a conjuntos de dados defeituosos que não possuem relação com dados de redes reais nem fornecem conhecimento sobre problemas relacionados a redes, tais como o DARPA 1998 e suas variantes KDD-99 e NSL-KDD 99. Este trabalho propõe um estudo estatístico sobre as variáveis do conjunto de dados NSL- KDD e conclui que tanto o NSL-KDD 99 quanto o KDD-99 não são adequados para serem utilizados como parâmetro de comparação para criação de novos Sistemas de Detecção de Intrusões. Esses conjuntos de dados introduzem viés nos modelos classificatórios, dado que as variáveis estão altamente correlacionadas entre si e com a classe alvo. A abordagem proposta analisa a correlação entre as variáveis do conjunto ao invés de buscar por valores redundantes ou desbalanceamento dos dados. Os resultados são suportados por cinco técnicas de aprendizado de máquina treinadas para discriminar ataques de tráfego normal. Os resultados mostram que classificação enviesada ocorre, pois existe uma alta correlação entre as variáveis e a classe-alvo |
id |
UFF-2_a781319b1b810c76a2b38f5140e36524 |
---|---|
oai_identifier_str |
oai:app.uff.br:1/16224 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquinaSistemas de detecção de intrusãoAprendizado de máquinaKDD-99TelecomunicaçãoSegurança de dados on-lineAprendizado de máquinaAnálise estatísticaNetwork securityIntrusion detection systemsMachine learningAbordagens baseadas em anomalia para detectar intrusões em redes carecem de avaliações precisas, comparações e aplicações devido à escassez de conjuntos de dados adequados. Consequentemente, pesquisadores recorrem a conjuntos de dados defeituosos que não possuem relação com dados de redes reais nem fornecem conhecimento sobre problemas relacionados a redes, tais como o DARPA 1998 e suas variantes KDD-99 e NSL-KDD 99. Este trabalho propõe um estudo estatístico sobre as variáveis do conjunto de dados NSL- KDD e conclui que tanto o NSL-KDD 99 quanto o KDD-99 não são adequados para serem utilizados como parâmetro de comparação para criação de novos Sistemas de Detecção de Intrusões. Esses conjuntos de dados introduzem viés nos modelos classificatórios, dado que as variáveis estão altamente correlacionadas entre si e com a classe alvo. A abordagem proposta analisa a correlação entre as variáveis do conjunto ao invés de buscar por valores redundantes ou desbalanceamento dos dados. Os resultados são suportados por cinco técnicas de aprendizado de máquina treinadas para discriminar ataques de tráfego normal. Os resultados mostram que classificação enviesada ocorre, pois existe uma alta correlação entre as variáveis e a classe-alvoAnomaly-based approaches for detecting network intrusions suffer from accurate evaluation, comparison, and deployment due to the scarcity of adequate datasets. Consequently, researchers resort to suboptimal datasets that no longer relate to a real-world network nor provide insights for current network issues, such as the DARPA’98 dataset and its variants KDD-99 and NSL-KDD 99. In this work, we propose a statistical study over the NSL-KDD 99 features, and we conclude that NSL-KDD 99 and the old KDD-99 should not be used as a benchmark for creating novel anomaly-based approaches intrusion detection systems because they introduce a biased classification, since features are higly correlated. The proposed approach analyzes the correlation among features instead of checking for redundant values or the imbalance of data. Our results are paired with the performance of five machine learning techniques trained to discriminate attack from normal traffic. We show that biased classification occurs because there was a high correlation between features and classesUniversidade Federal FluminenseNiterói, RJMattos, Diogo Menezes FerrazaniMedeiros, Dianne Scherly Varela deMoraes, Igor MonteiroSilva, João Vitor Valle2020-12-08T13:24:30Z2020-12-08T13:24:30Z2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSILVA, João Vitor Valle. Análise estatística sobre o conjunto de dados KDD-99 para o desenvolvimento de sistemas de segurança de rede usando aprendizado de máquina. 2020. 68f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Telecomunicações) - Universidade Federal Fluminense, 2020.https://app.uff.br/riuff/handle/1/16224Aluno de Graduaçãohttp://creativecommons.org/licenses/by-nc-nd/3.0/br/CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2022-05-17T18:18:08Zoai:app.uff.br:1/16224Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T11:16:29.445175Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina |
title |
Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina |
spellingShingle |
Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina Silva, João Vitor Valle Sistemas de detecção de intrusão Aprendizado de máquina KDD-99 Telecomunicação Segurança de dados on-line Aprendizado de máquina Análise estatística Network security Intrusion detection systems Machine learning |
title_short |
Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina |
title_full |
Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina |
title_fullStr |
Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina |
title_full_unstemmed |
Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina |
title_sort |
Análise estatística sobre o conjunto de dados de segurança de redes KDD-99 para o desenvolvimento de um sistema de segurança usando aprendizado de máquina |
author |
Silva, João Vitor Valle |
author_facet |
Silva, João Vitor Valle |
author_role |
author |
dc.contributor.none.fl_str_mv |
Mattos, Diogo Menezes Ferrazani Medeiros, Dianne Scherly Varela de Moraes, Igor Monteiro |
dc.contributor.author.fl_str_mv |
Silva, João Vitor Valle |
dc.subject.por.fl_str_mv |
Sistemas de detecção de intrusão Aprendizado de máquina KDD-99 Telecomunicação Segurança de dados on-line Aprendizado de máquina Análise estatística Network security Intrusion detection systems Machine learning |
topic |
Sistemas de detecção de intrusão Aprendizado de máquina KDD-99 Telecomunicação Segurança de dados on-line Aprendizado de máquina Análise estatística Network security Intrusion detection systems Machine learning |
description |
Abordagens baseadas em anomalia para detectar intrusões em redes carecem de avaliações precisas, comparações e aplicações devido à escassez de conjuntos de dados adequados. Consequentemente, pesquisadores recorrem a conjuntos de dados defeituosos que não possuem relação com dados de redes reais nem fornecem conhecimento sobre problemas relacionados a redes, tais como o DARPA 1998 e suas variantes KDD-99 e NSL-KDD 99. Este trabalho propõe um estudo estatístico sobre as variáveis do conjunto de dados NSL- KDD e conclui que tanto o NSL-KDD 99 quanto o KDD-99 não são adequados para serem utilizados como parâmetro de comparação para criação de novos Sistemas de Detecção de Intrusões. Esses conjuntos de dados introduzem viés nos modelos classificatórios, dado que as variáveis estão altamente correlacionadas entre si e com a classe alvo. A abordagem proposta analisa a correlação entre as variáveis do conjunto ao invés de buscar por valores redundantes ou desbalanceamento dos dados. Os resultados são suportados por cinco técnicas de aprendizado de máquina treinadas para discriminar ataques de tráfego normal. Os resultados mostram que classificação enviesada ocorre, pois existe uma alta correlação entre as variáveis e a classe-alvo |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-12-08T13:24:30Z 2020-12-08T13:24:30Z 2020 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
SILVA, João Vitor Valle. Análise estatística sobre o conjunto de dados KDD-99 para o desenvolvimento de sistemas de segurança de rede usando aprendizado de máquina. 2020. 68f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Telecomunicações) - Universidade Federal Fluminense, 2020. https://app.uff.br/riuff/handle/1/16224 Aluno de Graduação |
identifier_str_mv |
SILVA, João Vitor Valle. Análise estatística sobre o conjunto de dados KDD-99 para o desenvolvimento de sistemas de segurança de rede usando aprendizado de máquina. 2020. 68f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Telecomunicações) - Universidade Federal Fluminense, 2020. Aluno de Graduação |
url |
https://app.uff.br/riuff/handle/1/16224 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/br/ CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal Fluminense Niterói, RJ |
publisher.none.fl_str_mv |
Universidade Federal Fluminense Niterói, RJ |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1811823708935815168 |