Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks

Detalhes bibliográficos
Autor(a) principal: Evangelista, João Rafael Gonçalves
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da Uninove
Texto Completo: http://bibliotecatede.uninove.br/handle/tede/2586
Resumo: To protect the information located on the Internet, the Information Security area has a process to test the security of web pages, called Intrusion Test or Pentest. In its initial phase, the test performs searches on Web pages to gather or obtain the maximum information available to support other phases of the process, or even, find some vulnerabilities. This phase is called Open Source Intelligence (OSINT). A practice for OSINT used in Pentest is Google Hacking, which works using strings called Dorks. Google Hacking can be performed in two ways: manual and automatic, and the first has a longer duration than the second. One way to improve Pentest performance is to make it automatic with the application of Artificial Intelligence (AI) techniques, such as Kohonen's Self-Organizing Maps (SOM), a type of artificial neural network used to generate clusters, and Natural Language Processing (PLN), a subarea of AI responsible for making computers able to interpret and develop content in human language. So, the objective of this work was to develop an Open Source Intelligence Approach with Kohonen's Self-Organizing Maps and Natural Language Processing for automatic execution of Dorks to improve the performance of the Google Hacking practice. The selected database was the Google Hacking Database (GHDB), containing 4,211 Dorks and 4 attributes. The approach proposed in this work was developed in 10 phases: preparing the environment to run OSINT, defining the OSINT scope, selecting the Dorks base, selecting and evaluating the OSINT tools, pre-processing the Dorks base, transforming the Dorks base, application of SOM in the Dorks base, analysis of results, addition of new information in the Dorks database and validation of the automatic execution of Dorks. The results obtained revealed a better performance of the proposed approach when automatically executing the Dorks base compared to manual execution. It was concluded, then, that Open Source Intelligence Approach with Kohonen's Self-Organizing Maps and Natural Language Processing can be applied in the automatic execution of Dorks.
id NOVE_15223bb083eeb88d35312bb3e0b9175f
oai_identifier_str oai:localhost:tede/2586
network_acronym_str NOVE
network_name_str Biblioteca Digital de Teses e Dissertações da Uninove
repository_id_str
spelling Sassi, Renato JoséSassi, Renato JoséChaves, Marcirio SilveiraNapolitano, Domingos Marcio RodriguesBelan, Peterson Adrianohttp://lattes.cnpq.br/2685037621033048Evangelista, João Rafael Gonçalves2021-10-05T15:36:19Z2020-06-29Evangelista, João Rafael Gonçalves. Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks. 2020. 153 f. Dissertação( Programa de Pós-Graduação em Informática e Gestão do Conhecimento) - Universidade Nove de Julho, São Paulo.http://bibliotecatede.uninove.br/handle/tede/2586To protect the information located on the Internet, the Information Security area has a process to test the security of web pages, called Intrusion Test or Pentest. In its initial phase, the test performs searches on Web pages to gather or obtain the maximum information available to support other phases of the process, or even, find some vulnerabilities. This phase is called Open Source Intelligence (OSINT). A practice for OSINT used in Pentest is Google Hacking, which works using strings called Dorks. Google Hacking can be performed in two ways: manual and automatic, and the first has a longer duration than the second. One way to improve Pentest performance is to make it automatic with the application of Artificial Intelligence (AI) techniques, such as Kohonen's Self-Organizing Maps (SOM), a type of artificial neural network used to generate clusters, and Natural Language Processing (PLN), a subarea of AI responsible for making computers able to interpret and develop content in human language. So, the objective of this work was to develop an Open Source Intelligence Approach with Kohonen's Self-Organizing Maps and Natural Language Processing for automatic execution of Dorks to improve the performance of the Google Hacking practice. The selected database was the Google Hacking Database (GHDB), containing 4,211 Dorks and 4 attributes. The approach proposed in this work was developed in 10 phases: preparing the environment to run OSINT, defining the OSINT scope, selecting the Dorks base, selecting and evaluating the OSINT tools, pre-processing the Dorks base, transforming the Dorks base, application of SOM in the Dorks base, analysis of results, addition of new information in the Dorks database and validation of the automatic execution of Dorks. The results obtained revealed a better performance of the proposed approach when automatically executing the Dorks base compared to manual execution. It was concluded, then, that Open Source Intelligence Approach with Kohonen's Self-Organizing Maps and Natural Language Processing can be applied in the automatic execution of Dorks.Para proteger as informações localizadas na internet, a área da Segurança da Informação dispõe de um processo para testar a segurança de páginas web, denominado Teste de Intrusão ou Pentest. Em sua fase inicial, o teste visa realizar buscas na internet a fim de reunir o máximo de informações disponíveis para apoiar as demais fases do processo e, até mesmo, já encontrar algumas vulnerabilidades. Essa fase inicial é chamada de Inteligência de Fontes Abertas, ou, em inglês, Open Source Intelligence (OSINT). Uma prática para OSINT utilizada em Pentest é o Google Hacking, que funciona aplicando strings denominadas Dorks. O Google Hacking pode ser executado de duas formas: manual e automática, sendo que a primeira possui um tempo de duração superior ao da segunda. Uma maneira de melhorar o desempenho do Pentest é torná-lo automático com a aplicação de técnicas de Inteligência Artificial (IA), como os Mapas Auto-Organizáveis (SOM) de Kohonen, um tipo de rede neural artificial utilizada para gerar agrupamentos, e o Processamento de Linguagem Natural (PLN), uma subárea da IA responsável por fazer com que os computadores interpretem e desenvolvam conteúdo em linguagem humana. Assim, o objetivo deste trabalho foi desenvolver uma abordagem de Inteligência de Fontes Abertas, por meio dos Mapas Auto-Organizáveis de Kohonen e do Processamento de Linguagem Natural, para execução automática de Dorks, a fim de melhorar o desempenho da prática do Google Hacking. A base de dados selecionada foi o Google Hacking Database (GHDB), contendo 4.211 Dorks e 4 atributos. A abordagem proposta neste trabalho foi desenvolvida em 10 fases: preparação do ambiente para executar o OSINT, definição do escopo de OSINT, seleção da base de Dorks, seleção e avaliação das ferramentas OSINT, pré-processamento da base de Dorks, transformação da base de Dorks, aplicação da rede SOM na base de Dorks, análise dos resultados, adição das novas informações na base de Dorks e validação da execução automática de Dorks. Os resultados obtidos apontaram um melhor desempenho da abordagem proposta quando executada automaticamente a base de Dorks comparada à execução manual. Desta forma, concluiu-se que a abordagem de Inteligência de Fontes Abertas, utilizando Mapas Auto-Organizáveis de Kohonen e Processamento de Linguagem Natural, pode ser aplicada na execução automática de Dorks.Submitted by Nadir Basilio (nadirsb@uninove.br) on 2021-10-05T15:36:19Z No. of bitstreams: 1 João Rafael Gonçalves Evangelista.pdf: 3820367 bytes, checksum: 910e29492d2b0c725d2086ede02c9b44 (MD5)Made available in DSpace on 2021-10-05T15:36:19Z (GMT). No. of bitstreams: 1 João Rafael Gonçalves Evangelista.pdf: 3820367 bytes, checksum: 910e29492d2b0c725d2086ede02c9b44 (MD5) Previous issue date: 2020-06-29application/pdfporUniversidade Nove de JulhoPrograma de Pós-Graduação em Informática e Gestão do ConhecimentoUNINOVEBrasilInformáticaOSINTinteligência de fontes abertasdorksprocessamento de linguagem naturalmapas auto-organizáveis de Kohonenpentest automáticoOSINTopen source intelligencedorksnatural language processingself-organizing mapsautomatic pentestCIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOAbordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorksOpen source intelligence approach with self-organizing maps of kohonen and natural language processing for automatic execution of dorksinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis8930092515683771531600info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da Uninoveinstname:Universidade Nove de Julho (UNINOVE)instacron:UNINOVEORIGINALJoão Rafael Gonçalves Evangelista.pdfJoão Rafael Gonçalves Evangelista.pdfapplication/pdf3820367http://localhost:8080/tede/bitstream/tede/2586/2/Jo%C3%A3o+Rafael+Gon%C3%A7alves+Evangelista.pdf910e29492d2b0c725d2086ede02c9b44MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://localhost:8080/tede/bitstream/tede/2586/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51tede/25862021-10-05 12:36:19.718oai:localhost:tede/2586Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bibliotecatede.uninove.br/PRIhttp://bibliotecatede.uninove.br/oai/requestbibliotecatede@uninove.br||bibliotecatede@uninove.bropendoar:2021-10-05T15:36:19Biblioteca Digital de Teses e Dissertações da Uninove - Universidade Nove de Julho (UNINOVE)false
dc.title.por.fl_str_mv Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks
dc.title.alternative.eng.fl_str_mv Open source intelligence approach with self-organizing maps of kohonen and natural language processing for automatic execution of dorks
title Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks
spellingShingle Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks
Evangelista, João Rafael Gonçalves
OSINT
inteligência de fontes abertas
dorks
processamento de linguagem natural
mapas auto-organizáveis de Kohonen
pentest automático
OSINT
open source intelligence
dorks
natural language processing
self-organizing maps
automatic pentest
CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
title_short Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks
title_full Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks
title_fullStr Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks
title_full_unstemmed Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks
title_sort Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks
author Evangelista, João Rafael Gonçalves
author_facet Evangelista, João Rafael Gonçalves
author_role author
dc.contributor.advisor1.fl_str_mv Sassi, Renato José
dc.contributor.referee1.fl_str_mv Sassi, Renato José
dc.contributor.referee2.fl_str_mv Chaves, Marcirio Silveira
dc.contributor.referee3.fl_str_mv Napolitano, Domingos Marcio Rodrigues
dc.contributor.referee4.fl_str_mv Belan, Peterson Adriano
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/2685037621033048
dc.contributor.author.fl_str_mv Evangelista, João Rafael Gonçalves
contributor_str_mv Sassi, Renato José
Sassi, Renato José
Chaves, Marcirio Silveira
Napolitano, Domingos Marcio Rodrigues
Belan, Peterson Adriano
dc.subject.por.fl_str_mv OSINT
inteligência de fontes abertas
dorks
processamento de linguagem natural
mapas auto-organizáveis de Kohonen
pentest automático
topic OSINT
inteligência de fontes abertas
dorks
processamento de linguagem natural
mapas auto-organizáveis de Kohonen
pentest automático
OSINT
open source intelligence
dorks
natural language processing
self-organizing maps
automatic pentest
CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
dc.subject.eng.fl_str_mv OSINT
open source intelligence
dorks
natural language processing
self-organizing maps
automatic pentest
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
description To protect the information located on the Internet, the Information Security area has a process to test the security of web pages, called Intrusion Test or Pentest. In its initial phase, the test performs searches on Web pages to gather or obtain the maximum information available to support other phases of the process, or even, find some vulnerabilities. This phase is called Open Source Intelligence (OSINT). A practice for OSINT used in Pentest is Google Hacking, which works using strings called Dorks. Google Hacking can be performed in two ways: manual and automatic, and the first has a longer duration than the second. One way to improve Pentest performance is to make it automatic with the application of Artificial Intelligence (AI) techniques, such as Kohonen's Self-Organizing Maps (SOM), a type of artificial neural network used to generate clusters, and Natural Language Processing (PLN), a subarea of AI responsible for making computers able to interpret and develop content in human language. So, the objective of this work was to develop an Open Source Intelligence Approach with Kohonen's Self-Organizing Maps and Natural Language Processing for automatic execution of Dorks to improve the performance of the Google Hacking practice. The selected database was the Google Hacking Database (GHDB), containing 4,211 Dorks and 4 attributes. The approach proposed in this work was developed in 10 phases: preparing the environment to run OSINT, defining the OSINT scope, selecting the Dorks base, selecting and evaluating the OSINT tools, pre-processing the Dorks base, transforming the Dorks base, application of SOM in the Dorks base, analysis of results, addition of new information in the Dorks database and validation of the automatic execution of Dorks. The results obtained revealed a better performance of the proposed approach when automatically executing the Dorks base compared to manual execution. It was concluded, then, that Open Source Intelligence Approach with Kohonen's Self-Organizing Maps and Natural Language Processing can be applied in the automatic execution of Dorks.
publishDate 2020
dc.date.issued.fl_str_mv 2020-06-29
dc.date.accessioned.fl_str_mv 2021-10-05T15:36:19Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Evangelista, João Rafael Gonçalves. Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks. 2020. 153 f. Dissertação( Programa de Pós-Graduação em Informática e Gestão do Conhecimento) - Universidade Nove de Julho, São Paulo.
dc.identifier.uri.fl_str_mv http://bibliotecatede.uninove.br/handle/tede/2586
identifier_str_mv Evangelista, João Rafael Gonçalves. Abordagem de inteligência de fontes abertas com mapas auto-organizáveis de kohonen e processamento de linguagem natural para execução automática de dorks. 2020. 153 f. Dissertação( Programa de Pós-Graduação em Informática e Gestão do Conhecimento) - Universidade Nove de Julho, São Paulo.
url http://bibliotecatede.uninove.br/handle/tede/2586
dc.language.iso.fl_str_mv por
language por
dc.relation.cnpq.fl_str_mv 8930092515683771531
dc.relation.confidence.fl_str_mv 600
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Nove de Julho
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Informática e Gestão do Conhecimento
dc.publisher.initials.fl_str_mv UNINOVE
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Informática
publisher.none.fl_str_mv Universidade Nove de Julho
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Uninove
instname:Universidade Nove de Julho (UNINOVE)
instacron:UNINOVE
instname_str Universidade Nove de Julho (UNINOVE)
instacron_str UNINOVE
institution UNINOVE
reponame_str Biblioteca Digital de Teses e Dissertações da Uninove
collection Biblioteca Digital de Teses e Dissertações da Uninove
bitstream.url.fl_str_mv http://localhost:8080/tede/bitstream/tede/2586/2/Jo%C3%A3o+Rafael+Gon%C3%A7alves+Evangelista.pdf
http://localhost:8080/tede/bitstream/tede/2586/1/license.txt
bitstream.checksum.fl_str_mv 910e29492d2b0c725d2086ede02c9b44
bd3efa91386c1718a7f26a329fdcb468
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Uninove - Universidade Nove de Julho (UNINOVE)
repository.mail.fl_str_mv bibliotecatede@uninove.br||bibliotecatede@uninove.br
_version_ 1811016882983010304