Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet

Detalhes bibliográficos
Autor(a) principal: Almeida, Lucas Coelho de
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio2.unb.br/jspui/handle/10482/46510
Resumo: A digitalização das relações e da informação têm aumentado a capacidade do ser humano de produzir dados de forma exponencial. Contudo, na mesma taxa em que novos dados são criados, é cada vez mais necessário também compreender e garimpar grandes bases de dados, inclusive sem qualquer estrutura ou formatação e com propósitos diversos. Nesse contexto, o uso de técnicas de indexação de dados usando motores de busca (do inglês Search Engines) e de interpretação de conjuntos de dados com o objetivo de classificá-los e categorizá-los se mostra indispensável para cenários de Big Data e Data Lake, em que a informação pode vir de diversas fontes com características técnicas e semânticas diferentes, exigindo classificações multi-classe e técnicas de processamento de linguagem natural, comumente designadas por técnicas de NLP (do inglês Natural Language Processing). Adicionalmente, é preciso entender se as ferramentas de classificação têm viés e se os resultados são úteis e condizentes com o esperado, especialmente em contextos de investigação de crimes digitais. Esse é o problema da transparência da tomada de decisão, ou seja, da clara e/ou legível representação dos parâmetros que levaram a máquina a uma determinada decisão/classificação. Um sistema de investigação ideal, portanto, deveria ser capaz de indexar grandes bases de dados, entender a semântica e ser passível de adaptação/aprendizagem para atuar em diferentes cenários, e ao final do processo, ainda fornecer resultados enriquecidos com os parâmetros que levaram a máquina a tomar determinadas decisões para posterior auditoria da transparência no processo. Portanto, esta dissertação tem como objetivo propor uma arquitetura fim a fim de um motor de busca que indexe e use interpretações metasemânticas baseadas em técnicas de processamento de linguagem natural em dados oriundos de páginas Web, de forma a prover, também, exemplos de parâmetros similares às classificações derivadas das amostras. O prefixo ”meta” no termo ”metasemântica” se refere a um conjunto de técnicas de classificação, predição e enriquecimento de dados aplicados para emular o processo de indexação semântica, porém preservando a auditabilidade do processo. Para efeito de validação da proposta, foram criadas amostras de páginas Web e utilizou-se bases de dados oficiais para treinamentos de instâncias de aprendizado de máquina para simulação de contextos reais de aplicação do projeto. Como resultado, a validação mostra como o motor de busca proposto permite o armazenamento e processamento de dados sem formatação originários de páginas Web e aumenta a velocidade e objetividade com que investigações passam a ser realizadas e auditadas em contextos de processamento de linguagem natural, especialmente relevantes para contextos de crimes digitais.
id UNB_65aacd0bab94d3f45b125210169ddb24
oai_identifier_str oai:repositorio2.unb.br:10482/46510
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Almeida, Lucas Coelho deSousa Júnior, Rafael Timóteo deMendonça, Fábio Lúcio Lopes de2023-09-19T20:14:28Z2023-09-19T20:14:28Z2023-09-192022-12-16ALMEIDA, Lucas Coelho de. Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet. 2022. xii, 114 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2022.http://repositorio2.unb.br/jspui/handle/10482/46510A digitalização das relações e da informação têm aumentado a capacidade do ser humano de produzir dados de forma exponencial. Contudo, na mesma taxa em que novos dados são criados, é cada vez mais necessário também compreender e garimpar grandes bases de dados, inclusive sem qualquer estrutura ou formatação e com propósitos diversos. Nesse contexto, o uso de técnicas de indexação de dados usando motores de busca (do inglês Search Engines) e de interpretação de conjuntos de dados com o objetivo de classificá-los e categorizá-los se mostra indispensável para cenários de Big Data e Data Lake, em que a informação pode vir de diversas fontes com características técnicas e semânticas diferentes, exigindo classificações multi-classe e técnicas de processamento de linguagem natural, comumente designadas por técnicas de NLP (do inglês Natural Language Processing). Adicionalmente, é preciso entender se as ferramentas de classificação têm viés e se os resultados são úteis e condizentes com o esperado, especialmente em contextos de investigação de crimes digitais. Esse é o problema da transparência da tomada de decisão, ou seja, da clara e/ou legível representação dos parâmetros que levaram a máquina a uma determinada decisão/classificação. Um sistema de investigação ideal, portanto, deveria ser capaz de indexar grandes bases de dados, entender a semântica e ser passível de adaptação/aprendizagem para atuar em diferentes cenários, e ao final do processo, ainda fornecer resultados enriquecidos com os parâmetros que levaram a máquina a tomar determinadas decisões para posterior auditoria da transparência no processo. Portanto, esta dissertação tem como objetivo propor uma arquitetura fim a fim de um motor de busca que indexe e use interpretações metasemânticas baseadas em técnicas de processamento de linguagem natural em dados oriundos de páginas Web, de forma a prover, também, exemplos de parâmetros similares às classificações derivadas das amostras. O prefixo ”meta” no termo ”metasemântica” se refere a um conjunto de técnicas de classificação, predição e enriquecimento de dados aplicados para emular o processo de indexação semântica, porém preservando a auditabilidade do processo. Para efeito de validação da proposta, foram criadas amostras de páginas Web e utilizou-se bases de dados oficiais para treinamentos de instâncias de aprendizado de máquina para simulação de contextos reais de aplicação do projeto. Como resultado, a validação mostra como o motor de busca proposto permite o armazenamento e processamento de dados sem formatação originários de páginas Web e aumenta a velocidade e objetividade com que investigações passam a ser realizadas e auditadas em contextos de processamento de linguagem natural, especialmente relevantes para contextos de crimes digitais.The digitization of relationships and information has increased human beings’ ability to produce data exponentially. However, at the same rate at which new data is created, it is increasingly ne cessary to understand and mine large databases, even without any structure or formatting and with different purposes. In this context, the use of data indexing techniques using search engines and the interpretation of datasets with the aim of classifying and categorizing them proves to be in dispensable for scenarios of Big Data and Data Lake, where information can come from different sources with different technical and semantic characteristics, requiring multi-class classifications and natural language processing techniques, commonly known as NLP techniques, called Natural Language Processing techniques. Additionally, it is necessary to understand whether the classification tools are biased and whether the results are useful and consistent with expectations, especially in cybercrime inves tigation contexts. This is the problem of decision-making transparency, that is, the clear and/or legible representation of the parameters that led the machine to a certain decision/classification. An ideal research system, therefore, should be able to index large databases, understand the se mantics and be subject to adaptation/learning to act in different scenarios, and at the end of the process, still provide results enriched with the parameters that led to machine to make certain decisions for subsequent auditing of transparency in the process. Therefore, this dissertation aims to propose an end-to-end architecture of a search engine that indexes and uses metasemantic interpretations based on natural language processing techniques on data from Web pages, in order to also provide examples of parameters similar to the classifi cations derived from the samples. The ”meta” prefix in the term ”metasemantics” refers to a set of classification, prediction and data enrichment techniques applied to emulate the semantic in dexing process, while preserving the auditability of the process. For the purpose of validating the proposal, samples of Web pages were created and official databases were used to train instances of machine learning to simulate real contexts of application of the project. As a result, the validation shows how the proposed search engine allows the storage and processing of plain data originating from Web pages and increases the speed and objectivity with which investigations are carried out and audited in language processing contexts natural, especially relevant to cybercrime contexts.Faculdade de Tecnologia (FT)Departamento de Engenharia Elétrica (FT ENE)Programa de Pós-Graduação em Engenharia Elétrica, Mestrado ProfissionalporProposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internetProposal for a metasemantic search engine as a tool for investigating data obtained via the internetinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisDissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2022.Ferramentas de busca na WebProcessamento de linguagem natural (Computação)Recuperação de dados (Computação)Análise de dadosinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNBORIGINAL2022_LucasCoelhodeAlmeida.pdf2022_LucasCoelhodeAlmeida.pdfapplication/pdf2393381http://repositorio2.unb.br/jspui/bitstream/10482/46510/1/2022_LucasCoelhodeAlmeida.pdfb0b274d163d7b56516bb7aef540a4aa0MD51open accessLICENSElicense.txtlicense.txttext/plain102http://repositorio2.unb.br/jspui/bitstream/10482/46510/2/license.txtaed4704d04bb260d4decd80db311aaa5MD52open access10482/465102023-09-19 17:14:29.162open accessoai:repositorio2.unb.br:10482/46510U3VibWlzc8OjbyBlZmV0aXZhZGEgZGUgYWNvcmRvIGNvbSBsaWNlbsOnYSBjb25jZWRpZGEgcGVsbyBhdXRvciBlL291IGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcy4KBiblioteca Digital de Teses e DissertaçõesPUBhttps://repositorio.unb.br/oai/requestopendoar:2023-09-19T20:14:29Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.pt_BR.fl_str_mv Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet
dc.title.alternative.pt_BR.fl_str_mv Proposal for a metasemantic search engine as a tool for investigating data obtained via the internet
title Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet
spellingShingle Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet
Almeida, Lucas Coelho de
Ferramentas de busca na Web
Processamento de linguagem natural (Computação)
Recuperação de dados (Computação)
Análise de dados
title_short Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet
title_full Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet
title_fullStr Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet
title_full_unstemmed Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet
title_sort Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet
author Almeida, Lucas Coelho de
author_facet Almeida, Lucas Coelho de
author_role author
dc.contributor.advisorco.none.fl_str_mv Sousa Júnior, Rafael Timóteo de
dc.contributor.author.fl_str_mv Almeida, Lucas Coelho de
dc.contributor.advisor1.fl_str_mv Mendonça, Fábio Lúcio Lopes de
contributor_str_mv Mendonça, Fábio Lúcio Lopes de
dc.subject.keyword.pt_BR.fl_str_mv Ferramentas de busca na Web
Processamento de linguagem natural (Computação)
Recuperação de dados (Computação)
Análise de dados
topic Ferramentas de busca na Web
Processamento de linguagem natural (Computação)
Recuperação de dados (Computação)
Análise de dados
description A digitalização das relações e da informação têm aumentado a capacidade do ser humano de produzir dados de forma exponencial. Contudo, na mesma taxa em que novos dados são criados, é cada vez mais necessário também compreender e garimpar grandes bases de dados, inclusive sem qualquer estrutura ou formatação e com propósitos diversos. Nesse contexto, o uso de técnicas de indexação de dados usando motores de busca (do inglês Search Engines) e de interpretação de conjuntos de dados com o objetivo de classificá-los e categorizá-los se mostra indispensável para cenários de Big Data e Data Lake, em que a informação pode vir de diversas fontes com características técnicas e semânticas diferentes, exigindo classificações multi-classe e técnicas de processamento de linguagem natural, comumente designadas por técnicas de NLP (do inglês Natural Language Processing). Adicionalmente, é preciso entender se as ferramentas de classificação têm viés e se os resultados são úteis e condizentes com o esperado, especialmente em contextos de investigação de crimes digitais. Esse é o problema da transparência da tomada de decisão, ou seja, da clara e/ou legível representação dos parâmetros que levaram a máquina a uma determinada decisão/classificação. Um sistema de investigação ideal, portanto, deveria ser capaz de indexar grandes bases de dados, entender a semântica e ser passível de adaptação/aprendizagem para atuar em diferentes cenários, e ao final do processo, ainda fornecer resultados enriquecidos com os parâmetros que levaram a máquina a tomar determinadas decisões para posterior auditoria da transparência no processo. Portanto, esta dissertação tem como objetivo propor uma arquitetura fim a fim de um motor de busca que indexe e use interpretações metasemânticas baseadas em técnicas de processamento de linguagem natural em dados oriundos de páginas Web, de forma a prover, também, exemplos de parâmetros similares às classificações derivadas das amostras. O prefixo ”meta” no termo ”metasemântica” se refere a um conjunto de técnicas de classificação, predição e enriquecimento de dados aplicados para emular o processo de indexação semântica, porém preservando a auditabilidade do processo. Para efeito de validação da proposta, foram criadas amostras de páginas Web e utilizou-se bases de dados oficiais para treinamentos de instâncias de aprendizado de máquina para simulação de contextos reais de aplicação do projeto. Como resultado, a validação mostra como o motor de busca proposto permite o armazenamento e processamento de dados sem formatação originários de páginas Web e aumenta a velocidade e objetividade com que investigações passam a ser realizadas e auditadas em contextos de processamento de linguagem natural, especialmente relevantes para contextos de crimes digitais.
publishDate 2022
dc.date.submitted.none.fl_str_mv 2022-12-16
dc.date.accessioned.fl_str_mv 2023-09-19T20:14:28Z
dc.date.available.fl_str_mv 2023-09-19T20:14:28Z
dc.date.issued.fl_str_mv 2023-09-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ALMEIDA, Lucas Coelho de. Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet. 2022. xii, 114 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2022.
dc.identifier.uri.fl_str_mv http://repositorio2.unb.br/jspui/handle/10482/46510
identifier_str_mv ALMEIDA, Lucas Coelho de. Proposta de um motor de busca metasemântica como ferramenta de investigação de dados obtidos através da internet. 2022. xii, 114 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2022.
url http://repositorio2.unb.br/jspui/handle/10482/46510
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
bitstream.url.fl_str_mv http://repositorio2.unb.br/jspui/bitstream/10482/46510/1/2022_LucasCoelhodeAlmeida.pdf
http://repositorio2.unb.br/jspui/bitstream/10482/46510/2/license.txt
bitstream.checksum.fl_str_mv b0b274d163d7b56516bb7aef540a4aa0
aed4704d04bb260d4decd80db311aaa5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv
_version_ 1803573638810566656