Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.

Detalhes bibliográficos
Autor(a) principal: BARROS, Thierry Silva.
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFCG
Texto Completo: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174
Resumo: Na Polícia Federal do Brasil, um documento denominado notícia-crime é utilizado como ponto de partida em qualquer investigação criminal. Uma notícia-crime tem como objetivo fornecer um resumo das atividades investigativas e, para tal, deve conter todas as infor- mações relevantes sobre o suposto crime ocorrido. A fim de administrar uma investigação e correlacionar com investigações semelhantes, em geral, a Polícia Federal precisa extrair as informações mais importantes do documento da notícia-crime. A extração manual (ler e compreender todo o seu conteúdo) tende a ser exaustiva, devido ao tamanho e à complex- idade dos documentos. Neste sentido, técnicas de Processamento de Linguagem Natural (PLN) podem auxiliar na extração automática dos trechos mais importantes como, por ex- emplo, o crime ocorrido. Nos últimos anos, as redes neurais profundas têm sido aplicadas com sucesso em muitas tarefas diferentes de PLN. Um modelo de rede neural que alavan- cou os resultados em uma ampla gama de tarefas de PLN foi o modelo BERT (Bidirectional Encoder Representations from Transformers). Devido à sua capacidade de representação do sentido de dados textuais, o modelo consegue capturar dependências de curto (correlações entra dados textuais que estão próximos no texto) e longo (correlações entra dados textuais que estão distantes no texto) alcance nos dados textuais. O presente trabalho propõe difer- entes abordagens baseadas no modelo BERT para extrair as informações mais importantes do documento textual referente a uma notícia-crime e construir um resumo do mesmo. Para a sumarização automática de documentos textuais podem ser aplicados dois tipos de técnicas diferentes: abstrativa e extrativa. Nesta pesquisa foi utilizada nas abordagens a técnica de sumarização extrativa para resumo dos documentos. A viabilidade da utilização do modelo BERT para extrair e sintetizar as informações mais importantes de uma notícia-crime é avali- ada em termos de eficácia e eficiência. Para tal, são utilizados dois conjuntos de dados reais: o conjunto de dados da Polícia Federal (de domínio privado) e o conjunto de dados Wikihow brasileiro (de domínio público). Os resultados experimentais, usando diferentes variantes da métrica ROUGE, mostram que as abordagens propostas podem aumentar significativamente a eficácia do resumo de texto extrativo sem sacrificar a eficiência.
id UFCG_2e252df77acac53eef3e03e387a1110a
oai_identifier_str oai:localhost:riufcg/27174
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str 4851
spelling Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.A BERT model for extractive summarization of texts in Federal Police documents.Processamento de Linguagem NaturalBERTNotícia- crimeSumarização Automática de TextoPolícia Federal do BrasilInvestigação PolicialNatural Language ProcessingNews- crimeAutomatic Text SummarizationPolice investigationCiência da ComputaçãoNa Polícia Federal do Brasil, um documento denominado notícia-crime é utilizado como ponto de partida em qualquer investigação criminal. Uma notícia-crime tem como objetivo fornecer um resumo das atividades investigativas e, para tal, deve conter todas as infor- mações relevantes sobre o suposto crime ocorrido. A fim de administrar uma investigação e correlacionar com investigações semelhantes, em geral, a Polícia Federal precisa extrair as informações mais importantes do documento da notícia-crime. A extração manual (ler e compreender todo o seu conteúdo) tende a ser exaustiva, devido ao tamanho e à complex- idade dos documentos. Neste sentido, técnicas de Processamento de Linguagem Natural (PLN) podem auxiliar na extração automática dos trechos mais importantes como, por ex- emplo, o crime ocorrido. Nos últimos anos, as redes neurais profundas têm sido aplicadas com sucesso em muitas tarefas diferentes de PLN. Um modelo de rede neural que alavan- cou os resultados em uma ampla gama de tarefas de PLN foi o modelo BERT (Bidirectional Encoder Representations from Transformers). Devido à sua capacidade de representação do sentido de dados textuais, o modelo consegue capturar dependências de curto (correlações entra dados textuais que estão próximos no texto) e longo (correlações entra dados textuais que estão distantes no texto) alcance nos dados textuais. O presente trabalho propõe difer- entes abordagens baseadas no modelo BERT para extrair as informações mais importantes do documento textual referente a uma notícia-crime e construir um resumo do mesmo. Para a sumarização automática de documentos textuais podem ser aplicados dois tipos de técnicas diferentes: abstrativa e extrativa. Nesta pesquisa foi utilizada nas abordagens a técnica de sumarização extrativa para resumo dos documentos. A viabilidade da utilização do modelo BERT para extrair e sintetizar as informações mais importantes de uma notícia-crime é avali- ada em termos de eficácia e eficiência. Para tal, são utilizados dois conjuntos de dados reais: o conjunto de dados da Polícia Federal (de domínio privado) e o conjunto de dados Wikihow brasileiro (de domínio público). Os resultados experimentais, usando diferentes variantes da métrica ROUGE, mostram que as abordagens propostas podem aumentar significativamente a eficácia do resumo de texto extrativo sem sacrificar a eficiência.In the Federal Police, a document known as notitia criminis is used as the starting point of the criminal investigation. The notitia criminis document aims to report a summary of investigative activities and contains all relevant information about the supposed crime that occurred. In order to manage an investigation and correlate with similar investigations, in general, the Federal Police needs to extract the most important information of the notitia cri- minis document. Manual extraction (reading and understand their entire content) may be hu- man exhausting, due to the size and complexity of the documents. Therefore, it is necessary to use Natural Language Processing (NLP) techniques for automatically extracting the most important passages, such as the crime that occurred.In the last few years, deep neural net- works have been successfully applied to many different NLP tasks. A neural network model that leveraged the results in a wide range of NLP tasks was the BERT model - an acronym for Bidirectional Encoder Representations from Transformers. Due to its ability to repre- sent the meaning textual data, being able to capture both short-range (correlations between textual data that are close together in the text) and long-range (correlations between textual data that are far apart in the text) dependence on textual data. This dissertation proposes different approaches based on the BERT model to extract the most important information from the textual document referring to a notitia criminis document and build a summary of it. For the automatic summarization of textual documents, two types of different techniques can be applied: abstractive and extractive. In this dissertation, the extractive summarization technique was used to summarize the documents. Thus, we aim to analyze the feasibility of using the BERT model to extract and synthesize the most important information from the notitia criminis document. We evaluate the performance of the proposed approaches using two real datasets: the Federal Police dataset (a private domain dataset) and the Brazilian Wikihow dataset (a public domain dataset). Experimental results on the two datasets, using different variants of the ROUGE metric, show that our approaches can significantly increase extractive text summarization effectiveness without sacrificing efficiency.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICAUFCGPIRES, Carlos Eduardo Santos.PIRES, C. E. S.PIRES, C. E.PIRES, CARLOS EDUARDO SANTOS.http://lattes.cnpq.br/4986021622366786NASCIMENTO FILHO, Dimas Cassimiro do.NASCIMENTO FILHO, D. C.NASCIMENTO, DIMAS CASSIMIRO.NASCIMENTO, DIMAS C.http://lattes.cnpq.br/3151296501932443MARINHO, Leandro Balby.MARINHO, L. B.MARINHO, LEANDRO BALBY.MARINHO, LEANDRO.http://lattes.cnpq.br/3728312501032061FREITAS, Frederico Luiz Gonçalves de.FREITAS, F.Freitas, Fred.Freitas, Frederico.http://lattes.cnpq.br/6195215666638965BARROS, Thierry Silva.2022-04-282022-09-14T13:23:50Z2022-09-142022-09-14T13:23:50Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174BARROS, Thierry Silva. Um modelo BERT para sumarização extrativa de textos emdocumentos da Polícia Federal. 2022. 118 fl. Dissertação (Mestrado em Ciência da Computação ), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2022-10-04T14:01:16Zoai:localhost:riufcg/27174Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512022-10-04T14:01:16Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.
A BERT model for extractive summarization of texts in Federal Police documents.
title Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.
spellingShingle Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.
BARROS, Thierry Silva.
Processamento de Linguagem Natural
BERT
Notícia- crime
Sumarização Automática de Texto
Polícia Federal do Brasil
Investigação Policial
Natural Language Processing
News- crime
Automatic Text Summarization
Police investigation
Ciência da Computação
title_short Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.
title_full Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.
title_fullStr Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.
title_full_unstemmed Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.
title_sort Um modelo BERT para sumarização extrativa de textos em documentos da Polícia Federal.
author BARROS, Thierry Silva.
author_facet BARROS, Thierry Silva.
author_role author
dc.contributor.none.fl_str_mv PIRES, Carlos Eduardo Santos.
PIRES, C. E. S.
PIRES, C. E.
PIRES, CARLOS EDUARDO SANTOS.
http://lattes.cnpq.br/4986021622366786
NASCIMENTO FILHO, Dimas Cassimiro do.
NASCIMENTO FILHO, D. C.
NASCIMENTO, DIMAS CASSIMIRO.
NASCIMENTO, DIMAS C.
http://lattes.cnpq.br/3151296501932443
MARINHO, Leandro Balby.
MARINHO, L. B.
MARINHO, LEANDRO BALBY.
MARINHO, LEANDRO.
http://lattes.cnpq.br/3728312501032061
FREITAS, Frederico Luiz Gonçalves de.
FREITAS, F.
Freitas, Fred.
Freitas, Frederico.
http://lattes.cnpq.br/6195215666638965
dc.contributor.author.fl_str_mv BARROS, Thierry Silva.
dc.subject.por.fl_str_mv Processamento de Linguagem Natural
BERT
Notícia- crime
Sumarização Automática de Texto
Polícia Federal do Brasil
Investigação Policial
Natural Language Processing
News- crime
Automatic Text Summarization
Police investigation
Ciência da Computação
topic Processamento de Linguagem Natural
BERT
Notícia- crime
Sumarização Automática de Texto
Polícia Federal do Brasil
Investigação Policial
Natural Language Processing
News- crime
Automatic Text Summarization
Police investigation
Ciência da Computação
description Na Polícia Federal do Brasil, um documento denominado notícia-crime é utilizado como ponto de partida em qualquer investigação criminal. Uma notícia-crime tem como objetivo fornecer um resumo das atividades investigativas e, para tal, deve conter todas as infor- mações relevantes sobre o suposto crime ocorrido. A fim de administrar uma investigação e correlacionar com investigações semelhantes, em geral, a Polícia Federal precisa extrair as informações mais importantes do documento da notícia-crime. A extração manual (ler e compreender todo o seu conteúdo) tende a ser exaustiva, devido ao tamanho e à complex- idade dos documentos. Neste sentido, técnicas de Processamento de Linguagem Natural (PLN) podem auxiliar na extração automática dos trechos mais importantes como, por ex- emplo, o crime ocorrido. Nos últimos anos, as redes neurais profundas têm sido aplicadas com sucesso em muitas tarefas diferentes de PLN. Um modelo de rede neural que alavan- cou os resultados em uma ampla gama de tarefas de PLN foi o modelo BERT (Bidirectional Encoder Representations from Transformers). Devido à sua capacidade de representação do sentido de dados textuais, o modelo consegue capturar dependências de curto (correlações entra dados textuais que estão próximos no texto) e longo (correlações entra dados textuais que estão distantes no texto) alcance nos dados textuais. O presente trabalho propõe difer- entes abordagens baseadas no modelo BERT para extrair as informações mais importantes do documento textual referente a uma notícia-crime e construir um resumo do mesmo. Para a sumarização automática de documentos textuais podem ser aplicados dois tipos de técnicas diferentes: abstrativa e extrativa. Nesta pesquisa foi utilizada nas abordagens a técnica de sumarização extrativa para resumo dos documentos. A viabilidade da utilização do modelo BERT para extrair e sintetizar as informações mais importantes de uma notícia-crime é avali- ada em termos de eficácia e eficiência. Para tal, são utilizados dois conjuntos de dados reais: o conjunto de dados da Polícia Federal (de domínio privado) e o conjunto de dados Wikihow brasileiro (de domínio público). Os resultados experimentais, usando diferentes variantes da métrica ROUGE, mostram que as abordagens propostas podem aumentar significativamente a eficácia do resumo de texto extrativo sem sacrificar a eficiência.
publishDate 2022
dc.date.none.fl_str_mv 2022-04-28
2022-09-14T13:23:50Z
2022-09-14
2022-09-14T13:23:50Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174
BARROS, Thierry Silva. Um modelo BERT para sumarização extrativa de textos emdocumentos da Polícia Federal. 2022. 118 fl. Dissertação (Mestrado em Ciência da Computação ), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174
url http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174
identifier_str_mv BARROS, Thierry Silva. Um modelo BERT para sumarização extrativa de textos emdocumentos da Polícia Federal. 2022. 118 fl. Dissertação (Mestrado em Ciência da Computação ), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2022. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/27174
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
UFCG
publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
UFCG
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1809744555049746432