Um modelo de classificação para o Reconhecimento de Entidades Nomeadas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://doi.org/10.11606/D.8.2020.tde-06042021-192617 |
Resumo: | O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa de Proces- samento de Linguagem Natural (PLN) que busca identificar as Entidades Nomeadas de um texto, tais como nomes de pessoas, cidades e organiza- ções, classificando-as em um conjunto pré-definido de categorias. Essa é considerada uma tarefa difícil, pois as Entidades Nomeadas constituem uma classe gramatical com muita variação lexical e de baixa frequência quando comparadas à massa total de dados textuais. Recentemente, as pesquisas com redes neurais profundas têm mostrado excelentes resultados em diversas aplicações de PLN, incluindo o REN. Nesta pesquisa, foram investigadas duas arquiteturas de redes neurais para o REN no Harem, um corpus de língua portuguesa: BERT (devlin et al., 2018) e uma rede neural bidirecional LSTM (BiLSTM). O objetivo principal foi explorar traços baseados na distribuição contextual das entidades, através de representações vetoriais word embeddings associadas a traços linguísticos. Foram usados traços de etiquetagem morfossintática, forma ortográfica da palavra e recursos lexicais. Esses traços foram concatenados às representações word embeddings para alimentar a BiLSTM. Os resultados mostraram uma melhora estatisticamente significativa no desempenho desse modelo em comparação à BiLSTM apenas com os word embeddings. O modelo BERT, por sua vez, obteve medidas próximas ao estado da arte no Harem. |
id |
USP_de70d8a951ad540105fc7ae30b6ced39 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-06042021-192617 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis Um modelo de classificação para o Reconhecimento de Entidades Nomeadas A classification model for Named Entity Recognition 2020-12-16Marcos Fernando LopesMarcos Ribeiro Pereira BarrettoAriani Di FelippoMarcelo Barra FerreiraAndressa Vieira e SilvaUniversidade de São PauloLingüísticaUSPBR Linguistic feature representation Named Entity Recognition Neural networks Reconhecimento de Entidades Nomeadas Redes neurais Representações word embeddings Traços de representação linguística Word embeddings O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa de Proces- samento de Linguagem Natural (PLN) que busca identificar as Entidades Nomeadas de um texto, tais como nomes de pessoas, cidades e organiza- ções, classificando-as em um conjunto pré-definido de categorias. Essa é considerada uma tarefa difícil, pois as Entidades Nomeadas constituem uma classe gramatical com muita variação lexical e de baixa frequência quando comparadas à massa total de dados textuais. Recentemente, as pesquisas com redes neurais profundas têm mostrado excelentes resultados em diversas aplicações de PLN, incluindo o REN. Nesta pesquisa, foram investigadas duas arquiteturas de redes neurais para o REN no Harem, um corpus de língua portuguesa: BERT (devlin et al., 2018) e uma rede neural bidirecional LSTM (BiLSTM). O objetivo principal foi explorar traços baseados na distribuição contextual das entidades, através de representações vetoriais word embeddings associadas a traços linguísticos. Foram usados traços de etiquetagem morfossintática, forma ortográfica da palavra e recursos lexicais. Esses traços foram concatenados às representações word embeddings para alimentar a BiLSTM. Os resultados mostraram uma melhora estatisticamente significativa no desempenho desse modelo em comparação à BiLSTM apenas com os word embeddings. O modelo BERT, por sua vez, obteve medidas próximas ao estado da arte no Harem. Named Entity Recognition (NER) is a Natural Language Processing (NLP) task that aims at identifying Named Entities in a text, such as person, city, and organization names, classifying them into a pre-defined set of categories. NER is considered a hard task as Named Entities are a grammatical class with lots of lexical variation and relatevely low frequency if compared to the total mass of textual data. Nevertheless, deep neural network researches have recently shown excelent results in several NLP applications, including NER. In this work, two neural network archictetures were investigated for Harem, a corpus of Portuguese: BERT (devlin et al., 2018) and a bidirectional neural network LSTM (BiLSTM). The main goal was to explore features based on the entities contextual distribution by means of word embeddings vectors associated with linguistic features. We used as features part-of-speech tagging, spelling formats, and lexical resources. Those features were concatened with word embeddings vectors and fed into the BiLSTM. Our results showed a significant performance improvement with this model if compared to a BiLSTM using only word embeddings. On the other hand, BERT model obtained scores close to the Harem state-of-the-art. https://doi.org/10.11606/D.8.2020.tde-06042021-192617info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USP2023-12-21T18:19:06Zoai:teses.usp.br:tde-06042021-192617Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-12-22T12:12:57.403832Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.pt.fl_str_mv |
Um modelo de classificação para o Reconhecimento de Entidades Nomeadas |
dc.title.alternative.en.fl_str_mv |
A classification model for Named Entity Recognition |
title |
Um modelo de classificação para o Reconhecimento de Entidades Nomeadas |
spellingShingle |
Um modelo de classificação para o Reconhecimento de Entidades Nomeadas Andressa Vieira e Silva |
title_short |
Um modelo de classificação para o Reconhecimento de Entidades Nomeadas |
title_full |
Um modelo de classificação para o Reconhecimento de Entidades Nomeadas |
title_fullStr |
Um modelo de classificação para o Reconhecimento de Entidades Nomeadas |
title_full_unstemmed |
Um modelo de classificação para o Reconhecimento de Entidades Nomeadas |
title_sort |
Um modelo de classificação para o Reconhecimento de Entidades Nomeadas |
author |
Andressa Vieira e Silva |
author_facet |
Andressa Vieira e Silva |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Marcos Fernando Lopes |
dc.contributor.referee1.fl_str_mv |
Marcos Ribeiro Pereira Barretto |
dc.contributor.referee2.fl_str_mv |
Ariani Di Felippo |
dc.contributor.referee3.fl_str_mv |
Marcelo Barra Ferreira |
dc.contributor.author.fl_str_mv |
Andressa Vieira e Silva |
contributor_str_mv |
Marcos Fernando Lopes Marcos Ribeiro Pereira Barretto Ariani Di Felippo Marcelo Barra Ferreira |
description |
O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa de Proces- samento de Linguagem Natural (PLN) que busca identificar as Entidades Nomeadas de um texto, tais como nomes de pessoas, cidades e organiza- ções, classificando-as em um conjunto pré-definido de categorias. Essa é considerada uma tarefa difícil, pois as Entidades Nomeadas constituem uma classe gramatical com muita variação lexical e de baixa frequência quando comparadas à massa total de dados textuais. Recentemente, as pesquisas com redes neurais profundas têm mostrado excelentes resultados em diversas aplicações de PLN, incluindo o REN. Nesta pesquisa, foram investigadas duas arquiteturas de redes neurais para o REN no Harem, um corpus de língua portuguesa: BERT (devlin et al., 2018) e uma rede neural bidirecional LSTM (BiLSTM). O objetivo principal foi explorar traços baseados na distribuição contextual das entidades, através de representações vetoriais word embeddings associadas a traços linguísticos. Foram usados traços de etiquetagem morfossintática, forma ortográfica da palavra e recursos lexicais. Esses traços foram concatenados às representações word embeddings para alimentar a BiLSTM. Os resultados mostraram uma melhora estatisticamente significativa no desempenho desse modelo em comparação à BiLSTM apenas com os word embeddings. O modelo BERT, por sua vez, obteve medidas próximas ao estado da arte no Harem. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020-12-16 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.11606/D.8.2020.tde-06042021-192617 |
url |
https://doi.org/10.11606/D.8.2020.tde-06042021-192617 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade de São Paulo |
dc.publisher.program.fl_str_mv |
Lingüística |
dc.publisher.initials.fl_str_mv |
USP |
dc.publisher.country.fl_str_mv |
BR |
publisher.none.fl_str_mv |
Universidade de São Paulo |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1794502510256324608 |