CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
Texto Completo: | http://repositorio.ufes.br/handle/10/11013 |
Resumo: | Named Entity Recognition involves automatically identifying and classifying entities such as persons, places, and organizations, and it is a very important task in Information Extraction. Named Entity Recognition systems can be developed using the following approaches: linguistics, machine learning or hybrid. This work proposes the use of a hybrid approach, called CRF+LG, for Named Entity Recognition in Portuguese texts in order to explore the advantages of both linguistics and machine learning approaches. The proposed approach uses Conditional Random Fields (CRF) considering the term classification obtained by a Local Grammar (LG) as an additional informed feature. Conditional Random Fields is a probabilistic method for structured prediction. Local grammars are handmade rules to identify expressions within the text. The aim was to study this way of including the human expertise (Local Grammar) in the machine learning Conditional Random Fields approach and to analyze how it can contribute to the performance of this approach. To achieve this aim, a Local Grammar was built to recognize the 10 named entities categories of HAREM, a joint assessment for the Named Entity Recognition in Portuguese. Initially, the Golden Collection of the First and Second HAREM, considered as a reference for Named Entity Recognition systems in Portuguese, were used as training and test sets, respectively, for evaluation of the CRF+LG. After that, the proposed approach was evaluated in two other datasets. The results obtained outperform the results of systems reported in the literature that were evaluated under equivalent conditions. This gain was approximately 8 percentage points in F-measure in comparison to a system that also used CRF and 2 points in comparison to a system that used Neural Networks. Some systems that used Neural Networks presented superior results, but using massive corpora for unsupervised learning of features, which was not the case of this work. The Local Grammar built can be used individually when there is no training set available and in conjunction with other machine learning techniques to improve its performance. We also analyzed the boundaries (lower bound and upper bound) of the proposed approach. The lower bound indicates the minimum performance and the upper bound indicates the maximum gain that we can achieve for the task in question when using this approach. |
id |
UFES_394dc092c9b4c0f6817e33bb11b03a11 |
---|---|
oai_identifier_str |
oai:repositorio.ufes.br:10/11013 |
network_acronym_str |
UFES |
network_name_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
repository_id_str |
2108 |
spelling |
Oliveira, Elias Silva dePirovani, Juliana Pinheiro CamposLaporte, ÉricLima, Priscila Machado VieiraCiarelli, Patrick MarquesGonçalves, Claudine Santos Badue2019-04-10T02:15:22Z2019-04-092019-04-10T02:15:22Z2019-02-07Named Entity Recognition involves automatically identifying and classifying entities such as persons, places, and organizations, and it is a very important task in Information Extraction. Named Entity Recognition systems can be developed using the following approaches: linguistics, machine learning or hybrid. This work proposes the use of a hybrid approach, called CRF+LG, for Named Entity Recognition in Portuguese texts in order to explore the advantages of both linguistics and machine learning approaches. The proposed approach uses Conditional Random Fields (CRF) considering the term classification obtained by a Local Grammar (LG) as an additional informed feature. Conditional Random Fields is a probabilistic method for structured prediction. Local grammars are handmade rules to identify expressions within the text. The aim was to study this way of including the human expertise (Local Grammar) in the machine learning Conditional Random Fields approach and to analyze how it can contribute to the performance of this approach. To achieve this aim, a Local Grammar was built to recognize the 10 named entities categories of HAREM, a joint assessment for the Named Entity Recognition in Portuguese. Initially, the Golden Collection of the First and Second HAREM, considered as a reference for Named Entity Recognition systems in Portuguese, were used as training and test sets, respectively, for evaluation of the CRF+LG. After that, the proposed approach was evaluated in two other datasets. The results obtained outperform the results of systems reported in the literature that were evaluated under equivalent conditions. This gain was approximately 8 percentage points in F-measure in comparison to a system that also used CRF and 2 points in comparison to a system that used Neural Networks. Some systems that used Neural Networks presented superior results, but using massive corpora for unsupervised learning of features, which was not the case of this work. The Local Grammar built can be used individually when there is no training set available and in conjunction with other machine learning techniques to improve its performance. We also analyzed the boundaries (lower bound and upper bound) of the proposed approach. The lower bound indicates the minimum performance and the upper bound indicates the maximum gain that we can achieve for the task in question when using this approach.O Reconhecimento de Entidades Nomeadas tem como objetivo identificar e classificar automaticamente entidades como pessoas, locais e organizações e é uma tarefa muito importante em Extração de Informação. As abordagens utilizadas no desenvolvimento de sistemas de Reconhecimento de Entidades Nomeadas são: linguística, aprendizado de máquina ou híbrida. Este trabalho propõe o uso de uma abordagem híbrida, denominada CRF+LG, para o Reconhecimento de Entidades Nomeadas em textos em Português buscando explorar as vantagens das abordagens linguística e de aprendizado de máquina. A abordagem proposta usa Campos Aleatórios Condicionais considerando a classificação obtida previamente por uma Gramática Local como uma característica adicional. Campos Aleatórios Condicionais é um método probabilístico para predição estruturada. Gramáticas locais são regras construídas manualmente para identificar expressões em um texto. O objetivo foi estudar essa forma de incluir a expertise humana (Gramática Local) na abordagem de aprendizado de máquina Campos Aleatórios Condicionais e analisar como ela pode contribuir para o desempenho dessa abordagem. Para alcançar esse objetivo, uma Gramática Local foi construída para reconhecer as 10 categorias de entidades nomeadas do HAREM, um evento de avaliação conjunta para o Reconhecimento de Entidades Nomeadas em Português. Inicialmente, as Coleções Douradas do Primeiro e Segundo HAREM, consideradas bases de referência para essa tarefa em Português, foram utilizadas como bases de treino e teste respectivamente para avaliação do CRF+LG. Posteriormente, a abordagem proposta foi avaliada em outras duas bases de dados. Os resultados obtidos superam os resultados de sistemas reportados na literatura que foram avaliados em condições equivalentes. Esse ganho foi de aproximadamente 8% em Medida-F em relação a um sistema que também usou CRF e de 2% em relação a um sistema que usou Redes Neurais. Alguns sistemas que usaram Redes Neurais apresentam resultados superiores para as métricas, mas usando corpora massivo para aprendizado não supervisionado de características, o que não foi utilizado neste trabalho. A Gramática Local construída pode ser utilizada individualmente quando não há corpus de treino disponível e em conjunto com outras técnicas de aprendizado de máquina para melhorar o seu desempenho. Também foram analisados os limites (inferior e superior) da abordagem proposta. O limite superior indica o ganho máximo que pode ser obtido para a tarefa em questão ao usar esta abordagem.TextPIROVANI, Juliana Pinheiro Campos. CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português. 2019. 114 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2019.http://repositorio.ufes.br/handle/10/11013porUniversidade Federal do Espírito SantoDoutorado em Ciência da ComputaçãoPrograma de Pós-Graduação em InformáticaUFESBRCentro TecnológicoNamed entity recognitionConditional random fieldsLocal grammarsReconhecimento de entidades nomeadasCampos aleatórios condicionaisGramáticas locaisProcessamento de linguagem natural (Computação)Processamento de textos (Computação)Língua portuguesa - GramáticaMarkov, Campos aleatórios deCiência da Computação004CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em portuguêsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFESORIGINALTese-Juliana.pdfapplication/pdf1566788http://repositorio.ufes.br/bitstreams/ad68aac5-307c-4c0a-b253-46cfdda48274/download9b8435dbabe01348debc7de70407a4c8MD5110/110132024-07-17 17:01:44.857oai:repositorio.ufes.br:10/11013http://repositorio.ufes.brRepositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestopendoar:21082024-10-15T17:51:26.384556Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false |
dc.title.none.fl_str_mv |
CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português |
title |
CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português |
spellingShingle |
CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português Pirovani, Juliana Pinheiro Campos Named entity recognition Conditional random fields Local grammars Reconhecimento de entidades nomeadas Campos aleatórios condicionais Gramáticas locais Ciência da Computação Processamento de linguagem natural (Computação) Processamento de textos (Computação) Língua portuguesa - Gramática Markov, Campos aleatórios de 004 |
title_short |
CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português |
title_full |
CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português |
title_fullStr |
CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português |
title_full_unstemmed |
CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português |
title_sort |
CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português |
author |
Pirovani, Juliana Pinheiro Campos |
author_facet |
Pirovani, Juliana Pinheiro Campos |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Oliveira, Elias Silva de |
dc.contributor.author.fl_str_mv |
Pirovani, Juliana Pinheiro Campos |
dc.contributor.referee1.fl_str_mv |
Laporte, Éric |
dc.contributor.referee2.fl_str_mv |
Lima, Priscila Machado Vieira |
dc.contributor.referee3.fl_str_mv |
Ciarelli, Patrick Marques |
dc.contributor.referee4.fl_str_mv |
Gonçalves, Claudine Santos Badue |
contributor_str_mv |
Oliveira, Elias Silva de Laporte, Éric Lima, Priscila Machado Vieira Ciarelli, Patrick Marques Gonçalves, Claudine Santos Badue |
dc.subject.eng.fl_str_mv |
Named entity recognition Conditional random fields Local grammars |
topic |
Named entity recognition Conditional random fields Local grammars Reconhecimento de entidades nomeadas Campos aleatórios condicionais Gramáticas locais Ciência da Computação Processamento de linguagem natural (Computação) Processamento de textos (Computação) Língua portuguesa - Gramática Markov, Campos aleatórios de 004 |
dc.subject.por.fl_str_mv |
Reconhecimento de entidades nomeadas Campos aleatórios condicionais Gramáticas locais |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
dc.subject.br-rjbn.none.fl_str_mv |
Processamento de linguagem natural (Computação) Processamento de textos (Computação) Língua portuguesa - Gramática Markov, Campos aleatórios de |
dc.subject.udc.none.fl_str_mv |
004 |
description |
Named Entity Recognition involves automatically identifying and classifying entities such as persons, places, and organizations, and it is a very important task in Information Extraction. Named Entity Recognition systems can be developed using the following approaches: linguistics, machine learning or hybrid. This work proposes the use of a hybrid approach, called CRF+LG, for Named Entity Recognition in Portuguese texts in order to explore the advantages of both linguistics and machine learning approaches. The proposed approach uses Conditional Random Fields (CRF) considering the term classification obtained by a Local Grammar (LG) as an additional informed feature. Conditional Random Fields is a probabilistic method for structured prediction. Local grammars are handmade rules to identify expressions within the text. The aim was to study this way of including the human expertise (Local Grammar) in the machine learning Conditional Random Fields approach and to analyze how it can contribute to the performance of this approach. To achieve this aim, a Local Grammar was built to recognize the 10 named entities categories of HAREM, a joint assessment for the Named Entity Recognition in Portuguese. Initially, the Golden Collection of the First and Second HAREM, considered as a reference for Named Entity Recognition systems in Portuguese, were used as training and test sets, respectively, for evaluation of the CRF+LG. After that, the proposed approach was evaluated in two other datasets. The results obtained outperform the results of systems reported in the literature that were evaluated under equivalent conditions. This gain was approximately 8 percentage points in F-measure in comparison to a system that also used CRF and 2 points in comparison to a system that used Neural Networks. Some systems that used Neural Networks presented superior results, but using massive corpora for unsupervised learning of features, which was not the case of this work. The Local Grammar built can be used individually when there is no training set available and in conjunction with other machine learning techniques to improve its performance. We also analyzed the boundaries (lower bound and upper bound) of the proposed approach. The lower bound indicates the minimum performance and the upper bound indicates the maximum gain that we can achieve for the task in question when using this approach. |
publishDate |
2019 |
dc.date.accessioned.fl_str_mv |
2019-04-10T02:15:22Z |
dc.date.available.fl_str_mv |
2019-04-09 2019-04-10T02:15:22Z |
dc.date.issued.fl_str_mv |
2019-02-07 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
PIROVANI, Juliana Pinheiro Campos. CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português. 2019. 114 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2019. |
dc.identifier.uri.fl_str_mv |
http://repositorio.ufes.br/handle/10/11013 |
identifier_str_mv |
PIROVANI, Juliana Pinheiro Campos. CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português. 2019. 114 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2019. |
url |
http://repositorio.ufes.br/handle/10/11013 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
Text |
dc.publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo Doutorado em Ciência da Computação |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Informática |
dc.publisher.initials.fl_str_mv |
UFES |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Centro Tecnológico |
publisher.none.fl_str_mv |
Universidade Federal do Espírito Santo Doutorado em Ciência da Computação |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) instname:Universidade Federal do Espírito Santo (UFES) instacron:UFES |
instname_str |
Universidade Federal do Espírito Santo (UFES) |
instacron_str |
UFES |
institution |
UFES |
reponame_str |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
collection |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) |
bitstream.url.fl_str_mv |
http://repositorio.ufes.br/bitstreams/ad68aac5-307c-4c0a-b253-46cfdda48274/download |
bitstream.checksum.fl_str_mv |
9b8435dbabe01348debc7de70407a4c8 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES) |
repository.mail.fl_str_mv |
|
_version_ |
1813022501308989440 |