CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português

Detalhes bibliográficos
Autor(a) principal: Pirovani, Juliana Pinheiro Campos
Data de Publicação: 2019
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
Texto Completo: http://repositorio.ufes.br/handle/10/11013
Resumo: Named Entity Recognition involves automatically identifying and classifying entities such as persons, places, and organizations, and it is a very important task in Information Extraction. Named Entity Recognition systems can be developed using the following approaches: linguistics, machine learning or hybrid. This work proposes the use of a hybrid approach, called CRF+LG, for Named Entity Recognition in Portuguese texts in order to explore the advantages of both linguistics and machine learning approaches. The proposed approach uses Conditional Random Fields (CRF) considering the term classification obtained by a Local Grammar (LG) as an additional informed feature. Conditional Random Fields is a probabilistic method for structured prediction. Local grammars are handmade rules to identify expressions within the text. The aim was to study this way of including the human expertise (Local Grammar) in the machine learning Conditional Random Fields approach and to analyze how it can contribute to the performance of this approach. To achieve this aim, a Local Grammar was built to recognize the 10 named entities categories of HAREM, a joint assessment for the Named Entity Recognition in Portuguese. Initially, the Golden Collection of the First and Second HAREM, considered as a reference for Named Entity Recognition systems in Portuguese, were used as training and test sets, respectively, for evaluation of the CRF+LG. After that, the proposed approach was evaluated in two other datasets. The results obtained outperform the results of systems reported in the literature that were evaluated under equivalent conditions. This gain was approximately 8 percentage points in F-measure in comparison to a system that also used CRF and 2 points in comparison to a system that used Neural Networks. Some systems that used Neural Networks presented superior results, but using massive corpora for unsupervised learning of features, which was not the case of this work. The Local Grammar built can be used individually when there is no training set available and in conjunction with other machine learning techniques to improve its performance. We also analyzed the boundaries (lower bound and upper bound) of the proposed approach. The lower bound indicates the minimum performance and the upper bound indicates the maximum gain that we can achieve for the task in question when using this approach.
id UFES_394dc092c9b4c0f6817e33bb11b03a11
oai_identifier_str oai:repositorio.ufes.br:10/11013
network_acronym_str UFES
network_name_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
repository_id_str 2108
spelling Oliveira, Elias Silva dePirovani, Juliana Pinheiro CamposLaporte, ÉricLima, Priscila Machado VieiraCiarelli, Patrick MarquesGonçalves, Claudine Santos Badue2019-04-10T02:15:22Z2019-04-092019-04-10T02:15:22Z2019-02-07Named Entity Recognition involves automatically identifying and classifying entities such as persons, places, and organizations, and it is a very important task in Information Extraction. Named Entity Recognition systems can be developed using the following approaches: linguistics, machine learning or hybrid. This work proposes the use of a hybrid approach, called CRF+LG, for Named Entity Recognition in Portuguese texts in order to explore the advantages of both linguistics and machine learning approaches. The proposed approach uses Conditional Random Fields (CRF) considering the term classification obtained by a Local Grammar (LG) as an additional informed feature. Conditional Random Fields is a probabilistic method for structured prediction. Local grammars are handmade rules to identify expressions within the text. The aim was to study this way of including the human expertise (Local Grammar) in the machine learning Conditional Random Fields approach and to analyze how it can contribute to the performance of this approach. To achieve this aim, a Local Grammar was built to recognize the 10 named entities categories of HAREM, a joint assessment for the Named Entity Recognition in Portuguese. Initially, the Golden Collection of the First and Second HAREM, considered as a reference for Named Entity Recognition systems in Portuguese, were used as training and test sets, respectively, for evaluation of the CRF+LG. After that, the proposed approach was evaluated in two other datasets. The results obtained outperform the results of systems reported in the literature that were evaluated under equivalent conditions. This gain was approximately 8 percentage points in F-measure in comparison to a system that also used CRF and 2 points in comparison to a system that used Neural Networks. Some systems that used Neural Networks presented superior results, but using massive corpora for unsupervised learning of features, which was not the case of this work. The Local Grammar built can be used individually when there is no training set available and in conjunction with other machine learning techniques to improve its performance. We also analyzed the boundaries (lower bound and upper bound) of the proposed approach. The lower bound indicates the minimum performance and the upper bound indicates the maximum gain that we can achieve for the task in question when using this approach.O Reconhecimento de Entidades Nomeadas tem como objetivo identificar e classificar automaticamente entidades como pessoas, locais e organizações e é uma tarefa muito importante em Extração de Informação. As abordagens utilizadas no desenvolvimento de sistemas de Reconhecimento de Entidades Nomeadas são: linguística, aprendizado de máquina ou híbrida. Este trabalho propõe o uso de uma abordagem híbrida, denominada CRF+LG, para o Reconhecimento de Entidades Nomeadas em textos em Português buscando explorar as vantagens das abordagens linguística e de aprendizado de máquina. A abordagem proposta usa Campos Aleatórios Condicionais considerando a classificação obtida previamente por uma Gramática Local como uma característica adicional. Campos Aleatórios Condicionais é um método probabilístico para predição estruturada. Gramáticas locais são regras construídas manualmente para identificar expressões em um texto. O objetivo foi estudar essa forma de incluir a expertise humana (Gramática Local) na abordagem de aprendizado de máquina Campos Aleatórios Condicionais e analisar como ela pode contribuir para o desempenho dessa abordagem. Para alcançar esse objetivo, uma Gramática Local foi construída para reconhecer as 10 categorias de entidades nomeadas do HAREM, um evento de avaliação conjunta para o Reconhecimento de Entidades Nomeadas em Português. Inicialmente, as Coleções Douradas do Primeiro e Segundo HAREM, consideradas bases de referência para essa tarefa em Português, foram utilizadas como bases de treino e teste respectivamente para avaliação do CRF+LG. Posteriormente, a abordagem proposta foi avaliada em outras duas bases de dados. Os resultados obtidos superam os resultados de sistemas reportados na literatura que foram avaliados em condições equivalentes. Esse ganho foi de aproximadamente 8% em Medida-F em relação a um sistema que também usou CRF e de 2% em relação a um sistema que usou Redes Neurais. Alguns sistemas que usaram Redes Neurais apresentam resultados superiores para as métricas, mas usando corpora massivo para aprendizado não supervisionado de características, o que não foi utilizado neste trabalho. A Gramática Local construída pode ser utilizada individualmente quando não há corpus de treino disponível e em conjunto com outras técnicas de aprendizado de máquina para melhorar o seu desempenho. Também foram analisados os limites (inferior e superior) da abordagem proposta. O limite superior indica o ganho máximo que pode ser obtido para a tarefa em questão ao usar esta abordagem.TextPIROVANI, Juliana Pinheiro Campos. CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português. 2019. 114 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2019.http://repositorio.ufes.br/handle/10/11013porUniversidade Federal do Espírito SantoDoutorado em Ciência da ComputaçãoPrograma de Pós-Graduação em InformáticaUFESBRCentro TecnológicoNamed entity recognitionConditional random fieldsLocal grammarsReconhecimento de entidades nomeadasCampos aleatórios condicionaisGramáticas locaisProcessamento de linguagem natural (Computação)Processamento de textos (Computação)Língua portuguesa - GramáticaMarkov, Campos aleatórios deCiência da Computação004CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em portuguêsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)instname:Universidade Federal do Espírito Santo (UFES)instacron:UFESORIGINALTese-Juliana.pdfapplication/pdf1566788http://repositorio.ufes.br/bitstreams/ad68aac5-307c-4c0a-b253-46cfdda48274/download9b8435dbabe01348debc7de70407a4c8MD5110/110132024-07-17 17:01:44.857oai:repositorio.ufes.br:10/11013http://repositorio.ufes.brRepositório InstitucionalPUBhttp://repositorio.ufes.br/oai/requestopendoar:21082024-10-15T17:51:26.384556Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)false
dc.title.none.fl_str_mv CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português
title CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português
spellingShingle CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português
Pirovani, Juliana Pinheiro Campos
Named entity recognition
Conditional random fields
Local grammars
Reconhecimento de entidades nomeadas
Campos aleatórios condicionais
Gramáticas locais
Ciência da Computação
Processamento de linguagem natural (Computação)
Processamento de textos (Computação)
Língua portuguesa - Gramática
Markov, Campos aleatórios de
004
title_short CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português
title_full CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português
title_fullStr CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português
title_full_unstemmed CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português
title_sort CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português
author Pirovani, Juliana Pinheiro Campos
author_facet Pirovani, Juliana Pinheiro Campos
author_role author
dc.contributor.advisor1.fl_str_mv Oliveira, Elias Silva de
dc.contributor.author.fl_str_mv Pirovani, Juliana Pinheiro Campos
dc.contributor.referee1.fl_str_mv Laporte, Éric
dc.contributor.referee2.fl_str_mv Lima, Priscila Machado Vieira
dc.contributor.referee3.fl_str_mv Ciarelli, Patrick Marques
dc.contributor.referee4.fl_str_mv Gonçalves, Claudine Santos Badue
contributor_str_mv Oliveira, Elias Silva de
Laporte, Éric
Lima, Priscila Machado Vieira
Ciarelli, Patrick Marques
Gonçalves, Claudine Santos Badue
dc.subject.eng.fl_str_mv Named entity recognition
Conditional random fields
Local grammars
topic Named entity recognition
Conditional random fields
Local grammars
Reconhecimento de entidades nomeadas
Campos aleatórios condicionais
Gramáticas locais
Ciência da Computação
Processamento de linguagem natural (Computação)
Processamento de textos (Computação)
Língua portuguesa - Gramática
Markov, Campos aleatórios de
004
dc.subject.por.fl_str_mv Reconhecimento de entidades nomeadas
Campos aleatórios condicionais
Gramáticas locais
dc.subject.cnpq.fl_str_mv Ciência da Computação
dc.subject.br-rjbn.none.fl_str_mv Processamento de linguagem natural (Computação)
Processamento de textos (Computação)
Língua portuguesa - Gramática
Markov, Campos aleatórios de
dc.subject.udc.none.fl_str_mv 004
description Named Entity Recognition involves automatically identifying and classifying entities such as persons, places, and organizations, and it is a very important task in Information Extraction. Named Entity Recognition systems can be developed using the following approaches: linguistics, machine learning or hybrid. This work proposes the use of a hybrid approach, called CRF+LG, for Named Entity Recognition in Portuguese texts in order to explore the advantages of both linguistics and machine learning approaches. The proposed approach uses Conditional Random Fields (CRF) considering the term classification obtained by a Local Grammar (LG) as an additional informed feature. Conditional Random Fields is a probabilistic method for structured prediction. Local grammars are handmade rules to identify expressions within the text. The aim was to study this way of including the human expertise (Local Grammar) in the machine learning Conditional Random Fields approach and to analyze how it can contribute to the performance of this approach. To achieve this aim, a Local Grammar was built to recognize the 10 named entities categories of HAREM, a joint assessment for the Named Entity Recognition in Portuguese. Initially, the Golden Collection of the First and Second HAREM, considered as a reference for Named Entity Recognition systems in Portuguese, were used as training and test sets, respectively, for evaluation of the CRF+LG. After that, the proposed approach was evaluated in two other datasets. The results obtained outperform the results of systems reported in the literature that were evaluated under equivalent conditions. This gain was approximately 8 percentage points in F-measure in comparison to a system that also used CRF and 2 points in comparison to a system that used Neural Networks. Some systems that used Neural Networks presented superior results, but using massive corpora for unsupervised learning of features, which was not the case of this work. The Local Grammar built can be used individually when there is no training set available and in conjunction with other machine learning techniques to improve its performance. We also analyzed the boundaries (lower bound and upper bound) of the proposed approach. The lower bound indicates the minimum performance and the upper bound indicates the maximum gain that we can achieve for the task in question when using this approach.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-04-10T02:15:22Z
dc.date.available.fl_str_mv 2019-04-09
2019-04-10T02:15:22Z
dc.date.issued.fl_str_mv 2019-02-07
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PIROVANI, Juliana Pinheiro Campos. CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português. 2019. 114 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2019.
dc.identifier.uri.fl_str_mv http://repositorio.ufes.br/handle/10/11013
identifier_str_mv PIROVANI, Juliana Pinheiro Campos. CRF+LG: uma abordagem híbrida para o reconhecimento de entidades nomeadas em português. 2019. 114 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal do Espírito Santo, Centro Tecnológico, Vitória, 2019.
url http://repositorio.ufes.br/handle/10/11013
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv Text
dc.publisher.none.fl_str_mv Universidade Federal do Espírito Santo
Doutorado em Ciência da Computação
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Informática
dc.publisher.initials.fl_str_mv UFES
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Centro Tecnológico
publisher.none.fl_str_mv Universidade Federal do Espírito Santo
Doutorado em Ciência da Computação
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
instname:Universidade Federal do Espírito Santo (UFES)
instacron:UFES
instname_str Universidade Federal do Espírito Santo (UFES)
instacron_str UFES
institution UFES
reponame_str Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
collection Repositório Institucional da Universidade Federal do Espírito Santo (riUfes)
bitstream.url.fl_str_mv http://repositorio.ufes.br/bitstreams/ad68aac5-307c-4c0a-b253-46cfdda48274/download
bitstream.checksum.fl_str_mv 9b8435dbabe01348debc7de70407a4c8
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da Universidade Federal do Espírito Santo (riUfes) - Universidade Federal do Espírito Santo (UFES)
repository.mail.fl_str_mv
_version_ 1813022501308989440