Análise de correferência em textos via comitês de programas genéticos

Detalhes bibliográficos
Autor(a) principal: Carvalho, Davi Lopes
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UNIFOR
Texto Completo: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094
Resumo: Identificar menções em um texto e agrupá-las formando cadeias de correferência é o principal objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho. Para fins de validação da metodologia proposta, foi conduzido um estudo empírico abrangente sobre o corpus de língua inglesa utilizado em recentes competições internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito das métricas de avaliação como função de aptidão da PG evidenciou que há sim um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos gerados. Além disso, há fortes correlações entre os perfis de desempenho gerados por algumas das métricas, sendo que a sensibilidade de discriminação das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida pela métrica efetivamente utilizada nas competições do CoNLL. Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos.
id UFOR_f5e33d04810a16e2d4886b63415cded8
oai_identifier_str oai::99094
network_acronym_str UFOR
network_name_str Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling Análise de correferência em textos via comitês de programas genéticosLinguagem naturalProgramação genéticaAprendizado computacionalIdentificar menções em um texto e agrupá-las formando cadeias de correferência é o principal objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho. Para fins de validação da metodologia proposta, foi conduzido um estudo empírico abrangente sobre o corpus de língua inglesa utilizado em recentes competições internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito das métricas de avaliação como função de aptidão da PG evidenciou que há sim um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos gerados. Além disso, há fortes correlações entre os perfis de desempenho gerados por algumas das métricas, sendo que a sensibilidade de discriminação das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida pela métrica efetivamente utilizada nas competições do CoNLL. Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos.Identify references in a text and group them into coreference chains is the main purpose of a coreference resolution system. This paper reports a systematic experimental study on the use of an approach based on genetic programming (GP) for automatic resolution of this prominent task of natural language processing (NLP). Although various methods for the identification of references are described in the literature, including those based on machine learning (ML), and for the assessment of results generated by coreference resolution systems through the use of custom metrics, the results obtained until the present moment are still below expectations. Therefore, we investigated the possibility of adopting an evolutionary approach based on GP, since the class of evolutionary algorithms has successfully solved several complex problems of machine learning and text mining. In this particular study, we investigated the impact of the use of different evaluation metrics (MUC, B$^3$, CEAF$_e$ and BLANC) as the fitness function of the individuals (classifiers) generated by GP. Moreover, the performance of different schemes of combination of genetic programs into committee machines was investigated, aimed to increase performance. For validation of the proposed methodology, a comprehensive empirical study was conducted on the English corpus made available in recent international competitions organized by the CoNLL (Conference on Computational Natural Language Learning), which is the main conference on the theme ``AM + PLN". The performance results obtained by the generated ensembles of genetic programs was generally satisfactory, although less significant than those obtained by the best ranked coreference resolution systems in CoNLL contests. On the other hand, the comparative study on the effect of using the different evaluation metrics as the fitness function of GP showed that this choice has an impact on the performance of the genetic programs generated. Besides, there is a strong correlation between the performance profiles generated by some metrics. In particular, the BLANC's capability in differentiating solutions is very similar to the exhibited by the metric used in CoNLL competitions. Keywords: coreference analysis, coreference resolution, genetic programming, genetic programming ensembles.Coelho, Andre Luis VasconcelosCoelho, Andre Luis VasconcelosSantos, Cícero Nogueira dosPinheiro, Vladia Celia MonteiroUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaCarvalho, Davi Lopes2013info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094https://uol.unifor.br/auth-sophia/exibicao/10166Disponibilidade forma física: Existe obra impressa de código : 91370porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess1899-12-30T00:00:00Zoai::99094Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:1899-12-30T00:00Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv Análise de correferência em textos via comitês de programas genéticos
title Análise de correferência em textos via comitês de programas genéticos
spellingShingle Análise de correferência em textos via comitês de programas genéticos
Carvalho, Davi Lopes
Linguagem natural
Programação genética
Aprendizado computacional
title_short Análise de correferência em textos via comitês de programas genéticos
title_full Análise de correferência em textos via comitês de programas genéticos
title_fullStr Análise de correferência em textos via comitês de programas genéticos
title_full_unstemmed Análise de correferência em textos via comitês de programas genéticos
title_sort Análise de correferência em textos via comitês de programas genéticos
author Carvalho, Davi Lopes
author_facet Carvalho, Davi Lopes
author_role author
dc.contributor.none.fl_str_mv Coelho, Andre Luis Vasconcelos
Coelho, Andre Luis Vasconcelos
Santos, Cícero Nogueira dos
Pinheiro, Vladia Celia Monteiro
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv Carvalho, Davi Lopes
dc.subject.por.fl_str_mv Linguagem natural
Programação genética
Aprendizado computacional
topic Linguagem natural
Programação genética
Aprendizado computacional
description Identificar menções em um texto e agrupá-las formando cadeias de correferência é o principal objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho. Para fins de validação da metodologia proposta, foi conduzido um estudo empírico abrangente sobre o corpus de língua inglesa utilizado em recentes competições internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito das métricas de avaliação como função de aptidão da PG evidenciou que há sim um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos gerados. Além disso, há fortes correlações entre os perfis de desempenho gerados por algumas das métricas, sendo que a sensibilidade de discriminação das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida pela métrica efetivamente utilizada nas competições do CoNLL. Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos.
publishDate 2013
dc.date.none.fl_str_mv 2013
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094
url https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://uol.unifor.br/auth-sophia/exibicao/10166
Disponibilidade forma física: Existe obra impressa de código : 91370
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR
instname:Universidade de Fortaleza (UNIFOR)
instacron:UNIFOR
instname_str Universidade de Fortaleza (UNIFOR)
instacron_str UNIFOR
institution UNIFOR
reponame_str Biblioteca Digital de Teses e Dissertações da UNIFOR
collection Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv bib@unifor.br||bib@unifor.br
_version_ 1800408698593476608