Análise de correferência em textos via comitês de programas genéticos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UNIFOR |
Texto Completo: | https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094 |
Resumo: | Identificar menções em um texto e agrupá-las formando cadeias de correferência é o principal objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho. Para fins de validação da metodologia proposta, foi conduzido um estudo empírico abrangente sobre o corpus de língua inglesa utilizado em recentes competições internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito das métricas de avaliação como função de aptidão da PG evidenciou que há sim um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos gerados. Além disso, há fortes correlações entre os perfis de desempenho gerados por algumas das métricas, sendo que a sensibilidade de discriminação das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida pela métrica efetivamente utilizada nas competições do CoNLL. Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos. |
id |
UFOR_f5e33d04810a16e2d4886b63415cded8 |
---|---|
oai_identifier_str |
oai::99094 |
network_acronym_str |
UFOR |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
repository_id_str |
|
spelling |
Análise de correferência em textos via comitês de programas genéticosLinguagem naturalProgramação genéticaAprendizado computacionalIdentificar menções em um texto e agrupá-las formando cadeias de correferência é o principal objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho. Para fins de validação da metodologia proposta, foi conduzido um estudo empírico abrangente sobre o corpus de língua inglesa utilizado em recentes competições internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito das métricas de avaliação como função de aptidão da PG evidenciou que há sim um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos gerados. Além disso, há fortes correlações entre os perfis de desempenho gerados por algumas das métricas, sendo que a sensibilidade de discriminação das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida pela métrica efetivamente utilizada nas competições do CoNLL. Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos.Identify references in a text and group them into coreference chains is the main purpose of a coreference resolution system. This paper reports a systematic experimental study on the use of an approach based on genetic programming (GP) for automatic resolution of this prominent task of natural language processing (NLP). Although various methods for the identification of references are described in the literature, including those based on machine learning (ML), and for the assessment of results generated by coreference resolution systems through the use of custom metrics, the results obtained until the present moment are still below expectations. Therefore, we investigated the possibility of adopting an evolutionary approach based on GP, since the class of evolutionary algorithms has successfully solved several complex problems of machine learning and text mining. In this particular study, we investigated the impact of the use of different evaluation metrics (MUC, B$^3$, CEAF$_e$ and BLANC) as the fitness function of the individuals (classifiers) generated by GP. Moreover, the performance of different schemes of combination of genetic programs into committee machines was investigated, aimed to increase performance. For validation of the proposed methodology, a comprehensive empirical study was conducted on the English corpus made available in recent international competitions organized by the CoNLL (Conference on Computational Natural Language Learning), which is the main conference on the theme ``AM + PLN". The performance results obtained by the generated ensembles of genetic programs was generally satisfactory, although less significant than those obtained by the best ranked coreference resolution systems in CoNLL contests. On the other hand, the comparative study on the effect of using the different evaluation metrics as the fitness function of GP showed that this choice has an impact on the performance of the genetic programs generated. Besides, there is a strong correlation between the performance profiles generated by some metrics. In particular, the BLANC's capability in differentiating solutions is very similar to the exhibited by the metric used in CoNLL competitions. Keywords: coreference analysis, coreference resolution, genetic programming, genetic programming ensembles.Coelho, Andre Luis VasconcelosCoelho, Andre Luis VasconcelosSantos, Cícero Nogueira dosPinheiro, Vladia Celia MonteiroUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaCarvalho, Davi Lopes2013info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094https://uol.unifor.br/auth-sophia/exibicao/10166Disponibilidade forma física: Existe obra impressa de código : 91370porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess1899-12-30T00:00:00Zoai::99094Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:1899-12-30T00:00Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false |
dc.title.none.fl_str_mv |
Análise de correferência em textos via comitês de programas genéticos |
title |
Análise de correferência em textos via comitês de programas genéticos |
spellingShingle |
Análise de correferência em textos via comitês de programas genéticos Carvalho, Davi Lopes Linguagem natural Programação genética Aprendizado computacional |
title_short |
Análise de correferência em textos via comitês de programas genéticos |
title_full |
Análise de correferência em textos via comitês de programas genéticos |
title_fullStr |
Análise de correferência em textos via comitês de programas genéticos |
title_full_unstemmed |
Análise de correferência em textos via comitês de programas genéticos |
title_sort |
Análise de correferência em textos via comitês de programas genéticos |
author |
Carvalho, Davi Lopes |
author_facet |
Carvalho, Davi Lopes |
author_role |
author |
dc.contributor.none.fl_str_mv |
Coelho, Andre Luis Vasconcelos Coelho, Andre Luis Vasconcelos Santos, Cícero Nogueira dos Pinheiro, Vladia Celia Monteiro Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada |
dc.contributor.author.fl_str_mv |
Carvalho, Davi Lopes |
dc.subject.por.fl_str_mv |
Linguagem natural Programação genética Aprendizado computacional |
topic |
Linguagem natural Programação genética Aprendizado computacional |
description |
Identificar menções em um texto e agrupá-las formando cadeias de correferência é o principal objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho. Para fins de validação da metodologia proposta, foi conduzido um estudo empírico abrangente sobre o corpus de língua inglesa utilizado em recentes competições internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito das métricas de avaliação como função de aptidão da PG evidenciou que há sim um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos gerados. Além disso, há fortes correlações entre os perfis de desempenho gerados por algumas das métricas, sendo que a sensibilidade de discriminação das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida pela métrica efetivamente utilizada nas competições do CoNLL. Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos. |
publishDate |
2013 |
dc.date.none.fl_str_mv |
2013 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094 |
url |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://uol.unifor.br/auth-sophia/exibicao/10166 Disponibilidade forma física: Existe obra impressa de código : 91370 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR instname:Universidade de Fortaleza (UNIFOR) instacron:UNIFOR |
instname_str |
Universidade de Fortaleza (UNIFOR) |
instacron_str |
UNIFOR |
institution |
UNIFOR |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
collection |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR) |
repository.mail.fl_str_mv |
bib@unifor.br||bib@unifor.br |
_version_ |
1800408698593476608 |