Análise de correferência em textos via comitês de programas genéticos

Carvalho, Davi Lopes

Análise de correferência em textos via comitês de programas genéticos

Detalhes bibliográficos
Autor(a) principal:	Carvalho, Davi Lopes
Data de Publicação:	2013
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UNIFOR
Texto Completo:	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094
Resumo:	Identificar menções em um texto e agrupá-las formando cadeias de correferência é o principal objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho. Para fins de validação da metodologia proposta, foi conduzido um estudo empírico abrangente sobre o corpus de língua inglesa utilizado em recentes competições internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito das métricas de avaliação como função de aptidão da PG evidenciou que há sim um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos gerados. Além disso, há fortes correlações entre os perfis de desempenho gerados por algumas das métricas, sendo que a sensibilidade de discriminação das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida pela métrica efetivamente utilizada nas competições do CoNLL. Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos.

Metadados do item

id	UFOR_f5e33d04810a16e2d4886b63415cded8
oai_identifier_str	oai::99094
network_acronym_str	UFOR
network_name_str	Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling	Análise de correferência em textos via comitês de programas genéticosLinguagem naturalProgramação genéticaAprendizado computacionalIdentificar menções em um texto e agrupá-las formando cadeias de correferência é o principal objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho. Para fins de validação da metodologia proposta, foi conduzido um estudo empírico abrangente sobre o corpus de língua inglesa utilizado em recentes competições internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito das métricas de avaliação como função de aptidão da PG evidenciou que há sim um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos gerados. Além disso, há fortes correlações entre os perfis de desempenho gerados por algumas das métricas, sendo que a sensibilidade de discriminação das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida pela métrica efetivamente utilizada nas competições do CoNLL. Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos.Identify references in a text and group them into coreference chains is the main purpose of a coreference resolution system. This paper reports a systematic experimental study on the use of an approach based on genetic programming (GP) for automatic resolution of this prominent task of natural language processing (NLP). Although various methods for the identification of references are described in the literature, including those based on machine learning (ML), and for the assessment of results generated by coreference resolution systems through the use of custom metrics, the results obtained until the present moment are still below expectations. Therefore, we investigated the possibility of adopting an evolutionary approach based on GP, since the class of evolutionary algorithms has successfully solved several complex problems of machine learning and text mining. In this particular study, we investigated the impact of the use of different evaluation metrics (MUC, B$^3$, CEAF$_e$ and BLANC) as the fitness function of the individuals (classifiers) generated by GP. Moreover, the performance of different schemes of combination of genetic programs into committee machines was investigated, aimed to increase performance. For validation of the proposed methodology, a comprehensive empirical study was conducted on the English corpus made available in recent international competitions organized by the CoNLL (Conference on Computational Natural Language Learning), which is the main conference on the theme ``AM + PLN". The performance results obtained by the generated ensembles of genetic programs was generally satisfactory, although less significant than those obtained by the best ranked coreference resolution systems in CoNLL contests. On the other hand, the comparative study on the effect of using the different evaluation metrics as the fitness function of GP showed that this choice has an impact on the performance of the genetic programs generated. Besides, there is a strong correlation between the performance profiles generated by some metrics. In particular, the BLANC's capability in differentiating solutions is very similar to the exhibited by the metric used in CoNLL competitions. Keywords: coreference analysis, coreference resolution, genetic programming, genetic programming ensembles.Coelho, Andre Luis VasconcelosCoelho, Andre Luis VasconcelosSantos, Cícero Nogueira dosPinheiro, Vladia Celia MonteiroUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaCarvalho, Davi Lopes2013info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094https://uol.unifor.br/auth-sophia/exibicao/10166Disponibilidade forma física: Existe obra impressa de código : 91370porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess1899-12-30T00:00:00Zoai::99094Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br\|\|bib@unifor.bropendoar:1899-12-30T00:00Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv	Análise de correferência em textos via comitês de programas genéticos
title	Análise de correferência em textos via comitês de programas genéticos
spellingShingle	Análise de correferência em textos via comitês de programas genéticos Carvalho, Davi Lopes Linguagem natural Programação genética Aprendizado computacional
title_short	Análise de correferência em textos via comitês de programas genéticos
title_full	Análise de correferência em textos via comitês de programas genéticos
title_fullStr	Análise de correferência em textos via comitês de programas genéticos
title_full_unstemmed	Análise de correferência em textos via comitês de programas genéticos
title_sort	Análise de correferência em textos via comitês de programas genéticos
author	Carvalho, Davi Lopes
author_facet	Carvalho, Davi Lopes
author_role	author
dc.contributor.none.fl_str_mv	Coelho, Andre Luis Vasconcelos Coelho, Andre Luis Vasconcelos Santos, Cícero Nogueira dos Pinheiro, Vladia Celia Monteiro Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv	Carvalho, Davi Lopes
dc.subject.por.fl_str_mv	Linguagem natural Programação genética Aprendizado computacional
topic	Linguagem natural Programação genética Aprendizado computacional
description	Identificar menções em um texto e agrupá-las formando cadeias de correferência é o principal objetivo de um sistema de resolução de correferências (RC). O presente trabalho relata um estudo experimental sistemático acerca do uso de uma abordagem baseada em programação genética (PG) para a resolução automática dessa proeminente tarefa de processamento de linguagem natural (PLN). Apesar da existência na literatura de vários métodos destinados à identificação de menções e ao agrupamento de menções, dentre os quais aqueles baseados em aprendizado de máquina (AM), bem como à avaliação dos resultados gerados por sistemas de RC mediante o uso de métricas customizadas, o fato é que os resultados alcançados até o presente ainda estão aquém do esperado. Nesse contexto, passou-se a investigar o potencial de se adotar uma abordagem evolucionária baseada em PG, tendo em vista que a classe de algoritmos evolucionários vem obtendo êxito na resolução de vários problemas complexos de aprendizado de máquina e mineração de textos. Neste estudo, em particular, investigou-se o impacto de se adotar diferentes métricas de avaliação (MUC, B³, CEAFe e BLANC) atuando como função de aptidão dos indivíduos (classificadores) gerados pela PG. Ademais, investigou-se o desempenho de diferentes esquemas de combinação de programas genéticos em comitês de máquinas, almejando-se um incremento no desempenho. Para fins de validação da metodologia proposta, foi conduzido um estudo empírico abrangente sobre o corpus de língua inglesa utilizado em recentes competições internacionais organizadas pela CoNLL (Conferência Computacional de Aprendizado em Linguagem Natural), que é a principal conferência acerca do tema "AM + PLN". Os resultados de desempenho obtidos pelos comitês de programas genéticos gerados foram em geral satisfatórios, não alcançando, porém, aqueles obtidos pelos sistemas de RC mais bem ranqueados nas competições do CoNLL. Por outro lado, o estudo comparativo acerca do efeito das métricas de avaliação como função de aptidão da PG evidenciou que há sim um impacto dessa escolha sobre o desempenho exibido pelos programas genéticos gerados. Além disso, há fortes correlações entre os perfis de desempenho gerados por algumas das métricas, sendo que a sensibilidade de discriminação das soluções exibida pela métrica BLANC é a que mais se assemelha à daquela exibida pela métrica efetivamente utilizada nas competições do CoNLL. Palavras-chave: Análise de correferência, resolução de correferência, programação genética, comitês de programas genéticos.
publishDate	2013
dc.date.none.fl_str_mv	2013
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094
url	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/99094
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://uol.unifor.br/auth-sophia/exibicao/10166 Disponibilidade forma física: Existe obra impressa de código : 91370
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR instname:Universidade de Fortaleza (UNIFOR) instacron:UNIFOR
instname_str	Universidade de Fortaleza (UNIFOR)
instacron_str	UNIFOR
institution	UNIFOR
reponame_str	Biblioteca Digital de Teses e Dissertações da UNIFOR
collection	Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv	bib@unifor.br\|\|bib@unifor.br
_version_	1800408698593476608

Análise de correferência em textos via comitês de programas genéticos

Registros relacionados