COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE

ADRIEL GARCIA HERNANDEZ

COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE

Detalhes bibliográficos
Autor(a) principal:	ADRIEL GARCIA HERNANDEZ
Data de Publicação:	2017
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=30730@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=30730@2
Resumo:	Um dos problemas encontrados nos sistemas de processamento de linguagem natural é a dificuldade em identificar elementos textuais que se referem à mesma entidade. Este fenômeno é chamado de correferência. Resolver esse problema é parte integrante da compreensão do discurso, permitindo que os usuários da linguagem conectem as partes da informação de fala relativas à mesma entidade. Por conseguinte, a resolução de correferência é um importante foco de atenção no processamento da linguagem natural.Apesar da riqueza das pesquisas existentes, o desempenho atual dos sistemas de resolução de correferência ainda não atingiu um nível satisfatório. Neste trabalho, descrevemos um sistema de aprendizado estruturado para resolução de correferências em restrições que explora duas técnicas: árvores de correferência latente e indução automática de atributos guiadas por entropia. A modelagem de árvore latente torna o problema de aprendizagem computacionalmente viável porque incorpora uma estrutura escondida relevante. Além disso, utilizando um método automático de indução de recursos, podemos construir eficientemente modelos não-lineares, usando algoritmos de aprendizado de modelo linear como, por exemplo, o algoritmo de perceptron estruturado e esparso.Nós avaliamos o sistema para textos em inglês, utilizando o conjunto de dados da CoNLL-2012 Shared Task. Para a língua inglesa, nosso sistema obteve um valor de 62.24 por cento no score oficial dessa competição. Este resultado está abaixo do desempenho no estado da arte para esta tarefa que é de 65.73 por cento. No entanto, nossa solução reduz significativamente o tempo de obtenção dos clusters dos documentos, pois, nosso sistema leva 0.35 segundos por documento no conjunto de testes, enquanto no estado da arte, leva 5 segundos para cada um.

Metadados do item

id	PUC_RIO-1_d6fc08b14e2d846aa9088ce00c51e41e
oai_identifier_str	oai:MAXWELL.puc-rio.br:30730
network_acronym_str	PUC_RIO-1
network_name_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str	534
spelling	info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisCOREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE RESOLUÇÃO DE CO-REFERÊNCIA PARA A LÍNGUA INGLESA 2017-04-26RUY LUIZ MILIDIU12249475091lattes.cnpq.br/6918010504362643MARCUS VINICIUS S P DE ARAGAOLEANDRO GUIMARAES MARQUES ALVIMRUY LUIZ MILIDIULEANDRO GUIMARAES MARQUES ALVIM06317334773lattes.cnpq.br/6251665618002071ADRIEL GARCIA HERNANDEZPONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIROPPG EM INFORMÁTICAPUC-RioBRUm dos problemas encontrados nos sistemas de processamento de linguagem natural é a dificuldade em identificar elementos textuais que se referem à mesma entidade. Este fenômeno é chamado de correferência. Resolver esse problema é parte integrante da compreensão do discurso, permitindo que os usuários da linguagem conectem as partes da informação de fala relativas à mesma entidade. Por conseguinte, a resolução de correferência é um importante foco de atenção no processamento da linguagem natural.Apesar da riqueza das pesquisas existentes, o desempenho atual dos sistemas de resolução de correferência ainda não atingiu um nível satisfatório. Neste trabalho, descrevemos um sistema de aprendizado estruturado para resolução de correferências em restrições que explora duas técnicas: árvores de correferência latente e indução automática de atributos guiadas por entropia. A modelagem de árvore latente torna o problema de aprendizagem computacionalmente viável porque incorpora uma estrutura escondida relevante. Além disso, utilizando um método automático de indução de recursos, podemos construir eficientemente modelos não-lineares, usando algoritmos de aprendizado de modelo linear como, por exemplo, o algoritmo de perceptron estruturado e esparso.Nós avaliamos o sistema para textos em inglês, utilizando o conjunto de dados da CoNLL-2012 Shared Task. Para a língua inglesa, nosso sistema obteve um valor de 62.24 por cento no score oficial dessa competição. Este resultado está abaixo do desempenho no estado da arte para esta tarefa que é de 65.73 por cento. No entanto, nossa solução reduz significativamente o tempo de obtenção dos clusters dos documentos, pois, nosso sistema leva 0.35 segundos por documento no conjunto de testes, enquanto no estado da arte, leva 5 segundos para cada um.One of the problems found in natural language processing systems, is the difficulty to identify textual elements referring to the same entity, this task is called coreference. Solving this problem is an integral part of discourse comprehension since it allows language users to connect the pieces of speech information concerning to the same entity. Consequently, coreference resolution is a key task in natural language processing.Despite the large efforts of existing research, the current performance of coreference resolution systems has not reached a satisfactory level yet. In this work, we describe a structure learning system for unrestricted coreferencere solution that explores two techniques: latent coreference trees and automatic entropy-guided feature induction. The latent tree modeling makes the learning problem computationally feasible,since it incorporates are levant hidden structure. Additionally,using an automatic feature induction method, we can efciently build enhanced non-linear models using linear model learning algorithms, namely, the structure dandsparse perceptron algorithm. We evaluate the system on the CoNLL-2012 Shared Task closed track data set, for the English portion. The proposed system obtains a 62.24 per cent value on the competition s official score. This result is be low the 65.73 per cent, the state-of-the-art performance for this task. Nevertheless, our solution significantly reduces the time to obtain the clusters of adocument, since, our system takes 0.35 seconds per document in the testing set, while in the state-of-the-art, it takes 5 seconds for each one.https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=30730@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=30730@2engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-11-01T13:36:14Zoai:MAXWELL.puc-rio.br:30730Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342018-08-28T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.en.fl_str_mv	COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE
dc.title.alternative.pt.fl_str_mv	RESOLUÇÃO DE CO-REFERÊNCIA PARA A LÍNGUA INGLESA
title	COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE
spellingShingle	COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE ADRIEL GARCIA HERNANDEZ
title_short	COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE
title_full	COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE
title_fullStr	COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE
title_full_unstemmed	COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE
title_sort	COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE
author	ADRIEL GARCIA HERNANDEZ
author_facet	ADRIEL GARCIA HERNANDEZ
author_role	author
dc.contributor.advisor1.fl_str_mv	RUY LUIZ MILIDIU
dc.contributor.advisor1ID.fl_str_mv	12249475091
dc.contributor.advisor1Lattes.fl_str_mv	lattes.cnpq.br/6918010504362643
dc.contributor.referee1.fl_str_mv	MARCUS VINICIUS S P DE ARAGAO
dc.contributor.referee2.fl_str_mv	LEANDRO GUIMARAES MARQUES ALVIM
dc.contributor.referee3.fl_str_mv	RUY LUIZ MILIDIU
dc.contributor.referee4.fl_str_mv	LEANDRO GUIMARAES MARQUES ALVIM
dc.contributor.authorID.fl_str_mv	06317334773
dc.contributor.authorLattes.fl_str_mv	lattes.cnpq.br/6251665618002071
dc.contributor.author.fl_str_mv	ADRIEL GARCIA HERNANDEZ
contributor_str_mv	RUY LUIZ MILIDIU MARCUS VINICIUS S P DE ARAGAO LEANDRO GUIMARAES MARQUES ALVIM RUY LUIZ MILIDIU LEANDRO GUIMARAES MARQUES ALVIM
description	Um dos problemas encontrados nos sistemas de processamento de linguagem natural é a dificuldade em identificar elementos textuais que se referem à mesma entidade. Este fenômeno é chamado de correferência. Resolver esse problema é parte integrante da compreensão do discurso, permitindo que os usuários da linguagem conectem as partes da informação de fala relativas à mesma entidade. Por conseguinte, a resolução de correferência é um importante foco de atenção no processamento da linguagem natural.Apesar da riqueza das pesquisas existentes, o desempenho atual dos sistemas de resolução de correferência ainda não atingiu um nível satisfatório. Neste trabalho, descrevemos um sistema de aprendizado estruturado para resolução de correferências em restrições que explora duas técnicas: árvores de correferência latente e indução automática de atributos guiadas por entropia. A modelagem de árvore latente torna o problema de aprendizagem computacionalmente viável porque incorpora uma estrutura escondida relevante. Além disso, utilizando um método automático de indução de recursos, podemos construir eficientemente modelos não-lineares, usando algoritmos de aprendizado de modelo linear como, por exemplo, o algoritmo de perceptron estruturado e esparso.Nós avaliamos o sistema para textos em inglês, utilizando o conjunto de dados da CoNLL-2012 Shared Task. Para a língua inglesa, nosso sistema obteve um valor de 62.24 por cento no score oficial dessa competição. Este resultado está abaixo do desempenho no estado da arte para esta tarefa que é de 65.73 por cento. No entanto, nossa solução reduz significativamente o tempo de obtenção dos clusters dos documentos, pois, nosso sistema leva 0.35 segundos por documento no conjunto de testes, enquanto no estado da arte, leva 5 segundos para cada um.
publishDate	2017
dc.date.issued.fl_str_mv	2017-04-26
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=30730@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=30730@2
url	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=30730@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=30730@2
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.publisher.program.fl_str_mv	PPG EM INFORMÁTICA
dc.publisher.initials.fl_str_mv	PUC-Rio
dc.publisher.country.fl_str_mv	BR
publisher.none.fl_str_mv	PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.source.none.fl_str_mv	reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO
instname_str	Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str	PUC_RIO
institution	PUC_RIO
reponame_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv	Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_	1748324932879646720

COREFERENCE RESOLUTION FOR THE ENGLISH LANGUAGE

Registros relacionados