Analysing semantic resources for coreference resolution

Lima, Thiago Machado

Analysing semantic resources for coreference resolution

Detalhes bibliográficos
Autor(a) principal:	Lima, Thiago Machado
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo:	http://tede2.pucrs.br/tede2/handle/tede/9079
Resumo:	Resolução de Correferência é uma tarefa que consiste em identificar menções em um discurso que se referem a uma mesma entidade. A tarefa tem o potencial de aprimorar outras tarefas de Processamento de Linguagem Natural como análise de sentimentos, extração de informação, sistemas de pergunta-resposta, entre outras. Algumas relações de correferência podem ser identificadas utilizando-se regras lexicais e sintáticas, enquanto para outras é necessário conhecimento semântico. No entanto, poucos trabalhos de resolução de correferência focaram em melhorias que possam ser realizadas com conhecimento semântico. O objetivo deste trabalho é aprimorar a tarefa de resolução de correferência utilizando semântica. Para isso, foram revisados os recursos semânticos disponíveis para o Português, dos quais foram selecionados para os experimentos o ContoPT, o Concept- Net e um modelo de word embeddings. Os experimentos foram realizados no CORP, uma ferramenta de correferência para o Português que já utiliza o OntoPT como recurso semântico. A avaliação foi composta pelas métricas MUC, B3 e CEAFe, utilizando-se os corpora Corref-PT e Summ-it++. Ao comparar com o OntoPT, obtivemos melhores resultados em termos de Medida-F utilizando o ContoPT e o ConceptNet. Nos experimentos com a regra de similaridade semântica que utiliza o modelo de word embeddings não foi posível atingirmos os resultados obtidos com as bases semânticas estruturadas. Textos com mais relações semânticas foram selecionados para análise de erros, na qual observamos algumasdificuldades envolvendo a detecção de relacionamentos semânticos. Para tratar essas dificuldades foram propostas melhorias. Como contribuição este trabalho traz, além da análise das bases, uma nova versão do CORP integrada com três novos recursos semânticos. A nova versão obteve uma maior Medida-F utilizando semântica em relação à versão anterior que utiliza o OntoPT.

Metadados do item

id	P_RS_09e8daf2c93eb4b29d9fc901a205cbd1
oai_identifier_str	oai:tede2.pucrs.br:tede/9079
network_acronym_str	P_RS
network_name_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling	Vieira, Renatahttp://lattes.cnpq.br/6218967777630412Collovini, Sandrahttp://lattes.cnpq.br/0943477449872196http://lattes.cnpq.br/8291310436197653Lima, Thiago Machado2020-01-27T20:28:16Z2019-03-15http://tede2.pucrs.br/tede2/handle/tede/9079Resolução de Correferência é uma tarefa que consiste em identificar menções em um discurso que se referem a uma mesma entidade. A tarefa tem o potencial de aprimorar outras tarefas de Processamento de Linguagem Natural como análise de sentimentos, extração de informação, sistemas de pergunta-resposta, entre outras. Algumas relações de correferência podem ser identificadas utilizando-se regras lexicais e sintáticas, enquanto para outras é necessário conhecimento semântico. No entanto, poucos trabalhos de resolução de correferência focaram em melhorias que possam ser realizadas com conhecimento semântico. O objetivo deste trabalho é aprimorar a tarefa de resolução de correferência utilizando semântica. Para isso, foram revisados os recursos semânticos disponíveis para o Português, dos quais foram selecionados para os experimentos o ContoPT, o Concept- Net e um modelo de word embeddings. Os experimentos foram realizados no CORP, uma ferramenta de correferência para o Português que já utiliza o OntoPT como recurso semântico. A avaliação foi composta pelas métricas MUC, B3 e CEAFe, utilizando-se os corpora Corref-PT e Summ-it++. Ao comparar com o OntoPT, obtivemos melhores resultados em termos de Medida-F utilizando o ContoPT e o ConceptNet. Nos experimentos com a regra de similaridade semântica que utiliza o modelo de word embeddings não foi posível atingirmos os resultados obtidos com as bases semânticas estruturadas. Textos com mais relações semânticas foram selecionados para análise de erros, na qual observamos algumasdificuldades envolvendo a detecção de relacionamentos semânticos. Para tratar essas dificuldades foram propostas melhorias. Como contribuição este trabalho traz, além da análise das bases, uma nova versão do CORP integrada com três novos recursos semânticos. A nova versão obteve uma maior Medida-F utilizando semântica em relação à versão anterior que utiliza o OntoPT.Coreference Resolution is the task that consists of identifying mentions in a discourse that refer to the same entity. The task has the potential to improve other Natural Language Processing tasks such as sentiment analysis, information extraction, question answering, and others. Some coreferent relationships can be identified using lexical and syntactical rules, while others require semantic knowledge. However, few works focus on the possible improvements of using semantic knowledge. This work’s objective is to improve the coreference resolution task by using semantic knowledge. For that, we reviewed the semantic resources available for the Portuguese language, and selected ContoPT, Concept-Net and a word embedding model for our experiments. Experiments were performed using CORP, a coreference tool for the Portuguese language which already uses OntoPT as a semantic resource. The evaluation was composed of metrics MUC, B3 and CEAFe, using Corref-PT and Summ-it++ as corpora. Compared to OntoPT, we obtained better results in terms of F-Measure using ContoPT and ConceptNet. The experiments using the semantic similarity rule based in word embeddings was not able to surpass the results obtained with the structured semantic bases. Texts with more semantic relationships were selected for error analysis, and we were able to observe some difficulties involved in the detection of semantic relationships. To overcome these difficulties improvements are proposed. Besides the analysis of available semantic basis, this work brings as contribution a new CORP version, integrated with three new semantic resources, which obtained a higher F-Measure using semantics than the version that uses OntoPT.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2020-01-20T14:43:19Z No. of bitstreams: 1 THIAGO MACHADO LIMA_DIS.pdf: 1007664 bytes, checksum: 133ead2776491ddcb6a67c86456ec12e (MD5)Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2020-01-27T20:20:47Z (GMT) No. of bitstreams: 1 THIAGO MACHADO LIMA_DIS.pdf: 1007664 bytes, checksum: 133ead2776491ddcb6a67c86456ec12e (MD5)Made available in DSpace on 2020-01-27T20:28:16Z (GMT). No. of bitstreams: 1 THIAGO MACHADO LIMA_DIS.pdf: 1007664 bytes, checksum: 133ead2776491ddcb6a67c86456ec12e (MD5) Previous issue date: 2019-03-15application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/177524/THIAGO%20MACHADO%20LIMA_DIS.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaCoreference ResolutionSemantic KnowledgeCorpus AnalysisResolução de CorreferênciaConhecimento SemânticoAnálise de CorpusCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOAnalysing semantic resources for coreference resolutioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILTHIAGO MACHADO LIMA_DIS.pdf.jpgTHIAGO MACHADO LIMA_DIS.pdf.jpgimage/jpeg5533http://tede2.pucrs.br/tede2/bitstream/tede/9079/4/THIAGO+MACHADO+LIMA_DIS.pdf.jpg2ad92dd322125c9cd6a302a46b94f00aMD54TEXTTHIAGO MACHADO LIMA_DIS.pdf.txtTHIAGO MACHADO LIMA_DIS.pdf.txttext/plain106734http://tede2.pucrs.br/tede2/bitstream/tede/9079/3/THIAGO+MACHADO+LIMA_DIS.pdf.txt5965025d62de69b1eb3e01e2af937bd9MD53ORIGINALTHIAGO MACHADO LIMA_DIS.pdfTHIAGO MACHADO LIMA_DIS.pdfapplication/pdf1007664http://tede2.pucrs.br/tede2/bitstream/tede/9079/2/THIAGO+MACHADO+LIMA_DIS.pdf133ead2776491ddcb6a67c86456ec12eMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8590http://tede2.pucrs.br/tede2/bitstream/tede/9079/1/license.txt220e11f2d3ba5354f917c7035aadef24MD51tede/90792020-01-27 20:00:18.293oai:tede2.pucrs.br:tede/9079QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br\|\|opendoar:2020-01-27T22:00:18Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv	Analysing semantic resources for coreference resolution
title	Analysing semantic resources for coreference resolution
spellingShingle	Analysing semantic resources for coreference resolution Lima, Thiago Machado Coreference Resolution Semantic Knowledge Corpus Analysis Resolução de Correferência Conhecimento Semântico Análise de Corpus CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short	Analysing semantic resources for coreference resolution
title_full	Analysing semantic resources for coreference resolution
title_fullStr	Analysing semantic resources for coreference resolution
title_full_unstemmed	Analysing semantic resources for coreference resolution
title_sort	Analysing semantic resources for coreference resolution
author	Lima, Thiago Machado
author_facet	Lima, Thiago Machado
author_role	author
dc.contributor.advisor1.fl_str_mv	Vieira, Renata
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/6218967777630412
dc.contributor.advisor-co1.fl_str_mv	Collovini, Sandra
dc.contributor.advisor-co1Lattes.fl_str_mv	http://lattes.cnpq.br/0943477449872196
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/8291310436197653
dc.contributor.author.fl_str_mv	Lima, Thiago Machado
contributor_str_mv	Vieira, Renata Collovini, Sandra
dc.subject.eng.fl_str_mv	Coreference Resolution Semantic Knowledge Corpus Analysis
topic	Coreference Resolution Semantic Knowledge Corpus Analysis Resolução de Correferência Conhecimento Semântico Análise de Corpus CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.por.fl_str_mv	Resolução de Correferência Conhecimento Semântico Análise de Corpus
dc.subject.cnpq.fl_str_mv	CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description	Resolução de Correferência é uma tarefa que consiste em identificar menções em um discurso que se referem a uma mesma entidade. A tarefa tem o potencial de aprimorar outras tarefas de Processamento de Linguagem Natural como análise de sentimentos, extração de informação, sistemas de pergunta-resposta, entre outras. Algumas relações de correferência podem ser identificadas utilizando-se regras lexicais e sintáticas, enquanto para outras é necessário conhecimento semântico. No entanto, poucos trabalhos de resolução de correferência focaram em melhorias que possam ser realizadas com conhecimento semântico. O objetivo deste trabalho é aprimorar a tarefa de resolução de correferência utilizando semântica. Para isso, foram revisados os recursos semânticos disponíveis para o Português, dos quais foram selecionados para os experimentos o ContoPT, o Concept- Net e um modelo de word embeddings. Os experimentos foram realizados no CORP, uma ferramenta de correferência para o Português que já utiliza o OntoPT como recurso semântico. A avaliação foi composta pelas métricas MUC, B3 e CEAFe, utilizando-se os corpora Corref-PT e Summ-it++. Ao comparar com o OntoPT, obtivemos melhores resultados em termos de Medida-F utilizando o ContoPT e o ConceptNet. Nos experimentos com a regra de similaridade semântica que utiliza o modelo de word embeddings não foi posível atingirmos os resultados obtidos com as bases semânticas estruturadas. Textos com mais relações semânticas foram selecionados para análise de erros, na qual observamos algumasdificuldades envolvendo a detecção de relacionamentos semânticos. Para tratar essas dificuldades foram propostas melhorias. Como contribuição este trabalho traz, além da análise das bases, uma nova versão do CORP integrada com três novos recursos semânticos. A nova versão obteve uma maior Medida-F utilizando semântica em relação à versão anterior que utiliza o OntoPT.
publishDate	2019
dc.date.issued.fl_str_mv	2019-03-15
dc.date.accessioned.fl_str_mv	2020-01-27T20:28:16Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://tede2.pucrs.br/tede2/handle/tede/9079
url	http://tede2.pucrs.br/tede2/handle/tede/9079
dc.language.iso.fl_str_mv	eng
language	eng
dc.relation.program.fl_str_mv	-4570527706994352458
dc.relation.confidence.fl_str_mv	500 500
dc.relation.cnpq.fl_str_mv	-862078257083325301
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv	PUCRS
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Escola Politécnica
publisher.none.fl_str_mv	Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS
instname_str	Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str	PUC_RS
institution	PUC_RS
reponame_str	Biblioteca Digital de Teses e Dissertações da PUC_RS
collection	Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv	http://tede2.pucrs.br/tede2/bitstream/tede/9079/4/THIAGO+MACHADO+LIMA_DIS.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/9079/3/THIAGO+MACHADO+LIMA_DIS.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/9079/2/THIAGO+MACHADO+LIMA_DIS.pdf http://tede2.pucrs.br/tede2/bitstream/tede/9079/1/license.txt
bitstream.checksum.fl_str_mv	2ad92dd322125c9cd6a302a46b94f00a 5965025d62de69b1eb3e01e2af937bd9 133ead2776491ddcb6a67c86456ec12e 220e11f2d3ba5354f917c7035aadef24
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv	biblioteca.central@pucrs.br\|\|
_version_	1799765343701303296

Analysing semantic resources for coreference resolution

Registros relacionados