Resolução de correferência nominal usando semântica em língua portuguesa
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_RS |
Texto Completo: | http://tede2.pucrs.br/tede2/handle/tede/8169 |
Resumo: | Coreference Resolution task is challenging for Natural Language Processing, considering the required linguistic knowledge and the sophistication of language processing techniques involved. Even though it is a demanding task, a motivating factor in the study of this phenomenon is its usefulness. Basically, several Natural Language Processing tasks may benefit from their results, such as named entities recognition, relation extraction between named entities, summarization, sentiment analysis, among others. Coreference Resolution is a process that consists on identifying certain terms and expressions that refer to the same entity. For example, in the sentence “ France is refusing. The country is one of the first in the ranking... ” we can say that [the country] is a coreference of [France]. By grouping these referential terms, we form coreference groups, more commonly known as coreference chains. This thesis proposes a process for coreference resolution between noun phrases for Portuguese, focusing on the use of semantic knowledge. Our proposed approach is based on syntactic-semantic linguistic rules. That is, we combine different levels of linguistic processing, using semantic relations as support, in order to infer referential relations between mentions. Models based on linguistic rules have been efficiently applied in other languages, such as: English, Spanish and Galician. In few words, these models are more efficient than machine learning approaches when we deal with less resourceful languages, since the lack of sample-rich corpora may produce a poor training. The proposed approach is the first model for Portuguese coreference resolution which uses semantic knowledge. Thus, we consider it as the main contribution of this thesis. |
id |
P_RS_343e7a6d1062ba023a79e689e27a50b4 |
---|---|
oai_identifier_str |
oai:tede2.pucrs.br:tede/8169 |
network_acronym_str |
P_RS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
repository_id_str |
|
spelling |
Vieira, RenataVanin, Aline Averhttp://lattes.cnpq.br/7639784707152839http://lattes.cnpq.br/3229974637891253Fonseca, Evandro Brasil2018-06-26T14:48:46Z2018-03-19http://tede2.pucrs.br/tede2/handle/tede/8169Coreference Resolution task is challenging for Natural Language Processing, considering the required linguistic knowledge and the sophistication of language processing techniques involved. Even though it is a demanding task, a motivating factor in the study of this phenomenon is its usefulness. Basically, several Natural Language Processing tasks may benefit from their results, such as named entities recognition, relation extraction between named entities, summarization, sentiment analysis, among others. Coreference Resolution is a process that consists on identifying certain terms and expressions that refer to the same entity. For example, in the sentence “ France is refusing. The country is one of the first in the ranking... ” we can say that [the country] is a coreference of [France]. By grouping these referential terms, we form coreference groups, more commonly known as coreference chains. This thesis proposes a process for coreference resolution between noun phrases for Portuguese, focusing on the use of semantic knowledge. Our proposed approach is based on syntactic-semantic linguistic rules. That is, we combine different levels of linguistic processing, using semantic relations as support, in order to infer referential relations between mentions. Models based on linguistic rules have been efficiently applied in other languages, such as: English, Spanish and Galician. In few words, these models are more efficient than machine learning approaches when we deal with less resourceful languages, since the lack of sample-rich corpora may produce a poor training. The proposed approach is the first model for Portuguese coreference resolution which uses semantic knowledge. Thus, we consider it as the main contribution of this thesis.A tarefa de Resolução de Correferência é um grande desafio para a área de Processamento da Linguagem Natural, tendo em vista o conhecimento linguístico exigido e a sofisticação das técnicas de processamento da língua empregados. Mesmo sendo uma tarefa desafiadora, um fator motivador do estudo deste fenômeno se dá pela sua utilidade. Basicamente, várias tarefas de Processamento da Linguagem Natural podem se beneficiar de seus resultados, como, por exemplo, o reconhecimento de entidades nomeadas, extração de relação entre entidades nomeadas, sumarização, análise de sentimentos, entre outras. A Resolução de Correferência é um processo que consiste em identificar determinados termos e expressões que remetem a uma mesma entidade. Por exemplo, na sentença “A França está resistindo. O país é um dos primeiros no ranking...” podemos dizer que [o país] é uma correferência de [A França]. Realizando o agrupamento desses termos referenciais, formamos grupos de menções correferentes, mais conhecidos como cadeias de correferência. Esta tese propõe um processo para a resolução de correferência entre sintagmas nominais para a língua portuguesa, tendo como foco a utilização do conhecimento semântico. Nossa abordagem proposta é baseada em regras linguísticas sintático-semânticas. Ou seja, combinamos diferentes níveis de processamento linguístico utilizando relações semânticas como apoio, de forma a inferir relações referenciais entre menções. Modelos baseados em regras linguísticas têm sido aplicados eficientemente em outros idiomas como o inglês, o espanhol e o galego. Esses modelos mostram-se mais eficientes que os baseados em aprendizado de máquina quando lidamos com idiomas menos providos de recursos, dado que a ausência de corpora ricos em amostras pode prejudicar o treino desses modelos. O modelo proposto nesta tese é o primeiro voltado para a resolução de correferência em português que faz uso de conhecimento semântico. Dessa forma, tomamos este fator como a principal contribuição deste trabalho.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2018-06-19T11:37:24Z No. of bitstreams: 1 EVANDRO BRASIL FONSECA_TES.pdf: 1972824 bytes, checksum: 9fca0c499753cd9d2822c59040e826bf (MD5)Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-06-26T14:40:39Z (GMT) No. of bitstreams: 1 EVANDRO BRASIL FONSECA_TES.pdf: 1972824 bytes, checksum: 9fca0c499753cd9d2822c59040e826bf (MD5)Made available in DSpace on 2018-06-26T14:48:46Z (GMT). No. of bitstreams: 1 EVANDRO BRASIL FONSECA_TES.pdf: 1972824 bytes, checksum: 9fca0c499753cd9d2822c59040e826bf (MD5) Previous issue date: 2018-03-19application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/172616/EVANDRO%20BRASIL%20FONSECA_TES.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaResolução de CorreferênciaExtração de InformaçãoCoreference ResolutionInformation ExtractionCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOResolução de correferência nominal usando semântica em língua portuguesainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisTrabalho não apresenta restrição para publicação1974996533081274470500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILEVANDRO BRASIL FONSECA_TES.pdf.jpgEVANDRO BRASIL FONSECA_TES.pdf.jpgimage/jpeg4899http://tede2.pucrs.br/tede2/bitstream/tede/8169/4/EVANDRO+BRASIL+FONSECA_TES.pdf.jpgd7fa51000ab126c04f3d0dea38dd68f4MD54TEXTEVANDRO BRASIL FONSECA_TES.pdf.txtEVANDRO BRASIL FONSECA_TES.pdf.txttext/plain208449http://tede2.pucrs.br/tede2/bitstream/tede/8169/3/EVANDRO+BRASIL+FONSECA_TES.pdf.txt0da35164ce29c1637605f29c70d29c6bMD53ORIGINALEVANDRO BRASIL FONSECA_TES.pdfEVANDRO BRASIL FONSECA_TES.pdfapplication/pdf1972824http://tede2.pucrs.br/tede2/bitstream/tede/8169/2/EVANDRO+BRASIL+FONSECA_TES.pdf9fca0c499753cd9d2822c59040e826bfMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8610http://tede2.pucrs.br/tede2/bitstream/tede/8169/1/license.txt5a9d6006225b368ef605ba16b4f6d1beMD51tede/81692018-06-26 12:00:58.995oai:tede2.pucrs.br:tede/8169QXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBFbGV0csO0bmljYTogQ29tIGJhc2Ugbm8gZGlzcG9zdG8gbmEgTGVpIEZlZGVyYWwgbsK6OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYcOnw6NvIGVsZXRyw7RuaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWbDrWNpYSBVbml2ZXJzaWRhZGUgQ2F0w7NsaWNhIGRvIFJpbyBHcmFuZGUgZG8gU3VsLCBzZWRpYWRhIGEgQXYuIElwaXJhbmdhIDY2ODEsIFBvcnRvIEFsZWdyZSwgUmlvIEdyYW5kZSBkbyBTdWwsIGNvbSByZWdpc3RybyBkZSBDTlBKIDg4NjMwNDEzMDAwMi04MSBiZW0gY29tbyBlbSBvdXRyYXMgYmlibGlvdGVjYXMgZGlnaXRhaXMsIG5hY2lvbmFpcyBlIGludGVybmFjaW9uYWlzLCBjb25zw7NyY2lvcyBlIHJlZGVzIMOgcyBxdWFpcyBhIGJpYmxpb3RlY2EgZGEgUFVDUlMgcG9zc2EgYSB2aXIgcGFydGljaXBhciwgc2VtIMO0bnVzIGFsdXNpdm8gYW9zIGRpcmVpdG9zIGF1dG9yYWlzLCBhIHTDrXR1bG8gZGUgZGl2dWxnYcOnw6NvIGRhIHByb2R1w6fDo28gY2llbnTDrWZpY2EuCg==Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2018-06-26T15:00:58Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
dc.title.por.fl_str_mv |
Resolução de correferência nominal usando semântica em língua portuguesa |
title |
Resolução de correferência nominal usando semântica em língua portuguesa |
spellingShingle |
Resolução de correferência nominal usando semântica em língua portuguesa Fonseca, Evandro Brasil Resolução de Correferência Extração de Informação Coreference Resolution Information Extraction CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
title_short |
Resolução de correferência nominal usando semântica em língua portuguesa |
title_full |
Resolução de correferência nominal usando semântica em língua portuguesa |
title_fullStr |
Resolução de correferência nominal usando semântica em língua portuguesa |
title_full_unstemmed |
Resolução de correferência nominal usando semântica em língua portuguesa |
title_sort |
Resolução de correferência nominal usando semântica em língua portuguesa |
author |
Fonseca, Evandro Brasil |
author_facet |
Fonseca, Evandro Brasil |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Vieira, Renata |
dc.contributor.advisor-co1.fl_str_mv |
Vanin, Aline Aver |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/7639784707152839 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/3229974637891253 |
dc.contributor.author.fl_str_mv |
Fonseca, Evandro Brasil |
contributor_str_mv |
Vieira, Renata Vanin, Aline Aver |
dc.subject.por.fl_str_mv |
Resolução de Correferência Extração de Informação |
topic |
Resolução de Correferência Extração de Informação Coreference Resolution Information Extraction CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Coreference Resolution Information Extraction |
dc.subject.cnpq.fl_str_mv |
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
description |
Coreference Resolution task is challenging for Natural Language Processing, considering the required linguistic knowledge and the sophistication of language processing techniques involved. Even though it is a demanding task, a motivating factor in the study of this phenomenon is its usefulness. Basically, several Natural Language Processing tasks may benefit from their results, such as named entities recognition, relation extraction between named entities, summarization, sentiment analysis, among others. Coreference Resolution is a process that consists on identifying certain terms and expressions that refer to the same entity. For example, in the sentence “ France is refusing. The country is one of the first in the ranking... ” we can say that [the country] is a coreference of [France]. By grouping these referential terms, we form coreference groups, more commonly known as coreference chains. This thesis proposes a process for coreference resolution between noun phrases for Portuguese, focusing on the use of semantic knowledge. Our proposed approach is based on syntactic-semantic linguistic rules. That is, we combine different levels of linguistic processing, using semantic relations as support, in order to infer referential relations between mentions. Models based on linguistic rules have been efficiently applied in other languages, such as: English, Spanish and Galician. In few words, these models are more efficient than machine learning approaches when we deal with less resourceful languages, since the lack of sample-rich corpora may produce a poor training. The proposed approach is the first model for Portuguese coreference resolution which uses semantic knowledge. Thus, we consider it as the main contribution of this thesis. |
publishDate |
2018 |
dc.date.accessioned.fl_str_mv |
2018-06-26T14:48:46Z |
dc.date.issued.fl_str_mv |
2018-03-19 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://tede2.pucrs.br/tede2/handle/tede/8169 |
url |
http://tede2.pucrs.br/tede2/handle/tede/8169 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
1974996533081274470 |
dc.relation.confidence.fl_str_mv |
500 500 |
dc.relation.cnpq.fl_str_mv |
-862078257083325301 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
PUCRS |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Escola Politécnica |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
instacron_str |
PUC_RS |
institution |
PUC_RS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
bitstream.url.fl_str_mv |
http://tede2.pucrs.br/tede2/bitstream/tede/8169/4/EVANDRO+BRASIL+FONSECA_TES.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/8169/3/EVANDRO+BRASIL+FONSECA_TES.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/8169/2/EVANDRO+BRASIL+FONSECA_TES.pdf http://tede2.pucrs.br/tede2/bitstream/tede/8169/1/license.txt |
bitstream.checksum.fl_str_mv |
d7fa51000ab126c04f3d0dea38dd68f4 0da35164ce29c1637605f29c70d29c6b 9fca0c499753cd9d2822c59040e826bf 5a9d6006225b368ef605ba16b4f6d1be |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
_version_ |
1799765334680403968 |