Automatic semantic role labeling for European Portuguese
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.1/6930 |
Resumo: | Dissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014 |
id |
RCAP_ec114711715f24d7f5dd0032bf5a1592 |
---|---|
oai_identifier_str |
oai:sapientia.ualg.pt:10400.1/6930 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Automatic semantic role labeling for European PortugueseCiências da linguagemSemânticaProcessamento da linguagem naturalGramáticaLexicologiaPortuguês europeuDomínio/Área Científica::Humanidades::Línguas e LiteraturasDissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014This thesis addresses the task of Semantic Role Labeling (SRL) in European Portuguese. SRL can be used in a number of NLP application, namely Anaphora Resolution, Question Answering, Summarization, etc. A general-purpose, consensual set of 37 semantic roles was defined, based on a survey of the relevant related work, and using highly reproducible properties. A set of annotation guidelines was also built, in order to clarify how semantic roles should be assigned to verbal arguments in context. A SRL module was built and integrated in a fully-fledged Natural Language Processing (NLP) chain, named STRING, developed at INESC-ID Lisboa. For this module, the information from a lexicon-syntactic database, ViPEr, which contains the relevant linguistic information for more than 6,000 European Portuguese full (or lexical, or distributional) verbs, was used and the database manually enriched with the information pertaining to the semantic roles of all verbal arguments. The SRL module is composed of 183 pattern-matching rules for labeling of subject (N0), first (N1) and second (N2) essential complements of verbal constructions and also allows the attribution of SR to other syntactic slots in the case of time, locative, manner, instrumental, comitative and other complements (both essential and circumstantial). This module was tested in a small corpus that was specifically annotated for this purpose. After this manual annotation, the corpus containing 655 semantic roles was used as a golden standard for automatic comparison with the system’s output. Considering that the SRL module operates at the last stages of the processing chain, a relatively high precision was achieved (69.9% in a strict evaluation and 77.7%, when evaluation included partial matches), though the recall was low (17.9%), which calls for future improvements.Esta tese aborda a tarefa de Anotação de Papéis Semânticos (APS) em Português Europeu. A APS pode ser usada em diversas aplicações de Processamento de Linguagem Natural (PLN) tais como, Resolução de Anáforas, Recuperação/Extração de Informação, Sumarização Automática, etc. Um conjunto de 37 papéis semânticos, consensual e de uso geral, foi definido com base nos trabalhos relacionados relevantes e recorrendo a propriedades suficientemente reprodutíveis. Foi também elaborado um conjunto de diretrizes de anotação, a fim de esclarecer como deveriam ser atribuídos aos argumentos verbais, em contexto, os seus respetivos papéis semânticos. Com base nestes elementos, foi construído um módulo de APS, que se encontra integrado na cadeia de Processamento de Linguagem Natural STRING, desenvolvida no INESC-ID Lisboa. Para este módulo, foram utilizadas as informações de um banco de dados léxico-sintáticos, ViPEr, que contém a informação linguística relevante para mais de 6.000 verbos plenos (ou lexicais, ou distribucionais) do Português Europeu, e a base de dados foi enriquecida manualmente com as informações referentes ao papéis semânticos de todos os argumentos verbais (sujeito e complementos essenciais). O módulo de APS é composto por 183 regras de correspondência de padrões para a marcação de sujeito (N0), primeiro (N1) e segundo (N2) complementos essenciais das construções verbais, e também permite a atribuição de papéis semânticos para outros constituintes sintáticos, adjuntos adverbiais, tais como os complementos de tempo, de modo, os complementos locativos, instrumentais, comitativos, entre outros (tanto essenciais como circunstanciais). Este módulo foi testado num corpus de textos reais, de natureza tipológica variada e abordando diversos tópicos, o qual foi manualmente anotado por dois linguistas especificamente para este propósito. Após esse processo de anotação manual, o corpus, que contém 655 papéis semânticos, foi usado como um corpus de referência (golden standard) para a comparação automática com a saída do sistema. Considerando-se que o módulo de APS opera nos últimos passos da cadeia de processamento, foi alcançada uma precisão relativamente alta (69,9 % em uma avaliação estrita e 77,7 %, quando a avaliação inclui resultados parciais), embora a abrangência (ou recall) tenha sido baixa (17,9 %), o que deverá constituir um dos objetivos do trabalho futuro.Baptista, Jorge Manuel EvangelistaSapientiaSantos, Rui Pedro Talhadas dos2015-10-20T18:10:17Z201420142014-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.1/6930TID:201729318enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-24T10:18:05Zoai:sapientia.ualg.pt:10400.1/6930Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:59:28.470469Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Automatic semantic role labeling for European Portuguese |
title |
Automatic semantic role labeling for European Portuguese |
spellingShingle |
Automatic semantic role labeling for European Portuguese Santos, Rui Pedro Talhadas dos Ciências da linguagem Semântica Processamento da linguagem natural Gramática Lexicologia Português europeu Domínio/Área Científica::Humanidades::Línguas e Literaturas |
title_short |
Automatic semantic role labeling for European Portuguese |
title_full |
Automatic semantic role labeling for European Portuguese |
title_fullStr |
Automatic semantic role labeling for European Portuguese |
title_full_unstemmed |
Automatic semantic role labeling for European Portuguese |
title_sort |
Automatic semantic role labeling for European Portuguese |
author |
Santos, Rui Pedro Talhadas dos |
author_facet |
Santos, Rui Pedro Talhadas dos |
author_role |
author |
dc.contributor.none.fl_str_mv |
Baptista, Jorge Manuel Evangelista Sapientia |
dc.contributor.author.fl_str_mv |
Santos, Rui Pedro Talhadas dos |
dc.subject.por.fl_str_mv |
Ciências da linguagem Semântica Processamento da linguagem natural Gramática Lexicologia Português europeu Domínio/Área Científica::Humanidades::Línguas e Literaturas |
topic |
Ciências da linguagem Semântica Processamento da linguagem natural Gramática Lexicologia Português europeu Domínio/Área Científica::Humanidades::Línguas e Literaturas |
description |
Dissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014 |
publishDate |
2014 |
dc.date.none.fl_str_mv |
2014 2014 2014-01-01T00:00:00Z 2015-10-20T18:10:17Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.1/6930 TID:201729318 |
url |
http://hdl.handle.net/10400.1/6930 |
identifier_str_mv |
TID:201729318 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133217927725056 |