Automatic identification of whole-part relations in Portuguese

Detalhes bibliográficos
Autor(a) principal: Markov, Ilia
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.1/8438
Resumo: Dissertação de Mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014
id RCAP_dff1d49ec25ba19414fef5e56b456726
oai_identifier_str oai:sapientia.ualg.pt:10400.1/8438
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Automatic identification of whole-part relations in PortugueseRelação todo-parteMeronímiaNome parte-do-corpoNome de doençaPortuguêsWhole-part relationMeronymyBody-part nounDisease nounPortugueseDomínio/Área Científica::Ciências Sociais::Ciências da ComunicaçãoDomínio/Área Científica::Humanidades::Outras HumanidadesDissertação de Mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014Neste trabalho, procurou-se melhorar a extração de relações semânticas entre elementos textuais tal como é atualmente realizada pela STRING, um sistema híbrido de Processamento de Linguagem Natural (PLN), baseado em métodos estatísticos e regras híbrido, e desenvolvido para o Português. Visaram-se as relações todo-parte (meronímia), que pode ser definida como uma relação semântica entre uma entidade que é percebido como parte integrante de outra entidade, ou a relação entre um membro e um conjunto de elementos. Neste caso, vamos-nos concentrar num tipo de meronímia envolvendo entidades humanas e nomes parte-do-corpo (Npc); e.g., O Pedro partiu uma perna: WHOLE-PART(Pedro,perna). Para extrair este tipo de relações parte-todo, foi construído um módulo de extração de relações meronímicas baseado em regras e que foi integrado na gramática do sistema de STRING. Cerca de 17.000 instâncias de Npc foram extraídas do primeiro fragmento do corpus CETEMPúblico para a avaliação deste trabalho. Foram também recolhidos 79 casos de nomes de doença (Nd), derivados a partir de um Npc subjacente (e.g., gastrite-estômago). A fim de produzir um corpus de referência (golden standard) para a avaliação, foi selecionada uma amostra aleatória estratificada de 1.000 frases, mantendo a proporção da frequência total de Npc no corpus. Esta amostra também inclui um pequeno número de Nd (6 lemas, 17 frases). Essas instâncias foram repartidas e anotadas por quatro falantes nativos de português. 100 frases foram dadas a todos os anotadores a fim de calcular o acordo inter-anotadores, que foi considerado entre “razoável” (fair) e “bom” (good). Comparando a saída do sistema com o corpus de referência, os resultados mostram, para as relações parte-todo envolvendo Npc, 0,57 de precisão, 0,38 de cobertura (recall), 0,46 de medida-F e 0,81 de acurácia. A cobertura foi relativamente pequena (0,38), o que pode ser explicada por vários fatores, tais como o facto de, em muitas frases, o todo e a parte não estarem relacionadas sintaticamente e até se encontrarem por vezes bastante distantes. A precisão é um pouco melhor (0,57). A acurácia é relativamente elevada (0,81), uma vez que existe um grande número de casos verdadeiro-negativos. Os resultados para os nomes de doença, embora o número de casos seja pequeno, mostram uma 0,50 de precisão, 0,11 de cobertura, 0,17 de medida-F e 0,76 de acurácia. A cuidadosa análise de erros realizada permitiu detetar as principais causas para este desempenho, tendo sido possível, em alguns casos, encontrar soluções para diversos problemas. Foi então realizada uma segunda avaliação do desempenho do sistema, verificando-se uma melhoria geral dos resultados: a precisão melhorou +0,13 (de 0,57 para 0,70), a cobertura +0,11 (de 0,38 para 0,49), a medida-F +0,12 (de 0,46 para 0,58) e a acurácia +0,04 (de 0,81 para 0,85). Os resultados para os Nd permaneceram idênticos. Em suma, este trabalho pode ser considerado como uma primeira tentativa de extrair relações partetodo, envolvendo entidades humanas e Npc em Português. Um módulo baseado em regras foi construído e integrado no sistema STRING, tendo sido avaliado com resultados promissores.In this work, we improve the extraction of semantic relations between textual elements as it is currently performed by STRING, a hybrid statistical and rule-based Natural Language Processing (NLP) chain for Portuguese, by targeting whole-part relations (meronymy), that is, a semantic relation between an entity that is perceived as a constituent part of another entity, or a member of a set. In this case, we focus on the type of meronymy involving human entities and body-part nouns (Nbp); e.g., O Pedro partiu uma perna ’Pedro broke a leg’: WHOLE-PART(Pedro,perna). In order to extract this type of whole-part relations, a rule-based meronymy extraction module has been built and integrated in the grammar of the STRING system. Around 17,000 Nbp instances were extracted from the first fragment of the CETEMPúblico corpus for the evaluation of this work. We also retrieved 79 instances of disease nouns (Nsick), which are derived from an underlying Nbp (e.g., gastrite-estômago ’gastritis-stomach’). In order to produce a golden standard for the evaluation, a random stratified sample of 1,000 sentences was selected, keeping the proportion of the total frequency of Nbp in the source corpus. This sample also includes a small number of Nsick (6 lemmas, 17 sentences). These instances were annotated by four native Portuguese speakers, and for 100 of them the inter-annotator agreement was calculated and was deemed from “fair” to “good”. After confronting the produced golden standard against the system’s output, the results for Nbp show 0.57 precision, 0.38 recall, 0.46 F-measure, and 0.81 accuracy. The recall is relatively small (0.38), which can be explained by many factors such as the fact that in many sentences, the whole and the part are not syntactically related. The precision is somewhat better (0.57). The accuracy is relatively high (0.81) since there is a large number of true-negative cases. The results for Nsick, though the number of instances is small, show 0.50 precision, 0.11 recall, 0.17 F-measure, and 0.76 accuracy. A detailed error analysis was performed, some improvements have been made, and a second evaluation of the system’s performance was carried out. It showed that the precision improved by 0.13 (from 0.57 to 0.70), the recall by 0.11 (from 0.38 to 0.49), the F-measure by 0.12 (from 0.46 to 0.58), and the accuracy by 0.04 (from 0.81 to 0.85). The results for Nsick remained the same. In short, this work may be considered as a first attempt to extract whole-part relations, involving human entities and Nbp in Portuguese. A rule-based module was built and integrated in the STRING system, and it was evaluated with promising results.Erasmus Mundus Action 2 2011-2574 Triple I - Integration, Interaction and Institutions scholarship.Baptista, Jorge Manuel EvangelistaMamede, Nuno João NevesSapientiaMarkov, Ilia2016-06-28T12:13:15Z201420142014-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.1/8438TID:202464598enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-24T10:19:42Zoai:sapientia.ualg.pt:10400.1/8438Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:00:36.586292Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Automatic identification of whole-part relations in Portuguese
title Automatic identification of whole-part relations in Portuguese
spellingShingle Automatic identification of whole-part relations in Portuguese
Markov, Ilia
Relação todo-parte
Meronímia
Nome parte-do-corpo
Nome de doença
Português
Whole-part relation
Meronymy
Body-part noun
Disease noun
Portuguese
Domínio/Área Científica::Ciências Sociais::Ciências da Comunicação
Domínio/Área Científica::Humanidades::Outras Humanidades
title_short Automatic identification of whole-part relations in Portuguese
title_full Automatic identification of whole-part relations in Portuguese
title_fullStr Automatic identification of whole-part relations in Portuguese
title_full_unstemmed Automatic identification of whole-part relations in Portuguese
title_sort Automatic identification of whole-part relations in Portuguese
author Markov, Ilia
author_facet Markov, Ilia
author_role author
dc.contributor.none.fl_str_mv Baptista, Jorge Manuel Evangelista
Mamede, Nuno João Neves
Sapientia
dc.contributor.author.fl_str_mv Markov, Ilia
dc.subject.por.fl_str_mv Relação todo-parte
Meronímia
Nome parte-do-corpo
Nome de doença
Português
Whole-part relation
Meronymy
Body-part noun
Disease noun
Portuguese
Domínio/Área Científica::Ciências Sociais::Ciências da Comunicação
Domínio/Área Científica::Humanidades::Outras Humanidades
topic Relação todo-parte
Meronímia
Nome parte-do-corpo
Nome de doença
Português
Whole-part relation
Meronymy
Body-part noun
Disease noun
Portuguese
Domínio/Área Científica::Ciências Sociais::Ciências da Comunicação
Domínio/Área Científica::Humanidades::Outras Humanidades
description Dissertação de Mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014
publishDate 2014
dc.date.none.fl_str_mv 2014
2014
2014-01-01T00:00:00Z
2016-06-28T12:13:15Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.1/8438
TID:202464598
url http://hdl.handle.net/10400.1/8438
identifier_str_mv TID:202464598
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133231377809408