Extraction of Literary Character Information in Portuguese

Detalhes bibliográficos
Autor(a) principal: Bick, Eckhard
Data de Publicação: 2023
Tipo de documento: Artigo
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/lm.15.1.397
Resumo: This chapter describes PALAVRAS-DIP, a system for the automatic identification of characters and their social profiles in Portuguese and Brazilian literature. The system has been designed as an add-on module for a morphosyntactic and semantic parser. We tag human named entities (NE) for profession and social position, and use Constraint Grammar (CG relational tags to keep track of co-reference (e.g. pronoun anaphora, zero-subject verbs) and family reations between the characters. The resulting base annotation allows the extraction of character networks. The extraction program recognizes and bundles character name variants and distinguishes between names with a narrative function and simple cultural references. System development was motivated by DIP, a shared-task evaluation on 100 historical novels, where a prototype version achieved reasonable F-scores for character identification (63.4%) and alias resolution (68.1%), but underperformed for family relations (15.5%).
id RCAP_f8eb27f95c9811f92bbb2da317e60661
oai_identifier_str oai:linguamatica.com:article/397
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Extraction of Literary Character Information in PortugueseExtração de Informação sobre Personagens Literários em PortuguêsExtração de Informação sobre Personagens Literários em Portuguêsdistant readingienerconstraint grammaranaphora resolutionleitura distanteextração de informaçãoreconhecimento de entidades nomeadasconstraint grammarresolução de anáforasleitura distanteextração de informaçãoreconhecimento de entidades nomeadasconstraint grammarresolução de anáforasThis chapter describes PALAVRAS-DIP, a system for the automatic identification of characters and their social profiles in Portuguese and Brazilian literature. The system has been designed as an add-on module for a morphosyntactic and semantic parser. We tag human named entities (NE) for profession and social position, and use Constraint Grammar (CG relational tags to keep track of co-reference (e.g. pronoun anaphora, zero-subject verbs) and family reations between the characters. The resulting base annotation allows the extraction of character networks. The extraction program recognizes and bundles character name variants and distinguishes between names with a narrative function and simple cultural references. System development was motivated by DIP, a shared-task evaluation on 100 historical novels, where a prototype version achieved reasonable F-scores for character identification (63.4%) and alias resolution (68.1%), but underperformed for family relations (15.5%).Este capítulo descreve o PALAVRAS-DIP, um sistema para a identificação automática de personagens e dos seus perfis sociais na literatura portuguesa e brasileira. O sistema foi concebido como um módulo adicional para um analisador morfossintáctico e semântico. Etiquetamos as entidades nomeadas (NE) humanas para profissão e posição social, e usamos as etiquetas relacionais do formalismo Constraint Grammar (Gramática de Restrições, CG) para estabelecer co-referências (por exemplo, anáfora de pronomes, verbos com sujeito zero) assim como relações familiares entre as personagens. A anotação de base resultante permite a extração de redes de personagens. O programa de extração reconhece e agrupa as variantes de nomes de personagens e distingue entre nomes que têm função narrativa e nomes contextuais de referência cultural. O desenvolvimento do sistema foi motivado pelo DIP, uma avaliação conjunta sobre 100 romances históricos, evento em que uma versão protótipo do sistema obteve medidas F razoáveis para as tarefas de identificação de personagens (63,4%) e de unificação/co-identificação de nomes (68,1%), mas teve problemas com as relações familiares (15,5%).Este capítulo descreve o PALAVRAS-DIP, um sistema para a identificação automática de personagens e dos seus perfis sociais na literatura portuguesa e brasileira. O sistema foi concebido como um módulo adicional para um analisador morfossintáctico e semântico. Etiquetamos as entidades nomeadas (NE) humanas para profissão e posição social, e usamos as etiquetas relacionais do formalismo Constraint Grammar (Gramática de Restrições, CG) para estabelecer co-referências (por exemplo, anáfora de pronomes, verbos com sujeito zero) assim como relações familiares entre as personagens. A anotação de base resultante permite a extração de redes de personagens. O programa de extração reconhece e agrupa as variantes de nomes de personagens e distingue entre nomes que têm função narrativa e nomes contextuais de referência cultural. O desenvolvimento do sistema foi motivado pelo DIP, uma avaliação conjunta sobre 100 romances históricos, evento em que uma versão protótipo do sistema obteve medidas F razoáveis para as tarefas de identificação de personagens (63,4%) e de unificação/co-identificação de nomes (68,1%), mas teve problemas com as relações familiares (15,5%).Universidade do Minho e Universidade de Vigo2023-06-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.15.1.397https://doi.org/10.21814/lm.15.1.397Linguamática; Vol. 15 No. 1; 31--40Linguamática; Vol. 15 Núm. 1; 31--40Linguamática; v. 15 n. 1; 31--401647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPenghttps://linguamatica.com/index.php/linguamatica/article/view/397https://linguamatica.com/index.php/linguamatica/article/view/397/490Direitos de Autor (c) 2023 Eckhard Bickhttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessBick, Eckhard2023-09-08T13:46:46Zoai:linguamatica.com:article/397Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:41.330033Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Extraction of Literary Character Information in Portuguese
Extração de Informação sobre Personagens Literários em Português
Extração de Informação sobre Personagens Literários em Português
title Extraction of Literary Character Information in Portuguese
spellingShingle Extraction of Literary Character Information in Portuguese
Bick, Eckhard
distant reading
ie
ner
constraint grammar
anaphora resolution
leitura distante
extração de informação
reconhecimento de entidades nomeadas
constraint grammar
resolução de anáforas
leitura distante
extração de informação
reconhecimento de entidades nomeadas
constraint grammar
resolução de anáforas
title_short Extraction of Literary Character Information in Portuguese
title_full Extraction of Literary Character Information in Portuguese
title_fullStr Extraction of Literary Character Information in Portuguese
title_full_unstemmed Extraction of Literary Character Information in Portuguese
title_sort Extraction of Literary Character Information in Portuguese
author Bick, Eckhard
author_facet Bick, Eckhard
author_role author
dc.contributor.author.fl_str_mv Bick, Eckhard
dc.subject.por.fl_str_mv distant reading
ie
ner
constraint grammar
anaphora resolution
leitura distante
extração de informação
reconhecimento de entidades nomeadas
constraint grammar
resolução de anáforas
leitura distante
extração de informação
reconhecimento de entidades nomeadas
constraint grammar
resolução de anáforas
topic distant reading
ie
ner
constraint grammar
anaphora resolution
leitura distante
extração de informação
reconhecimento de entidades nomeadas
constraint grammar
resolução de anáforas
leitura distante
extração de informação
reconhecimento de entidades nomeadas
constraint grammar
resolução de anáforas
description This chapter describes PALAVRAS-DIP, a system for the automatic identification of characters and their social profiles in Portuguese and Brazilian literature. The system has been designed as an add-on module for a morphosyntactic and semantic parser. We tag human named entities (NE) for profession and social position, and use Constraint Grammar (CG relational tags to keep track of co-reference (e.g. pronoun anaphora, zero-subject verbs) and family reations between the characters. The resulting base annotation allows the extraction of character networks. The extraction program recognizes and bundles character name variants and distinguishes between names with a narrative function and simple cultural references. System development was motivated by DIP, a shared-task evaluation on 100 historical novels, where a prototype version achieved reasonable F-scores for character identification (63.4%) and alias resolution (68.1%), but underperformed for family relations (15.5%).
publishDate 2023
dc.date.none.fl_str_mv 2023-06-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.15.1.397
https://doi.org/10.21814/lm.15.1.397
url https://doi.org/10.21814/lm.15.1.397
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/397
https://linguamatica.com/index.php/linguamatica/article/view/397/490
dc.rights.driver.fl_str_mv Direitos de Autor (c) 2023 Eckhard Bick
http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Direitos de Autor (c) 2023 Eckhard Bick
http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 15 No. 1; 31--40
Linguamática; Vol. 15 Núm. 1; 31--40
Linguamática; v. 15 n. 1; 31--40
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133554113773568