Uma utilidade para o reconhecimento de topónimos em documentos medievais

Detalhes bibliográficos
Autor(a) principal: Canosa, Xavier
Data de Publicação: 2019
Outros Autores: Gamallo, Pablo, Varela, Xavier, Taboada, José Ángel, Martínez Lema, Paulo, Garcia, Marcos
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/lm.11.1.291
Resumo: Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.
id RCAP_8d85e3fa56a127734c60e31087f9d681
oai_identifier_str oai:linguamatica.com:article/291
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Uma utilidade para o reconhecimento de topónimos em documentos medievaisA Tool for Toponym Recognition in Medieval DocumentsUma utilidade para o reconhecimento de topónimos em documentos medievaisgeoreferential entitiesdetection of toponymsnamed entity recognitionentidades geográficasdeteção de topónimosreconhecimento de entidades mencionadasentidades geográficasdeteção de topónimosreconhecimento de entidades mencionadasEste artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.This paper describes a method to build a tool aimed at recognizing geographical named entities in medieval texts. The new tool has been developed using the corresponding modules for contemporary languages contained in LinguaKit, a suite of NLP tools. A collection of manually annotated corpora served as a resource to build a gazetteer of medieval toponyms and find patterns to improve and implement new rules for the recognition of place names. In addition to the gazetteer, a list of triggers was the most determinant factor to improve recall. Final adjustments considered the most frequent terms of the lexicon and grammatical contexts for geographical named entities. In the process of building a model of medieval language and a specific lexicon, the available tool can already be used to annotate texts and shows a significant improvement when compared with previous modules. However, most work remains to be done in terms of adding specific gazetteers for entities other thanEste artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.Universidade do Minho e Universidade de Vigo2019-07-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.11.1.291https://doi.org/10.21814/lm.11.1.291Linguamática; Vol. 11 No. 1; 3-15Linguamática; Vol. 11 Núm. 1; 3-15Linguamática; v. 11 n. 1; 3-151647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/291https://linguamatica.com/index.php/linguamatica/article/view/291/449Direitos de Autor (c) 2019 Pablo Gamallo, Xavier Canosahttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessCanosa, XavierGamallo, PabloVarela, XavierTaboada, José ÁngelMartínez Lema, PauloGarcia, Marcos2023-09-08T13:46:41Zoai:linguamatica.com:article/291Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:28:39.405831Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Uma utilidade para o reconhecimento de topónimos em documentos medievais
A Tool for Toponym Recognition in Medieval Documents
Uma utilidade para o reconhecimento de topónimos em documentos medievais
title Uma utilidade para o reconhecimento de topónimos em documentos medievais
spellingShingle Uma utilidade para o reconhecimento de topónimos em documentos medievais
Canosa, Xavier
georeferential entities
detection of toponyms
named entity recognition
entidades geográficas
deteção de topónimos
reconhecimento de entidades mencionadas
entidades geográficas
deteção de topónimos
reconhecimento de entidades mencionadas
title_short Uma utilidade para o reconhecimento de topónimos em documentos medievais
title_full Uma utilidade para o reconhecimento de topónimos em documentos medievais
title_fullStr Uma utilidade para o reconhecimento de topónimos em documentos medievais
title_full_unstemmed Uma utilidade para o reconhecimento de topónimos em documentos medievais
title_sort Uma utilidade para o reconhecimento de topónimos em documentos medievais
author Canosa, Xavier
author_facet Canosa, Xavier
Gamallo, Pablo
Varela, Xavier
Taboada, José Ángel
Martínez Lema, Paulo
Garcia, Marcos
author_role author
author2 Gamallo, Pablo
Varela, Xavier
Taboada, José Ángel
Martínez Lema, Paulo
Garcia, Marcos
author2_role author
author
author
author
author
dc.contributor.author.fl_str_mv Canosa, Xavier
Gamallo, Pablo
Varela, Xavier
Taboada, José Ángel
Martínez Lema, Paulo
Garcia, Marcos
dc.subject.por.fl_str_mv georeferential entities
detection of toponyms
named entity recognition
entidades geográficas
deteção de topónimos
reconhecimento de entidades mencionadas
entidades geográficas
deteção de topónimos
reconhecimento de entidades mencionadas
topic georeferential entities
detection of toponyms
named entity recognition
entidades geográficas
deteção de topónimos
reconhecimento de entidades mencionadas
entidades geográficas
deteção de topónimos
reconhecimento de entidades mencionadas
description Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões para a melhora e implementação de novas regras de reconhecimento dos nomes de lugar. Depois da lista de entidades geográficas, os ativadores contextuais (triggers) foram o recurso determinante na melhora da abrangência. Para o produto final, fizeram-se também ajustes menores na procura de recolher os elementos mais comuns do léxico e os contextos gramaticais das entidades geográficas mencionadas. Ainda que muito trabalho fica por fazer na elaboração de listas para entidades não geográficas, na construção dum modelo de língua medieval e um lexicon específico, o novo módulo pode ser utilizado para anotar textos e mostra uma melhora significativa a respeito dos módulos previamente existentes.
publishDate 2019
dc.date.none.fl_str_mv 2019-07-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.11.1.291
https://doi.org/10.21814/lm.11.1.291
url https://doi.org/10.21814/lm.11.1.291
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/291
https://linguamatica.com/index.php/linguamatica/article/view/291/449
dc.rights.driver.fl_str_mv Direitos de Autor (c) 2019 Pablo Gamallo, Xavier Canosa
http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Direitos de Autor (c) 2019 Pablo Gamallo, Xavier Canosa
http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 11 No. 1; 3-15
Linguamática; Vol. 11 Núm. 1; 3-15
Linguamática; v. 11 n. 1; 3-15
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133554024644608