Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities

Detalhes bibliográficos
Autor(a) principal: Canosa, Afonso Xavier
Data de Publicação: 2020
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/diacritica.574
Resumo: Na anotação automática de entidades geográficas mencionadas, as listas especializadas de topónimos têm que enfrentar ambiguidades e contextos em que o valor geográfico de uma expressão não é evidente. Neste artigo, estuda-se o caso prático de um índice de topónimos utilizado para criar um corpus anotado da Peregrinação de Mendes Pinto. As dificuldades achadas servem para classificar os tipos de erros que se produzem quando o topónimo é resolvido pela simples coincidência de expressões e introduzem critérios para a identificação das entidades geográficas, uma tarefa que deve preceder e tem um impacto direto nos resultados obtidos no processo de anotação automática.
id RCAP_cb6d156c863dc55152eb2ce7688e7068
oai_identifier_str oai:journals.uminho.pt:article/5157
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named EntitiesCaracterísticas identificadoras e dificuldades na aplicação de listas para a anotação de Entidades Geográficas MencionadasGeographical Named EntitiesNERCToponymsCorpus annotationHistorical corpusEntidades Geográficas MencionadasREMTopónimosAnotação de corpusCorpus históricoNa anotação automática de entidades geográficas mencionadas, as listas especializadas de topónimos têm que enfrentar ambiguidades e contextos em que o valor geográfico de uma expressão não é evidente. Neste artigo, estuda-se o caso prático de um índice de topónimos utilizado para criar um corpus anotado da Peregrinação de Mendes Pinto. As dificuldades achadas servem para classificar os tipos de erros que se produzem quando o topónimo é resolvido pela simples coincidência de expressões e introduzem critérios para a identificação das entidades geográficas, uma tarefa que deve preceder e tem um impacto direto nos resultados obtidos no processo de anotação automática.In order to annotate geographical named entities, gazetteers have to face ambiguities and contexts where the geographical value of a given expression is not clear. In this paper, an index of place names is used to examine the main problems encountered in the production of an annotated corpus of Mendes Pinto’s Pilgrimage. The difficulties found serve to classify the types of errors that occur when the place name is solved by simple string match and introduce criteria for the identification of geographical entities, a task that should precede and has a direct impact on the results obtained in an automatic annotation approach.CEHUM2020-03-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/diacritica.574https://doi.org/10.21814/diacritica.574Diacrítica; Vol. 32 N.º 3 (2018): Corpora nas humanidades digitais; 87-103Diacrítica; Vol. 32 No. 3 (2018): Corpora in the Digital Humanities; 87-1032183-91740870-896710.21814/10.21814/diacritica.32.3reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://revistas.uminho.pt/index.php/diacritica/article/view/5157https://revistas.uminho.pt/index.php/diacritica/article/view/5157/5704Direitos de Autor (c) 2023 Afonso Xavier Canosainfo:eu-repo/semantics/openAccessCanosa, Afonso Xavier2023-07-28T07:48:15Zoai:journals.uminho.pt:article/5157Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:34:45.424597Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities
Características identificadoras e dificuldades na aplicação de listas para a anotação de Entidades Geográficas Mencionadas
title Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities
spellingShingle Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities
Canosa, Afonso Xavier
Geographical Named Entities
NERC
Toponyms
Corpus annotation
Historical corpus
Entidades Geográficas Mencionadas
REM
Topónimos
Anotação de corpus
Corpus histórico
title_short Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities
title_full Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities
title_fullStr Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities
title_full_unstemmed Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities
title_sort Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities
author Canosa, Afonso Xavier
author_facet Canosa, Afonso Xavier
author_role author
dc.contributor.author.fl_str_mv Canosa, Afonso Xavier
dc.subject.por.fl_str_mv Geographical Named Entities
NERC
Toponyms
Corpus annotation
Historical corpus
Entidades Geográficas Mencionadas
REM
Topónimos
Anotação de corpus
Corpus histórico
topic Geographical Named Entities
NERC
Toponyms
Corpus annotation
Historical corpus
Entidades Geográficas Mencionadas
REM
Topónimos
Anotação de corpus
Corpus histórico
description Na anotação automática de entidades geográficas mencionadas, as listas especializadas de topónimos têm que enfrentar ambiguidades e contextos em que o valor geográfico de uma expressão não é evidente. Neste artigo, estuda-se o caso prático de um índice de topónimos utilizado para criar um corpus anotado da Peregrinação de Mendes Pinto. As dificuldades achadas servem para classificar os tipos de erros que se produzem quando o topónimo é resolvido pela simples coincidência de expressões e introduzem critérios para a identificação das entidades geográficas, uma tarefa que deve preceder e tem um impacto direto nos resultados obtidos no processo de anotação automática.
publishDate 2020
dc.date.none.fl_str_mv 2020-03-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/diacritica.574
https://doi.org/10.21814/diacritica.574
url https://doi.org/10.21814/diacritica.574
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://revistas.uminho.pt/index.php/diacritica/article/view/5157
https://revistas.uminho.pt/index.php/diacritica/article/view/5157/5704
dc.rights.driver.fl_str_mv Direitos de Autor (c) 2023 Afonso Xavier Canosa
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Direitos de Autor (c) 2023 Afonso Xavier Canosa
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv CEHUM
publisher.none.fl_str_mv CEHUM
dc.source.none.fl_str_mv Diacrítica; Vol. 32 N.º 3 (2018): Corpora nas humanidades digitais; 87-103
Diacrítica; Vol. 32 No. 3 (2018): Corpora in the Digital Humanities; 87-103
2183-9174
0870-8967
10.21814/10.21814/diacritica.32.3
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132073558016000