Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://doi.org/10.21814/diacritica.574 |
Resumo: | Na anotação automática de entidades geográficas mencionadas, as listas especializadas de topónimos têm que enfrentar ambiguidades e contextos em que o valor geográfico de uma expressão não é evidente. Neste artigo, estuda-se o caso prático de um índice de topónimos utilizado para criar um corpus anotado da Peregrinação de Mendes Pinto. As dificuldades achadas servem para classificar os tipos de erros que se produzem quando o topónimo é resolvido pela simples coincidência de expressões e introduzem critérios para a identificação das entidades geográficas, uma tarefa que deve preceder e tem um impacto direto nos resultados obtidos no processo de anotação automática. |
id |
RCAP_cb6d156c863dc55152eb2ce7688e7068 |
---|---|
oai_identifier_str |
oai:journals.uminho.pt:article/5157 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named EntitiesCaracterísticas identificadoras e dificuldades na aplicação de listas para a anotação de Entidades Geográficas MencionadasGeographical Named EntitiesNERCToponymsCorpus annotationHistorical corpusEntidades Geográficas MencionadasREMTopónimosAnotação de corpusCorpus históricoNa anotação automática de entidades geográficas mencionadas, as listas especializadas de topónimos têm que enfrentar ambiguidades e contextos em que o valor geográfico de uma expressão não é evidente. Neste artigo, estuda-se o caso prático de um índice de topónimos utilizado para criar um corpus anotado da Peregrinação de Mendes Pinto. As dificuldades achadas servem para classificar os tipos de erros que se produzem quando o topónimo é resolvido pela simples coincidência de expressões e introduzem critérios para a identificação das entidades geográficas, uma tarefa que deve preceder e tem um impacto direto nos resultados obtidos no processo de anotação automática.In order to annotate geographical named entities, gazetteers have to face ambiguities and contexts where the geographical value of a given expression is not clear. In this paper, an index of place names is used to examine the main problems encountered in the production of an annotated corpus of Mendes Pinto’s Pilgrimage. The difficulties found serve to classify the types of errors that occur when the place name is solved by simple string match and introduce criteria for the identification of geographical entities, a task that should precede and has a direct impact on the results obtained in an automatic annotation approach.CEHUM2020-03-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/diacritica.574https://doi.org/10.21814/diacritica.574Diacrítica; Vol. 32 N.º 3 (2018): Corpora nas humanidades digitais; 87-103Diacrítica; Vol. 32 No. 3 (2018): Corpora in the Digital Humanities; 87-1032183-91740870-896710.21814/10.21814/diacritica.32.3reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://revistas.uminho.pt/index.php/diacritica/article/view/5157https://revistas.uminho.pt/index.php/diacritica/article/view/5157/5704Direitos de Autor (c) 2023 Afonso Xavier Canosainfo:eu-repo/semantics/openAccessCanosa, Afonso Xavier2023-07-28T07:48:15Zoai:journals.uminho.pt:article/5157Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:34:45.424597Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities Características identificadoras e dificuldades na aplicação de listas para a anotação de Entidades Geográficas Mencionadas |
title |
Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities |
spellingShingle |
Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities Canosa, Afonso Xavier Geographical Named Entities NERC Toponyms Corpus annotation Historical corpus Entidades Geográficas Mencionadas REM Topónimos Anotação de corpus Corpus histórico |
title_short |
Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities |
title_full |
Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities |
title_fullStr |
Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities |
title_full_unstemmed |
Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities |
title_sort |
Identifying characteristics and difficulties when using gazetteers to annotate Geographical Named Entities |
author |
Canosa, Afonso Xavier |
author_facet |
Canosa, Afonso Xavier |
author_role |
author |
dc.contributor.author.fl_str_mv |
Canosa, Afonso Xavier |
dc.subject.por.fl_str_mv |
Geographical Named Entities NERC Toponyms Corpus annotation Historical corpus Entidades Geográficas Mencionadas REM Topónimos Anotação de corpus Corpus histórico |
topic |
Geographical Named Entities NERC Toponyms Corpus annotation Historical corpus Entidades Geográficas Mencionadas REM Topónimos Anotação de corpus Corpus histórico |
description |
Na anotação automática de entidades geográficas mencionadas, as listas especializadas de topónimos têm que enfrentar ambiguidades e contextos em que o valor geográfico de uma expressão não é evidente. Neste artigo, estuda-se o caso prático de um índice de topónimos utilizado para criar um corpus anotado da Peregrinação de Mendes Pinto. As dificuldades achadas servem para classificar os tipos de erros que se produzem quando o topónimo é resolvido pela simples coincidência de expressões e introduzem critérios para a identificação das entidades geográficas, uma tarefa que deve preceder e tem um impacto direto nos resultados obtidos no processo de anotação automática. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-03-24 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/diacritica.574 https://doi.org/10.21814/diacritica.574 |
url |
https://doi.org/10.21814/diacritica.574 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://revistas.uminho.pt/index.php/diacritica/article/view/5157 https://revistas.uminho.pt/index.php/diacritica/article/view/5157/5704 |
dc.rights.driver.fl_str_mv |
Direitos de Autor (c) 2023 Afonso Xavier Canosa info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Direitos de Autor (c) 2023 Afonso Xavier Canosa |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
CEHUM |
publisher.none.fl_str_mv |
CEHUM |
dc.source.none.fl_str_mv |
Diacrítica; Vol. 32 N.º 3 (2018): Corpora nas humanidades digitais; 87-103 Diacrítica; Vol. 32 No. 3 (2018): Corpora in the Digital Humanities; 87-103 2183-9174 0870-8967 10.21814/10.21814/diacritica.32.3 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132073558016000 |