Development and evaluation of a NER model in the domain of cultural analysis and tourism
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Outros Autores: | , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
DOI: | 10.21814/lm.15.2.405 |
Texto Completo: | https://doi.org/10.21814/lm.15.2.405 |
Resumo: | Named Entity Recognition (NER) is an essential task in information extraction where entities in a text are identified and classified. One of the primary challenges addressed by NER systems is the difficulty of generalizing what was learned to different types of corpora beyond the training data. This problem is magnified by the fact that most of the training corpora used are journalistic and therefore need to be adapted to other genres and domains. In this paper, we use a Spanish corpus consisting of interviews with visitors to the city of Santiago de Compostela and annotated with named entities, to evaluate and train NER systems tailored to the domain of cultural analysis and tourism. We provide a comprehensive comparison of various approaches employed, ranging from classical machine learning algorithms to fine-tuning Transformer models. The results significantly outperform the baseline, represented here by the toolkits Stanza, spaCy and Flair, although initial tests with unseen entities during training highlight the need for additional evaluations regarding their generalization capability and the utilization of adversarial splits for the corpus. |
id |
RCAP_d4a831278d5f740051c006be6874c88b |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/405 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Development and evaluation of a NER model in the domain of cultural analysis and tourismDesenvolvimento e avaliação de um modelo NER no domínio da análise cultural e do turismoDesenvolvimento e avaliação de um modelo NER no domínio da análise cultural e do turismoNamed-Entity RecognitionMachine LearningNeural NetworksTransformersevaluationreconhecimento de entidades mencionadasaprendizagem automáticaredes neuronaistransformersavaliação Named Entity Recognition (NER) is an essential task in information extraction where entities in a text are identified and classified. One of the primary challenges addressed by NER systems is the difficulty of generalizing what was learned to different types of corpora beyond the training data. This problem is magnified by the fact that most of the training corpora used are journalistic and therefore need to be adapted to other genres and domains. In this paper, we use a Spanish corpus consisting of interviews with visitors to the city of Santiago de Compostela and annotated with named entities, to evaluate and train NER systems tailored to the domain of cultural analysis and tourism. We provide a comprehensive comparison of various approaches employed, ranging from classical machine learning algorithms to fine-tuning Transformer models. The results significantly outperform the baseline, represented here by the toolkits Stanza, spaCy and Flair, although initial tests with unseen entities during training highlight the need for additional evaluations regarding their generalization capability and the utilization of adversarial splits for the corpus. O Reconhecimento de Entidades Mencionadas (NER) é uma tarefa essencial de extracção de informação em que as entidades de um texto são identificadas e classificadas. Um dos principais desafios enfrentados pelos sistemas NER é a dificuldade de generalização do aprendido para outros tipos de corpora diferentes dos utilizados durante o treino. Este problema é acentuado pelo facto de a maioria dos corpora de treino utilizados serem de natureza jornalística e, portanto, precisarem de ser adaptados a outros géneros e domínios. Neste artigo, utilizamos um corpus espanhol composto por entrevistas a visitantes da cidade de Santiago de Compostela e anotado com entidades mencionadas, para a avaliação e treino de sistemas NER adaptados ao domínio da cultura e do turismo. Apresentamos uma comparação das diferentes abordagens aplicadas, desde algoritmos clássicos de aprendizagem automática ao afinamento de vários modelos de Transformers. Os resultados obtidos superam significativamente o baseline, representado aqui pelos toolkits Stanza, spaCy e Flair, embora os testes preliminares com entidades não observadas durante o treino sugiram a necessidade de avaliações adicionais da sua capacidade de generalização e o uso de um método de segmentação adversarial no corpus. O Reconhecimento de Entidades Mencionadas (NER) é uma tarefa essencial de extracção de informação em que as entidades de um texto são identificadas e classificadas. Um dos principais desafios enfrentados pelos sistemas NER é a dificuldade de generalização do aprendido para outros tipos de corpora diferentes dos utilizados durante o treino. Este problema é acentuado pelo facto de a maioria dos corpora de treino utilizados serem de natureza jornalística e, portanto, precisarem de ser adaptados a outros géneros e domínios. Neste artigo, utilizamos um corpus espanhol composto por entrevistas a visitantes da cidade de Santiago de Compostela e anotado com entidades mencionadas, para a avaliação e treino de sistemas NER adaptados ao domínio da cultura e do turismo. Apresentamos uma comparação das diferentes abordagens aplicadas, desde algoritmos clássicos de aprendizagem automática ao afinamento de vários modelos de Transformers. Os resultados obtidos superam significativamente o baseline, representado aqui pelos toolkits Stanza, spaCy e Flair, embora os testes preliminares com entidades não observadas durante o treino sugiram a necessidade de avaliações adicionais da sua capacidade de generalização e o uso de um método de segmentação adversarial no corpus.Universidade do Minho e Universidade de Vigo2023-12-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.15.2.405https://doi.org/10.21814/lm.15.2.405Linguamática; Vol. 15 No. 2; 3--18Linguamática; v. 15 n. 2; 3--18Linguamática; Vol. 15 Núm. 2; 3--181647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/405https://linguamatica.com/index.php/linguamatica/article/view/405/499Direitos de Autor (c) 2023 Susana Sotelo Docío, Pablo Gamallo, Álvaro Iriartehttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessSotelo Docío, SusanaGamallo, PabloIriarte, Álvaro2024-10-04T13:45:21Zoai:linguamatica.com:article/405Portal AgregadorONGhttps://www.rcaap.pt/oai/openairemluisa.alvim@gmail.comopendoar:71602024-10-04T13:45:21Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Development and evaluation of a NER model in the domain of cultural analysis and tourism Desenvolvimento e avaliação de um modelo NER no domínio da análise cultural e do turismo Desenvolvimento e avaliação de um modelo NER no domínio da análise cultural e do turismo |
title |
Development and evaluation of a NER model in the domain of cultural analysis and tourism |
spellingShingle |
Development and evaluation of a NER model in the domain of cultural analysis and tourism Development and evaluation of a NER model in the domain of cultural analysis and tourism Sotelo Docío, Susana Named-Entity Recognition Machine Learning Neural Networks Transformers evaluation reconhecimento de entidades mencionadas aprendizagem automática redes neuronais transformers avaliação Sotelo Docío, Susana Named-Entity Recognition Machine Learning Neural Networks Transformers evaluation reconhecimento de entidades mencionadas aprendizagem automática redes neuronais transformers avaliação |
title_short |
Development and evaluation of a NER model in the domain of cultural analysis and tourism |
title_full |
Development and evaluation of a NER model in the domain of cultural analysis and tourism |
title_fullStr |
Development and evaluation of a NER model in the domain of cultural analysis and tourism Development and evaluation of a NER model in the domain of cultural analysis and tourism |
title_full_unstemmed |
Development and evaluation of a NER model in the domain of cultural analysis and tourism Development and evaluation of a NER model in the domain of cultural analysis and tourism |
title_sort |
Development and evaluation of a NER model in the domain of cultural analysis and tourism |
author |
Sotelo Docío, Susana |
author_facet |
Sotelo Docío, Susana Sotelo Docío, Susana Gamallo, Pablo Iriarte, Álvaro Gamallo, Pablo Iriarte, Álvaro |
author_role |
author |
author2 |
Gamallo, Pablo Iriarte, Álvaro |
author2_role |
author author |
dc.contributor.author.fl_str_mv |
Sotelo Docío, Susana Gamallo, Pablo Iriarte, Álvaro |
dc.subject.por.fl_str_mv |
Named-Entity Recognition Machine Learning Neural Networks Transformers evaluation reconhecimento de entidades mencionadas aprendizagem automática redes neuronais transformers avaliação |
topic |
Named-Entity Recognition Machine Learning Neural Networks Transformers evaluation reconhecimento de entidades mencionadas aprendizagem automática redes neuronais transformers avaliação |
description |
Named Entity Recognition (NER) is an essential task in information extraction where entities in a text are identified and classified. One of the primary challenges addressed by NER systems is the difficulty of generalizing what was learned to different types of corpora beyond the training data. This problem is magnified by the fact that most of the training corpora used are journalistic and therefore need to be adapted to other genres and domains. In this paper, we use a Spanish corpus consisting of interviews with visitors to the city of Santiago de Compostela and annotated with named entities, to evaluate and train NER systems tailored to the domain of cultural analysis and tourism. We provide a comprehensive comparison of various approaches employed, ranging from classical machine learning algorithms to fine-tuning Transformer models. The results significantly outperform the baseline, represented here by the toolkits Stanza, spaCy and Flair, although initial tests with unseen entities during training highlight the need for additional evaluations regarding their generalization capability and the utilization of adversarial splits for the corpus. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-12-30 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.15.2.405 https://doi.org/10.21814/lm.15.2.405 |
url |
https://doi.org/10.21814/lm.15.2.405 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/405 https://linguamatica.com/index.php/linguamatica/article/view/405/499 |
dc.rights.driver.fl_str_mv |
Direitos de Autor (c) 2023 Susana Sotelo Docío, Pablo Gamallo, Álvaro Iriarte http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Direitos de Autor (c) 2023 Susana Sotelo Docío, Pablo Gamallo, Álvaro Iriarte http://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 15 No. 2; 3--18 Linguamática; v. 15 n. 2; 3--18 Linguamática; Vol. 15 Núm. 2; 3--18 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
mluisa.alvim@gmail.com |
_version_ |
1822226065494376448 |
dc.identifier.doi.none.fl_str_mv |
10.21814/lm.15.2.405 |