Development and evaluation of a NER model in the domain of cultural analysis and tourism

Detalhes bibliográficos
Autor(a) principal: Sotelo Docío, Susana
Data de Publicação: 2023
Outros Autores: Gamallo, Pablo, Iriarte, Álvaro
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
DOI: 10.21814/lm.15.2.405
Texto Completo: https://doi.org/10.21814/lm.15.2.405
Resumo:  Named Entity Recognition (NER) is an essential task in information extraction where entities in a text are identified and classified. One of the primary challenges addressed by NER systems is the difficulty of generalizing what was learned to different types of corpora beyond the training data. This problem is magnified by the fact that most of the training corpora used are journalistic and therefore need to be adapted to other genres and domains. In this paper, we use a Spanish corpus consisting of interviews with visitors to the city of Santiago de Compostela and annotated with named entities, to evaluate and train NER systems tailored to the domain of cultural analysis and tourism. We provide a comprehensive comparison of various approaches employed, ranging from classical machine learning algorithms to fine-tuning Transformer models. The results significantly outperform the baseline, represented here by the toolkits Stanza, spaCy and Flair, although initial tests with unseen entities during training highlight the need for additional evaluations regarding their generalization capability and the utilization of adversarial splits for the corpus.
id RCAP_d4a831278d5f740051c006be6874c88b
oai_identifier_str oai:linguamatica.com:article/405
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Development and evaluation of a NER model in the domain of cultural analysis and tourismDesenvolvimento e avaliação de um modelo NER no domínio da análise cultural e do turismoDesenvolvimento e avaliação de um modelo NER no domínio da análise cultural e do turismoNamed-Entity RecognitionMachine LearningNeural NetworksTransformersevaluationreconhecimento de entidades mencionadasaprendizagem automáticaredes neuronaistransformersavaliação Named Entity Recognition (NER) is an essential task in information extraction where entities in a text are identified and classified. One of the primary challenges addressed by NER systems is the difficulty of generalizing what was learned to different types of corpora beyond the training data. This problem is magnified by the fact that most of the training corpora used are journalistic and therefore need to be adapted to other genres and domains. In this paper, we use a Spanish corpus consisting of interviews with visitors to the city of Santiago de Compostela and annotated with named entities, to evaluate and train NER systems tailored to the domain of cultural analysis and tourism. We provide a comprehensive comparison of various approaches employed, ranging from classical machine learning algorithms to fine-tuning Transformer models. The results significantly outperform the baseline, represented here by the toolkits Stanza, spaCy and Flair, although initial tests with unseen entities during training highlight the need for additional evaluations regarding their generalization capability and the utilization of adversarial splits for the corpus. O Reconhecimento de Entidades Mencionadas (NER) é uma tarefa essencial de extracção de informação em que as entidades de um texto são identificadas e classificadas. Um dos principais desafios enfrentados pelos sistemas NER é a dificuldade de generalização do aprendido para outros tipos de corpora diferentes dos utilizados durante o treino. Este problema é acentuado pelo facto de a maioria dos corpora de treino utilizados serem de natureza jornalística e, portanto, precisarem de ser adaptados a outros géneros e domínios. Neste artigo, utilizamos um corpus espanhol composto por entrevistas a visitantes da cidade de Santiago de Compostela e anotado com entidades mencionadas, para a avaliação e treino de sistemas NER adaptados ao domínio da cultura e do turismo. Apresentamos uma comparação das diferentes abordagens aplicadas, desde algoritmos clássicos de aprendizagem automática ao afinamento de vários modelos de Transformers. Os resultados obtidos superam significativamente o baseline, representado aqui pelos toolkits Stanza, spaCy e Flair, embora os testes preliminares com entidades não observadas durante o treino sugiram a necessidade de avaliações adicionais da sua capacidade de generalização e o uso de um método de segmentação adversarial no corpus. O Reconhecimento de Entidades Mencionadas (NER) é uma tarefa essencial de extracção de informação em que as entidades de um texto são identificadas e classificadas. Um dos principais desafios enfrentados pelos sistemas NER é a dificuldade de generalização do aprendido para outros tipos de corpora diferentes dos utilizados durante o treino. Este problema é acentuado pelo facto de a maioria dos corpora de treino utilizados serem de natureza jornalística e, portanto, precisarem de ser adaptados a outros géneros e domínios. Neste artigo, utilizamos um corpus espanhol composto por entrevistas a visitantes da cidade de Santiago de Compostela e anotado com entidades mencionadas, para a avaliação e treino de sistemas NER adaptados ao domínio da cultura e do turismo. Apresentamos uma comparação das diferentes abordagens aplicadas, desde algoritmos clássicos de aprendizagem automática ao afinamento de vários modelos de Transformers. Os resultados obtidos superam significativamente o baseline, representado aqui pelos toolkits Stanza, spaCy e Flair, embora os testes preliminares com entidades não observadas durante o treino sugiram a necessidade de avaliações adicionais da sua capacidade de generalização e o uso de um método de segmentação adversarial no corpus.Universidade do Minho e Universidade de Vigo2023-12-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.15.2.405https://doi.org/10.21814/lm.15.2.405Linguamática; Vol. 15 No. 2; 3--18Linguamática; v. 15 n. 2; 3--18Linguamática; Vol. 15 Núm. 2; 3--181647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/405https://linguamatica.com/index.php/linguamatica/article/view/405/499Direitos de Autor (c) 2023 Susana Sotelo Docío, Pablo Gamallo, Álvaro Iriartehttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessSotelo Docío, SusanaGamallo, PabloIriarte, Álvaro2024-10-04T13:45:21Zoai:linguamatica.com:article/405Portal AgregadorONGhttps://www.rcaap.pt/oai/openairemluisa.alvim@gmail.comopendoar:71602024-10-04T13:45:21Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Development and evaluation of a NER model in the domain of cultural analysis and tourism
Desenvolvimento e avaliação de um modelo NER no domínio da análise cultural e do turismo
Desenvolvimento e avaliação de um modelo NER no domínio da análise cultural e do turismo
title Development and evaluation of a NER model in the domain of cultural analysis and tourism
spellingShingle Development and evaluation of a NER model in the domain of cultural analysis and tourism
Development and evaluation of a NER model in the domain of cultural analysis and tourism
Sotelo Docío, Susana
Named-Entity Recognition
Machine Learning
Neural Networks
Transformers
evaluation
reconhecimento de entidades mencionadas
aprendizagem automática
redes neuronais
transformers
avaliação
Sotelo Docío, Susana
Named-Entity Recognition
Machine Learning
Neural Networks
Transformers
evaluation
reconhecimento de entidades mencionadas
aprendizagem automática
redes neuronais
transformers
avaliação
title_short Development and evaluation of a NER model in the domain of cultural analysis and tourism
title_full Development and evaluation of a NER model in the domain of cultural analysis and tourism
title_fullStr Development and evaluation of a NER model in the domain of cultural analysis and tourism
Development and evaluation of a NER model in the domain of cultural analysis and tourism
title_full_unstemmed Development and evaluation of a NER model in the domain of cultural analysis and tourism
Development and evaluation of a NER model in the domain of cultural analysis and tourism
title_sort Development and evaluation of a NER model in the domain of cultural analysis and tourism
author Sotelo Docío, Susana
author_facet Sotelo Docío, Susana
Sotelo Docío, Susana
Gamallo, Pablo
Iriarte, Álvaro
Gamallo, Pablo
Iriarte, Álvaro
author_role author
author2 Gamallo, Pablo
Iriarte, Álvaro
author2_role author
author
dc.contributor.author.fl_str_mv Sotelo Docío, Susana
Gamallo, Pablo
Iriarte, Álvaro
dc.subject.por.fl_str_mv Named-Entity Recognition
Machine Learning
Neural Networks
Transformers
evaluation
reconhecimento de entidades mencionadas
aprendizagem automática
redes neuronais
transformers
avaliação
topic Named-Entity Recognition
Machine Learning
Neural Networks
Transformers
evaluation
reconhecimento de entidades mencionadas
aprendizagem automática
redes neuronais
transformers
avaliação
description  Named Entity Recognition (NER) is an essential task in information extraction where entities in a text are identified and classified. One of the primary challenges addressed by NER systems is the difficulty of generalizing what was learned to different types of corpora beyond the training data. This problem is magnified by the fact that most of the training corpora used are journalistic and therefore need to be adapted to other genres and domains. In this paper, we use a Spanish corpus consisting of interviews with visitors to the city of Santiago de Compostela and annotated with named entities, to evaluate and train NER systems tailored to the domain of cultural analysis and tourism. We provide a comprehensive comparison of various approaches employed, ranging from classical machine learning algorithms to fine-tuning Transformer models. The results significantly outperform the baseline, represented here by the toolkits Stanza, spaCy and Flair, although initial tests with unseen entities during training highlight the need for additional evaluations regarding their generalization capability and the utilization of adversarial splits for the corpus.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.15.2.405
https://doi.org/10.21814/lm.15.2.405
url https://doi.org/10.21814/lm.15.2.405
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/405
https://linguamatica.com/index.php/linguamatica/article/view/405/499
dc.rights.driver.fl_str_mv Direitos de Autor (c) 2023 Susana Sotelo Docío, Pablo Gamallo, Álvaro Iriarte
http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Direitos de Autor (c) 2023 Susana Sotelo Docío, Pablo Gamallo, Álvaro Iriarte
http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 15 No. 2; 3--18
Linguamática; v. 15 n. 2; 3--18
Linguamática; Vol. 15 Núm. 2; 3--18
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv mluisa.alvim@gmail.com
_version_ 1822226065494376448
dc.identifier.doi.none.fl_str_mv 10.21814/lm.15.2.405