Named entity error prediction across domains

Detalhes bibliográficos
Autor(a) principal: Andrade, Juliana Valpasso de
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/63160
Resumo: This thesis was conducted within the scope of Machine Translation (MT) as part of an internship at the Portuguese company Unbabel, a startup that uses MT and other Artificial Intelligence (AI) services. In this work we propose to analyse the Named Entity Error Prediction (NEEP) model developed by the company, which also involves a community of translators contributing to error annotation and post-editing of MT. Over the past decade, much research has focused on Named Entities (NE), whether in the domain of Named Entity Recognition (NER) systems for their identification (Nouvel, 2016) or within the Multidimensional Quality Metrics (MQM) framework (Lommel, 2014), with the goal of classifying them accurately to enhance MT processes for NEs. Therefore, the main objective of this thesis is to analyse the first version of the NEEP model (v1) and, based on this analysis, explore paths for improving the model through data augmentation to retrain it. This process led to the development of a new model version, known as NEEP v2, which underwent testing and demonstrated substantial performance improvements. Understanding the process of NE annotation and error annotation in NEs was a fundamental part of the research methodology, which is divided into two parts. The first part entails describing the two datasets used first for training the initial version of the NEEP model and, subsequently, for testing it. The second part details the data augmentation process, focusing on constructing a new dataset for retraining the NEEP model to address the most common NE errors. From the results we obtained throughout the first analysis, we gained insights into the main areas requiring improvement in the NEEP (v1) model. Building a dataset for data augmentation primarily involved inducing errors in the NEs that were most error-prone. In this regard, we used data from different clients in various domains and languages to generate these new errors, using smaug - a multilingual data augmentation package that focuses on altering specific aspects of sentences, such as NEs - and manual induction of NE errors. After the retraining phase, we obtained a new version, called NEEP v2, and subsequently selected a sample of 3,164 segments to test the new model. Considering it was our initial attempt to create a model capable of identifying NE errors in MT outputs, we believe we achieved successful outcomes. We successfully addressed significant NE error issues across various languages and domains, as evidenced by our initial assessment of the NEEP v1 model and the subsequent analysis of the NEEP v2 model following the data augmentation we proposed. In conclusion, we believe that the study of both versions of the NEEP model has significantly contributed to Unbabel. All the research process led to the development of a new model version (NEEP v2), that is able to work in quite different language pairs and domains. Its prominent F-measure results (over 20 F-measure increased performance) also represent a remarkable gain and sets light for further investigations towards achieving increasingly satisfactory model results.
id RCAP_1ead2a580e5b8d05aacf829d3f936015
oai_identifier_str oai:repositorio.ul.pt:10451/63160
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Named entity error prediction across domainsDomínio/Área Científica::Humanidades::Línguas e LiteraturasThis thesis was conducted within the scope of Machine Translation (MT) as part of an internship at the Portuguese company Unbabel, a startup that uses MT and other Artificial Intelligence (AI) services. In this work we propose to analyse the Named Entity Error Prediction (NEEP) model developed by the company, which also involves a community of translators contributing to error annotation and post-editing of MT. Over the past decade, much research has focused on Named Entities (NE), whether in the domain of Named Entity Recognition (NER) systems for their identification (Nouvel, 2016) or within the Multidimensional Quality Metrics (MQM) framework (Lommel, 2014), with the goal of classifying them accurately to enhance MT processes for NEs. Therefore, the main objective of this thesis is to analyse the first version of the NEEP model (v1) and, based on this analysis, explore paths for improving the model through data augmentation to retrain it. This process led to the development of a new model version, known as NEEP v2, which underwent testing and demonstrated substantial performance improvements. Understanding the process of NE annotation and error annotation in NEs was a fundamental part of the research methodology, which is divided into two parts. The first part entails describing the two datasets used first for training the initial version of the NEEP model and, subsequently, for testing it. The second part details the data augmentation process, focusing on constructing a new dataset for retraining the NEEP model to address the most common NE errors. From the results we obtained throughout the first analysis, we gained insights into the main areas requiring improvement in the NEEP (v1) model. Building a dataset for data augmentation primarily involved inducing errors in the NEs that were most error-prone. In this regard, we used data from different clients in various domains and languages to generate these new errors, using smaug - a multilingual data augmentation package that focuses on altering specific aspects of sentences, such as NEs - and manual induction of NE errors. After the retraining phase, we obtained a new version, called NEEP v2, and subsequently selected a sample of 3,164 segments to test the new model. Considering it was our initial attempt to create a model capable of identifying NE errors in MT outputs, we believe we achieved successful outcomes. We successfully addressed significant NE error issues across various languages and domains, as evidenced by our initial assessment of the NEEP v1 model and the subsequent analysis of the NEEP v2 model following the data augmentation we proposed. In conclusion, we believe that the study of both versions of the NEEP model has significantly contributed to Unbabel. All the research process led to the development of a new model version (NEEP v2), that is able to work in quite different language pairs and domains. Its prominent F-measure results (over 20 F-measure increased performance) also represent a remarkable gain and sets light for further investigations towards achieving increasingly satisfactory model results.Esta dissertação foi realizada no âmbito da Tradução Automática (TA), como parte das atividades de estágio na empresa portuguesa Unbabel, uma startup que utiliza TA e outros serviços de Inteligência Artificial (IA). O principal objetivo do presente trabalho é analisar o módulo para predição de erros em entidades mencionadas (Named Entity Error Prediction), desenvolvido pela empresa, que também conta com uma comunidade de tradutores que contribuem para o processo de anotação de erros e pós-edição das TAs. Desde a última década, muitos estudos têm-se centrado em análises de Entidades Mencionadas (EM) - seja na área de sistemas de Reconhecimento de Entidades Mencionadas (REM) para as identificar (Nouvel, 2016), seja dentro do contexto das Multidimensional Quality Metrics (MQM) (Lommel, 2014), com o objetivo de classificá-las adequadamente quanto a erros de tradução, visando melhorar os processos de TA para as EMs. No que diz respeito ao reconhecimento de EMs, um sistema REM eficaz deve ser capaz de identificar diversas EMs num texto de partida e, em seguida, classificá-las de acordo com categorias pré-definidas. Os sistemas REM desempenham um papel fundamental como ponto de partida no processo de compreensão do significado de um texto e são essenciais para diversas outras tarefas de Processamento de Linguagem Natural (PLN), incluindo Anonimização, Localização e previsão de erros em EMs, que são o foco desta pesquisa. Por conseguinte, o objetivo principal desta dissertação consiste em analisar a primeira versão do modelo NEEP (v1) e, a partir dessa análise, investigar as possibilidades de melhoria do sistema por meio do aumento de dados para retreinar o modelo. Esse processo culminou na criação de uma nova versão do modelo, denominada NEEP v2, que foi sujeita a testes e apresentou melhorias consideráveis no seu desempenho. Não obstante, é preciso reiterar que para chegar ao processo de análise dos pontos que precisavam de melhorias no modelo e assim, prover novos dados para que o modelo fosse retreinado e avaliado novamente, foi elaborado um breve apanhado histórico a respeito do desenvolvimento da TA, bem como das investigações feitas sobre EMs até ao presente momento. Consideramos importante estabelecer como os sistemas de REM funcionam e as principais razões para termos um sistema in-house, no que diz respeito às EMs de clientes e domínios específicos com os quais lidamos no dia a dia da Unbabel. Ter um sistema próprio que trabalha com categorias específicas de EMs requer uma atenção especial quanto às próprias entidades e, consequentemente, os processos de reconhecimento, anotação, anonimização e localização. Entender como funciona o processo de anotação das EMs, bem como o processo de anotação de erros nas EMs, fez parte fundamental da metodologia do trabalho, que está dividida em duas partes. A primeira corresponde à descrição dos bancos de dados que foram usados primeiro para treinar a primeira versão do modelo NEEP e, segundo, para testá-lo. A segunda parte descreve o processo de ampliação de dados, com foco na construção de um novo banco de dados para retreinar o modelo NEEP, a fim de abordar os erros mais comuns nas EMs. Para que esse novo banco de dados para ampliação dos dados fosse construído, realizamos uma análise detalhada dos resultados obtidos a partir do primeiro teste do modelo. Essa análise contou com o processo de anotação de erros em EMs e, a partir dessa anotações, foi possível estabelecer não apenas os valores de precision e recall - 0.9965 e 0.3666, respectivamente - como também as categorias de erros mais recorrentes e em quais línguas o modelo falhava mais na identificação dos erros em EMs. Dentre as categorias de erros em EMs identificadas como mais prováveis de o modelo falhar, encontramos Wrong NE, com 51.28% dos segmentos contendo erros em EMs que não foram identificados pelo modelo NEEP, e Date/time format, com 3.89% de erros em EMs. No que diz respeito às línguas mais propensas a erros em EMs que o modelo mais falha, encontramos árabe e coreano, línguas não provenientes de matriz latina, e francês, dentro da matriz latina. A partir desses resultados, pudemos compreender os principais pontos que precisavam de melhorias no modelo NEEP. A construção de um banco de dados para ampliação dos dados para retreinar o modelo partiu principalmente da indução de erros nas EMs que eram mais propensas a erros. Nesse sentido, utilizamos dados de diferentes clientes em diferentes domínios para gerar esses novos erros, utilizando smaug1 - um pacote de ampliação de dados multilíngue que oferece alterações focadas em modificar aspectos específicos de frases, como as EMs - e indução manual de erros em EMs. Em um sentido mais pragmático, o script automaticamente substitui as EMs do texto de partida por outras EMs, gerando um conjunto de perturbações que utilizamos para retreinar o modelo NEEP. Após a fase de retreino do modelo, obtivemos uma nova versão, chamada NEEP v2. Em seguida, selecionamos uma amostra de 3,164 segmentos para testar o novo modelo. Em comparação com o modelo NEEP v1, o novo modelo - NEEP v2 - teve um aumento considerável no valor de recall, passando de 0.3666 no v1 para 0.6982 no v2. O mesmo aconteceu com o valor de F-measure, que passou de 0.5360 para 0.7701, o que representa um aumento de mais de 20 pontos. No que diz respeito à precision, embora o valor tenha sofrido uma leve queda, de 0.9965 para 0.8584, o modelo NEEP v2 ainda manteve um nível elevado de precisão na identificação dos erros em EMs. Dentre os aspectos mais marcantes da melhoria da segunda versão do modelo, destacamos as categorias de EMs Wrong NE, Date/time format e Address format. No total de erros em EMs, o modelo identificou 80.89% para Wrong NE, 8.88% para Date/time format e 0.71% para Address format - cuja primeira versão do modelo não havia identificado quaisquer dos erros nessa categoria. O modelo NEEP v2 também apresentou melhorias consideráveis nas línguas com as quais foi testado, especialmente árabe e coreano que não são de matriz latina, e húngaro e francês de matriz latina. Ainda que tenha havido determinadas falhas em categorias como Measurement format, por exemplo, o desempenho global do modelo é excepcional. Por fim, consideramos que o estudo com as duas versões do modelo NEEP contribuíram de maneira significativa para a empresa. O desenvolvimento de uma nova versão do modelo que apresenta resultados de F-measure proeminentes representa um ganho considerável e abre portas para a possibilidade de que novas investigações continuem sendo feitas em prol de obter um modelo com resultados cada vez mais satisfatórios.Moniz, Helena Gorete SilvaCabarrão, Vera Mónica dos SantosRepositório da Universidade de LisboaAndrade, Juliana Valpasso de2024-03-04T18:42:18Z2024-02-092023-09-132024-02-09T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/63160TID:203533380enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T01:19:57Zoai:repositorio.ul.pt:10451/63160Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:14:29.896500Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Named entity error prediction across domains
title Named entity error prediction across domains
spellingShingle Named entity error prediction across domains
Andrade, Juliana Valpasso de
Domínio/Área Científica::Humanidades::Línguas e Literaturas
title_short Named entity error prediction across domains
title_full Named entity error prediction across domains
title_fullStr Named entity error prediction across domains
title_full_unstemmed Named entity error prediction across domains
title_sort Named entity error prediction across domains
author Andrade, Juliana Valpasso de
author_facet Andrade, Juliana Valpasso de
author_role author
dc.contributor.none.fl_str_mv Moniz, Helena Gorete Silva
Cabarrão, Vera Mónica dos Santos
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Andrade, Juliana Valpasso de
dc.subject.por.fl_str_mv Domínio/Área Científica::Humanidades::Línguas e Literaturas
topic Domínio/Área Científica::Humanidades::Línguas e Literaturas
description This thesis was conducted within the scope of Machine Translation (MT) as part of an internship at the Portuguese company Unbabel, a startup that uses MT and other Artificial Intelligence (AI) services. In this work we propose to analyse the Named Entity Error Prediction (NEEP) model developed by the company, which also involves a community of translators contributing to error annotation and post-editing of MT. Over the past decade, much research has focused on Named Entities (NE), whether in the domain of Named Entity Recognition (NER) systems for their identification (Nouvel, 2016) or within the Multidimensional Quality Metrics (MQM) framework (Lommel, 2014), with the goal of classifying them accurately to enhance MT processes for NEs. Therefore, the main objective of this thesis is to analyse the first version of the NEEP model (v1) and, based on this analysis, explore paths for improving the model through data augmentation to retrain it. This process led to the development of a new model version, known as NEEP v2, which underwent testing and demonstrated substantial performance improvements. Understanding the process of NE annotation and error annotation in NEs was a fundamental part of the research methodology, which is divided into two parts. The first part entails describing the two datasets used first for training the initial version of the NEEP model and, subsequently, for testing it. The second part details the data augmentation process, focusing on constructing a new dataset for retraining the NEEP model to address the most common NE errors. From the results we obtained throughout the first analysis, we gained insights into the main areas requiring improvement in the NEEP (v1) model. Building a dataset for data augmentation primarily involved inducing errors in the NEs that were most error-prone. In this regard, we used data from different clients in various domains and languages to generate these new errors, using smaug - a multilingual data augmentation package that focuses on altering specific aspects of sentences, such as NEs - and manual induction of NE errors. After the retraining phase, we obtained a new version, called NEEP v2, and subsequently selected a sample of 3,164 segments to test the new model. Considering it was our initial attempt to create a model capable of identifying NE errors in MT outputs, we believe we achieved successful outcomes. We successfully addressed significant NE error issues across various languages and domains, as evidenced by our initial assessment of the NEEP v1 model and the subsequent analysis of the NEEP v2 model following the data augmentation we proposed. In conclusion, we believe that the study of both versions of the NEEP model has significantly contributed to Unbabel. All the research process led to the development of a new model version (NEEP v2), that is able to work in quite different language pairs and domains. Its prominent F-measure results (over 20 F-measure increased performance) also represent a remarkable gain and sets light for further investigations towards achieving increasingly satisfactory model results.
publishDate 2023
dc.date.none.fl_str_mv 2023-09-13
2024-03-04T18:42:18Z
2024-02-09
2024-02-09T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/63160
TID:203533380
url http://hdl.handle.net/10451/63160
identifier_str_mv TID:203533380
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799137797696651264