Named entity error prediction across domains
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/63160 |
Resumo: | This thesis was conducted within the scope of Machine Translation (MT) as part of an internship at the Portuguese company Unbabel, a startup that uses MT and other Artificial Intelligence (AI) services. In this work we propose to analyse the Named Entity Error Prediction (NEEP) model developed by the company, which also involves a community of translators contributing to error annotation and post-editing of MT. Over the past decade, much research has focused on Named Entities (NE), whether in the domain of Named Entity Recognition (NER) systems for their identification (Nouvel, 2016) or within the Multidimensional Quality Metrics (MQM) framework (Lommel, 2014), with the goal of classifying them accurately to enhance MT processes for NEs. Therefore, the main objective of this thesis is to analyse the first version of the NEEP model (v1) and, based on this analysis, explore paths for improving the model through data augmentation to retrain it. This process led to the development of a new model version, known as NEEP v2, which underwent testing and demonstrated substantial performance improvements. Understanding the process of NE annotation and error annotation in NEs was a fundamental part of the research methodology, which is divided into two parts. The first part entails describing the two datasets used first for training the initial version of the NEEP model and, subsequently, for testing it. The second part details the data augmentation process, focusing on constructing a new dataset for retraining the NEEP model to address the most common NE errors. From the results we obtained throughout the first analysis, we gained insights into the main areas requiring improvement in the NEEP (v1) model. Building a dataset for data augmentation primarily involved inducing errors in the NEs that were most error-prone. In this regard, we used data from different clients in various domains and languages to generate these new errors, using smaug - a multilingual data augmentation package that focuses on altering specific aspects of sentences, such as NEs - and manual induction of NE errors. After the retraining phase, we obtained a new version, called NEEP v2, and subsequently selected a sample of 3,164 segments to test the new model. Considering it was our initial attempt to create a model capable of identifying NE errors in MT outputs, we believe we achieved successful outcomes. We successfully addressed significant NE error issues across various languages and domains, as evidenced by our initial assessment of the NEEP v1 model and the subsequent analysis of the NEEP v2 model following the data augmentation we proposed. In conclusion, we believe that the study of both versions of the NEEP model has significantly contributed to Unbabel. All the research process led to the development of a new model version (NEEP v2), that is able to work in quite different language pairs and domains. Its prominent F-measure results (over 20 F-measure increased performance) also represent a remarkable gain and sets light for further investigations towards achieving increasingly satisfactory model results. |
id |
RCAP_1ead2a580e5b8d05aacf829d3f936015 |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/63160 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Named entity error prediction across domainsDomínio/Área Científica::Humanidades::Línguas e LiteraturasThis thesis was conducted within the scope of Machine Translation (MT) as part of an internship at the Portuguese company Unbabel, a startup that uses MT and other Artificial Intelligence (AI) services. In this work we propose to analyse the Named Entity Error Prediction (NEEP) model developed by the company, which also involves a community of translators contributing to error annotation and post-editing of MT. Over the past decade, much research has focused on Named Entities (NE), whether in the domain of Named Entity Recognition (NER) systems for their identification (Nouvel, 2016) or within the Multidimensional Quality Metrics (MQM) framework (Lommel, 2014), with the goal of classifying them accurately to enhance MT processes for NEs. Therefore, the main objective of this thesis is to analyse the first version of the NEEP model (v1) and, based on this analysis, explore paths for improving the model through data augmentation to retrain it. This process led to the development of a new model version, known as NEEP v2, which underwent testing and demonstrated substantial performance improvements. Understanding the process of NE annotation and error annotation in NEs was a fundamental part of the research methodology, which is divided into two parts. The first part entails describing the two datasets used first for training the initial version of the NEEP model and, subsequently, for testing it. The second part details the data augmentation process, focusing on constructing a new dataset for retraining the NEEP model to address the most common NE errors. From the results we obtained throughout the first analysis, we gained insights into the main areas requiring improvement in the NEEP (v1) model. Building a dataset for data augmentation primarily involved inducing errors in the NEs that were most error-prone. In this regard, we used data from different clients in various domains and languages to generate these new errors, using smaug - a multilingual data augmentation package that focuses on altering specific aspects of sentences, such as NEs - and manual induction of NE errors. After the retraining phase, we obtained a new version, called NEEP v2, and subsequently selected a sample of 3,164 segments to test the new model. Considering it was our initial attempt to create a model capable of identifying NE errors in MT outputs, we believe we achieved successful outcomes. We successfully addressed significant NE error issues across various languages and domains, as evidenced by our initial assessment of the NEEP v1 model and the subsequent analysis of the NEEP v2 model following the data augmentation we proposed. In conclusion, we believe that the study of both versions of the NEEP model has significantly contributed to Unbabel. All the research process led to the development of a new model version (NEEP v2), that is able to work in quite different language pairs and domains. Its prominent F-measure results (over 20 F-measure increased performance) also represent a remarkable gain and sets light for further investigations towards achieving increasingly satisfactory model results.Esta dissertação foi realizada no âmbito da Tradução Automática (TA), como parte das atividades de estágio na empresa portuguesa Unbabel, uma startup que utiliza TA e outros serviços de Inteligência Artificial (IA). O principal objetivo do presente trabalho é analisar o módulo para predição de erros em entidades mencionadas (Named Entity Error Prediction), desenvolvido pela empresa, que também conta com uma comunidade de tradutores que contribuem para o processo de anotação de erros e pós-edição das TAs. Desde a última década, muitos estudos têm-se centrado em análises de Entidades Mencionadas (EM) - seja na área de sistemas de Reconhecimento de Entidades Mencionadas (REM) para as identificar (Nouvel, 2016), seja dentro do contexto das Multidimensional Quality Metrics (MQM) (Lommel, 2014), com o objetivo de classificá-las adequadamente quanto a erros de tradução, visando melhorar os processos de TA para as EMs. No que diz respeito ao reconhecimento de EMs, um sistema REM eficaz deve ser capaz de identificar diversas EMs num texto de partida e, em seguida, classificá-las de acordo com categorias pré-definidas. Os sistemas REM desempenham um papel fundamental como ponto de partida no processo de compreensão do significado de um texto e são essenciais para diversas outras tarefas de Processamento de Linguagem Natural (PLN), incluindo Anonimização, Localização e previsão de erros em EMs, que são o foco desta pesquisa. Por conseguinte, o objetivo principal desta dissertação consiste em analisar a primeira versão do modelo NEEP (v1) e, a partir dessa análise, investigar as possibilidades de melhoria do sistema por meio do aumento de dados para retreinar o modelo. Esse processo culminou na criação de uma nova versão do modelo, denominada NEEP v2, que foi sujeita a testes e apresentou melhorias consideráveis no seu desempenho. Não obstante, é preciso reiterar que para chegar ao processo de análise dos pontos que precisavam de melhorias no modelo e assim, prover novos dados para que o modelo fosse retreinado e avaliado novamente, foi elaborado um breve apanhado histórico a respeito do desenvolvimento da TA, bem como das investigações feitas sobre EMs até ao presente momento. Consideramos importante estabelecer como os sistemas de REM funcionam e as principais razões para termos um sistema in-house, no que diz respeito às EMs de clientes e domínios específicos com os quais lidamos no dia a dia da Unbabel. Ter um sistema próprio que trabalha com categorias específicas de EMs requer uma atenção especial quanto às próprias entidades e, consequentemente, os processos de reconhecimento, anotação, anonimização e localização. Entender como funciona o processo de anotação das EMs, bem como o processo de anotação de erros nas EMs, fez parte fundamental da metodologia do trabalho, que está dividida em duas partes. A primeira corresponde à descrição dos bancos de dados que foram usados primeiro para treinar a primeira versão do modelo NEEP e, segundo, para testá-lo. A segunda parte descreve o processo de ampliação de dados, com foco na construção de um novo banco de dados para retreinar o modelo NEEP, a fim de abordar os erros mais comuns nas EMs. Para que esse novo banco de dados para ampliação dos dados fosse construído, realizamos uma análise detalhada dos resultados obtidos a partir do primeiro teste do modelo. Essa análise contou com o processo de anotação de erros em EMs e, a partir dessa anotações, foi possível estabelecer não apenas os valores de precision e recall - 0.9965 e 0.3666, respectivamente - como também as categorias de erros mais recorrentes e em quais línguas o modelo falhava mais na identificação dos erros em EMs. Dentre as categorias de erros em EMs identificadas como mais prováveis de o modelo falhar, encontramos Wrong NE, com 51.28% dos segmentos contendo erros em EMs que não foram identificados pelo modelo NEEP, e Date/time format, com 3.89% de erros em EMs. No que diz respeito às línguas mais propensas a erros em EMs que o modelo mais falha, encontramos árabe e coreano, línguas não provenientes de matriz latina, e francês, dentro da matriz latina. A partir desses resultados, pudemos compreender os principais pontos que precisavam de melhorias no modelo NEEP. A construção de um banco de dados para ampliação dos dados para retreinar o modelo partiu principalmente da indução de erros nas EMs que eram mais propensas a erros. Nesse sentido, utilizamos dados de diferentes clientes em diferentes domínios para gerar esses novos erros, utilizando smaug1 - um pacote de ampliação de dados multilíngue que oferece alterações focadas em modificar aspectos específicos de frases, como as EMs - e indução manual de erros em EMs. Em um sentido mais pragmático, o script automaticamente substitui as EMs do texto de partida por outras EMs, gerando um conjunto de perturbações que utilizamos para retreinar o modelo NEEP. Após a fase de retreino do modelo, obtivemos uma nova versão, chamada NEEP v2. Em seguida, selecionamos uma amostra de 3,164 segmentos para testar o novo modelo. Em comparação com o modelo NEEP v1, o novo modelo - NEEP v2 - teve um aumento considerável no valor de recall, passando de 0.3666 no v1 para 0.6982 no v2. O mesmo aconteceu com o valor de F-measure, que passou de 0.5360 para 0.7701, o que representa um aumento de mais de 20 pontos. No que diz respeito à precision, embora o valor tenha sofrido uma leve queda, de 0.9965 para 0.8584, o modelo NEEP v2 ainda manteve um nível elevado de precisão na identificação dos erros em EMs. Dentre os aspectos mais marcantes da melhoria da segunda versão do modelo, destacamos as categorias de EMs Wrong NE, Date/time format e Address format. No total de erros em EMs, o modelo identificou 80.89% para Wrong NE, 8.88% para Date/time format e 0.71% para Address format - cuja primeira versão do modelo não havia identificado quaisquer dos erros nessa categoria. O modelo NEEP v2 também apresentou melhorias consideráveis nas línguas com as quais foi testado, especialmente árabe e coreano que não são de matriz latina, e húngaro e francês de matriz latina. Ainda que tenha havido determinadas falhas em categorias como Measurement format, por exemplo, o desempenho global do modelo é excepcional. Por fim, consideramos que o estudo com as duas versões do modelo NEEP contribuíram de maneira significativa para a empresa. O desenvolvimento de uma nova versão do modelo que apresenta resultados de F-measure proeminentes representa um ganho considerável e abre portas para a possibilidade de que novas investigações continuem sendo feitas em prol de obter um modelo com resultados cada vez mais satisfatórios.Moniz, Helena Gorete SilvaCabarrão, Vera Mónica dos SantosRepositório da Universidade de LisboaAndrade, Juliana Valpasso de2024-03-04T18:42:18Z2024-02-092023-09-132024-02-09T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/63160TID:203533380enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T01:19:57Zoai:repositorio.ul.pt:10451/63160Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:14:29.896500Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Named entity error prediction across domains |
title |
Named entity error prediction across domains |
spellingShingle |
Named entity error prediction across domains Andrade, Juliana Valpasso de Domínio/Área Científica::Humanidades::Línguas e Literaturas |
title_short |
Named entity error prediction across domains |
title_full |
Named entity error prediction across domains |
title_fullStr |
Named entity error prediction across domains |
title_full_unstemmed |
Named entity error prediction across domains |
title_sort |
Named entity error prediction across domains |
author |
Andrade, Juliana Valpasso de |
author_facet |
Andrade, Juliana Valpasso de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Moniz, Helena Gorete Silva Cabarrão, Vera Mónica dos Santos Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
Andrade, Juliana Valpasso de |
dc.subject.por.fl_str_mv |
Domínio/Área Científica::Humanidades::Línguas e Literaturas |
topic |
Domínio/Área Científica::Humanidades::Línguas e Literaturas |
description |
This thesis was conducted within the scope of Machine Translation (MT) as part of an internship at the Portuguese company Unbabel, a startup that uses MT and other Artificial Intelligence (AI) services. In this work we propose to analyse the Named Entity Error Prediction (NEEP) model developed by the company, which also involves a community of translators contributing to error annotation and post-editing of MT. Over the past decade, much research has focused on Named Entities (NE), whether in the domain of Named Entity Recognition (NER) systems for their identification (Nouvel, 2016) or within the Multidimensional Quality Metrics (MQM) framework (Lommel, 2014), with the goal of classifying them accurately to enhance MT processes for NEs. Therefore, the main objective of this thesis is to analyse the first version of the NEEP model (v1) and, based on this analysis, explore paths for improving the model through data augmentation to retrain it. This process led to the development of a new model version, known as NEEP v2, which underwent testing and demonstrated substantial performance improvements. Understanding the process of NE annotation and error annotation in NEs was a fundamental part of the research methodology, which is divided into two parts. The first part entails describing the two datasets used first for training the initial version of the NEEP model and, subsequently, for testing it. The second part details the data augmentation process, focusing on constructing a new dataset for retraining the NEEP model to address the most common NE errors. From the results we obtained throughout the first analysis, we gained insights into the main areas requiring improvement in the NEEP (v1) model. Building a dataset for data augmentation primarily involved inducing errors in the NEs that were most error-prone. In this regard, we used data from different clients in various domains and languages to generate these new errors, using smaug - a multilingual data augmentation package that focuses on altering specific aspects of sentences, such as NEs - and manual induction of NE errors. After the retraining phase, we obtained a new version, called NEEP v2, and subsequently selected a sample of 3,164 segments to test the new model. Considering it was our initial attempt to create a model capable of identifying NE errors in MT outputs, we believe we achieved successful outcomes. We successfully addressed significant NE error issues across various languages and domains, as evidenced by our initial assessment of the NEEP v1 model and the subsequent analysis of the NEEP v2 model following the data augmentation we proposed. In conclusion, we believe that the study of both versions of the NEEP model has significantly contributed to Unbabel. All the research process led to the development of a new model version (NEEP v2), that is able to work in quite different language pairs and domains. Its prominent F-measure results (over 20 F-measure increased performance) also represent a remarkable gain and sets light for further investigations towards achieving increasingly satisfactory model results. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-09-13 2024-03-04T18:42:18Z 2024-02-09 2024-02-09T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/63160 TID:203533380 |
url |
http://hdl.handle.net/10451/63160 |
identifier_str_mv |
TID:203533380 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799137797696651264 |