Named Entities Recognition for Machine Translation: A Case Study on the Importance of Named Entities for Customer Support

Detalhes bibliográficos
Autor(a) principal: Menezes, Luís Miguel Correia
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/51179
Resumo: The last two decades have been of significant change in the international panorama at all levels. The onset of the internet and content availability has propelled us to a new era: The Information Age. The staggering growth of new digital contents, either in the form of ebooks, on-demand TV shows, blogs or even e-commerce websites, has led to an increase in the need for translated material, influenced by people's demand for a quick access to this shared knowledge in their native languages and dialects. Fortunately, machine translation technologies (MT), which provide in many cases human-like translations, are now more widely available, enabling quicker translations for multiple languages at more affordable prices. This work describes the Natural Language Process (NLP) sub-task known as Named Entity Recognition (NER), performed by Unbabel, a Portuguese Machine-translation start-up that combines MT with human post-edition and focuses strictly on customer service content, to improve translation quality outputs. The main objective of this study is to contribute to furthering MT quality and good-practices by exposing the importance of having a continuously-in-development robust Named Entity Recognition system for generic and client-specific content in an MT pipeline and for General Data Protection Regulation (GDPR) compliance; moreover, having in mind future applications, we have tested strategies that support the creation of Multilingual Named Entities Recognition Systems. In the following work, we will first define the meaning of Named Entity, highlighting its importance in a Machine Translation scenario, followed by a brief historical overview of the subject. We will also provide a reasonable description of the most recent data-driven Machine Translation technologies. Concerning the main topic of this work, we will describe three experiments carried out jointly with Unbabel´s NLP team. The first experiment focuses on assisting the NLP team in the creation of a domain-specific Named Entity Recognition (NER) system. The second and third experiments explore the possibilities to create in a semi-automatically fashion multilingual NER gold standards, by resorting to aligners able to project Named Entities between a parallel corpus.
id RCAP_2b7391e0aeff8a5803a8b3881a1b3718
oai_identifier_str oai:repositorio.ul.pt:10451/51179
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Named Entities Recognition for Machine Translation: A Case Study on the Importance of Named Entities for Customer SupportUnbabel. - (Lisboa, Portugal)Tradução automáticaTratamento automático da linguagem naturalReconhecimento de entidades mencionadasTraduçãoTeses de mestrado - 2021Domínio/Área Científica::Humanidades::Línguas e LiteraturasThe last two decades have been of significant change in the international panorama at all levels. The onset of the internet and content availability has propelled us to a new era: The Information Age. The staggering growth of new digital contents, either in the form of ebooks, on-demand TV shows, blogs or even e-commerce websites, has led to an increase in the need for translated material, influenced by people's demand for a quick access to this shared knowledge in their native languages and dialects. Fortunately, machine translation technologies (MT), which provide in many cases human-like translations, are now more widely available, enabling quicker translations for multiple languages at more affordable prices. This work describes the Natural Language Process (NLP) sub-task known as Named Entity Recognition (NER), performed by Unbabel, a Portuguese Machine-translation start-up that combines MT with human post-edition and focuses strictly on customer service content, to improve translation quality outputs. The main objective of this study is to contribute to furthering MT quality and good-practices by exposing the importance of having a continuously-in-development robust Named Entity Recognition system for generic and client-specific content in an MT pipeline and for General Data Protection Regulation (GDPR) compliance; moreover, having in mind future applications, we have tested strategies that support the creation of Multilingual Named Entities Recognition Systems. In the following work, we will first define the meaning of Named Entity, highlighting its importance in a Machine Translation scenario, followed by a brief historical overview of the subject. We will also provide a reasonable description of the most recent data-driven Machine Translation technologies. Concerning the main topic of this work, we will describe three experiments carried out jointly with Unbabel´s NLP team. The first experiment focuses on assisting the NLP team in the creation of a domain-specific Named Entity Recognition (NER) system. The second and third experiments explore the possibilities to create in a semi-automatically fashion multilingual NER gold standards, by resorting to aligners able to project Named Entities between a parallel corpus.As últimas duas décadas têm sido de grandes mudanças a todos os níveis. O início da internet e a disponibilidade de conteúdos veio impulsionar-nos para uma nova era: a Era da Informação. O impressionante aumento de novos conteúdos digitais, sejam eles em forma de ebooks, programas de televisão sempre disponíveis quando solicitados, blogs ou mesmo sites na internet de vendas ao público, levou a um aumento de material traduzido, influenciado em grande parte pelo facto de as pessoas exigirem um acesso rápido a estes conhecimentos partilhados nas suas línguas nativas ou dialetos. Felizmente, as novas tecnologias de tradução automática (TA), que em muitos casos apresentam uma qualidade que rivaliza com as traduções humanas, estão agora amplamente disponíveis, permitindo traduções para uma panóplia de diferentes línguas, em tempo recorde e a melhores preços do que os praticados por tradutores humanos. O presente trabalho dedica-se a descrever a sub-tarefa no campo de Processamento de Língua Natural (PLN) denominada de Reconhecimento de Entidades Mencionadas (REM), utilizada pela Unbabel, uma startup portuguesa que combina tradução automática com pós-edição humana, de forma a melhorar a qualidade das traduções automáticas, e que se foca principalmente em conteúdos provenientes da área do apoio ao cliente. O principal objetivo deste trabalho é contribuir para um crescente aumento da qualidade das traduções automáticas e para fomentar as boas práticas na área da tradução automática, expondo a importância de manter um sistema de Reconhecimento de Entidades Mencionadas robusto e em constante evolução no seu ciclo de tradução, capaz de articular diferentes tipos de conteúdo, do mais genérico ao mais específico, e para cumprir as disposições sobre a proteção de dados exigidas pelo Regulamento Geral sobre a Proteção de Dados (RGPD); adicionalmente, e tendo em conta possíveis aplicações futuras, foram testadas estratégias inovadoras que permitem e fomentam a criação de um sistema de Reconhecimento de Entidades Mencionadas multilíngue. No presente documento, iremos primeiro definir o significado de Entidade Mencionada, explicitando a sua importância num contexto de tradução automática. Num segundo momento, será dada uma panorâmica histórica sobre o tema. Adicionalmente, também iremos fazer um enquadramento histórico sobre os próprios sistemas de tradução automáticos, com um especial foco nas mais recentes tecnologias desenvolvidas com base em dados e sistemas de Inteligência Artificial. No que se refere ao tema principal do nosso trabalho, iremos descrever as três experiências levadas a cabo durante o estágio na Unbabel. Todas as experiências efetuadas tiveram como base os dados reais de clientes dos mais diversos domínios, com cada corpus utilizado nas experiências, sendo selecionados de acordo com os objetivos finais de cada experiência. A primeira experiência, que teve como objetivo auxiliar a equipa de Inteligência Artificial da Unbabel a desenvolver e testar um sistema automático de Reconhecimento de Entidades Mencionadas na área da entrega de comida ao domicílio, previu a possibilidade futura de se conseguir adaptar estes tipos de sistema a qualquer domínio ou clientes específicos. Com esta experiência foram dados os primeiros passos na Unbabel para a criação de um sistemas de Reconhecimento de Entidades de domínio específico. Em relação ao trabalho desenvolvido, começámos por apresentar e testar uma metodologia de identificação de tipos de Entidades Mencionadas comuns ao domínio acima mencionado. Neste sentido, um extenso corpus na área foi compilado e analisado, sendo possível identificar quatro tipos, e.g., categorias, de Entidades Mencionadas relevantes para o domínio, Restaurant Names; Restaurant Chains; Dish Names; Beverages. Posteriormente, foram criadas diretrizes de anotação para cada nova categoria, acabando estas por serem adicionadas à tipologia de anotação de Entidades Mencionadas já existente na Unbabel, incluindo 27 EM de foro mais genérico, tais como: Localização; Moedas; Medidas; Endereços; Produtos e Serviços e Cidades. Num segundo momento, foi feita uma tarefa de anotação sobre um novo corpus da mesma área composto por 14426 frases, com vista à construção de gold standards, a serem utilizados para a aprendizagem dos sistemas automáticos de Reconhecimento de Entidades Mencionadas e para testar os resultados dos mesmos. Para esta tarefa, fizemos uso das novas diretrizes, permitindo testá-las. Dois modelos foram treinados, um com apenas o gold standard do domínio específico, o outro com o gold standard do domínio específico e com todas as anotações de Entidades Mencionadas disponíveis. Desta forma, foi possível determinar qual dos dois obteve melhores resultados. No que se refere aos resultados obtidos, determinou-se que o gold standard do domínio específico não apresentava exemplos suficientes para treino e teste do novo Sistema de Reconhecimento de Entidades Mencionadas. Mesmo assim, foi possível obter resultados referentes à categoria Dish Names, que permitiram concluir que de ambos os modelos, aquele treinado com o gold standard do domínio específico conseguiu obter melhores resultados, identificando mais Dish Names de forma correta no corpus de teste. A segunda experiência focou-se em testar a estratégia de criação automática de gold standards multilíngues de Entidades Mencionadas para aprendizagem de sistemas automáticos, recorrendo a sistemas de alinhamentos de Entidades Mencionadas em bitextos (textos paralelos bilíngues). Para esta experiência foi usado um corpus em inglês (EN) traduzido para alemão (DE) na área do Turismo com 2500 frases e quatro sistemas de alinhamento de palavras de última geração. Em relação a esta experiência, começamos por submeter o corpus traduzido (DE) a um processo de anotação manual de Entidades Mencionadas, utilizando para tal as diretrizes de anotação de Entidades Mencionadas da Unbabel, sendo que para esta experiência não foram consideradas as novas Entidades da primeira experiência. Com a anotação do corpus traduzido feita, foi então possível enviá-lo para alinhamento de Entidades Mencionadas com o corpus homólogo (EN), que havia sido previamente anotado por outro anotator. Os resultados de alinhamento das entidades Mencionadas do bitexto permitiu avaliar o Named Entities inter-annotator agreement, ou seja o valor de acordo entre anotadores, no que se refere à seleção e categorização das diferentes Entidades, de forma a perceber que Entidades apresentam mais dificuldades de anotação. Adicionalmente, com os resultados de alinhamento foi possível determinar o sistema de alinhamento com melhores resultados de entre os quatro sistemas analisados (SimAlign; FastAlign; AwesomeAlign; eflomal). Os resultados de anotação mostraram uma elevada percentagem de inter-annotator agreement, com 87,97% de concordância para algumas categorias. . Adicionalmente, os resultados de alinhamento permitiram estabelecer o SimAlign como o sistema de alinhamento mais eficaz e preciso, suplantando o sistema utilizado pela Unbabel, FastAlign. A terceira experiência replicou o processo acima descrito, desta vez usando um bitexto (EN e PT-BR) composto por 360 frases na área da tecnologia Com esta nova experiência, pretendeu-se verificar se os resultados de alinhamento obtidos para o corpus de Turismo EN/DE são replicáveis quando se altera o domínio e os pares de língua. Esta experiência, à semelhança da anterior, previu uma tarefa de anotação de Entidades Mencionadas do corpus em questão (EN e PT-BR), sendo utilizadas as mesmas diretrizes de anotação da anterior experiência. Num segundo momento, o bitexto anotado foi então enviado para alinhamento, sendo utilizados os mesmos sistemas de alinhamento da segunda experiência. Com base nos resultados da experiência, foi possível determinar para cada Entidade Mencionada quais os sistema de alinhamento que obtiveram melhores resultados. Desta análise chegou-se à conclusão de que o sistema de alinhamento automático AwesomeAlign foi o que apresentou melhores resultados, seguido pelo SimAlign, que apresentou um desempenho de alinhamento mais baixo para a categoria de Entidade Mencionadas: Organizações. Em conclusão, com este trabalho pretendemos mostrar a complexidade e importância inerentes às Entidades Mencionadas num pipeline de tradução automática, assim como mostrar a importância de sistemas de reconhecimento de Entidades Mencionadas robusto e adaptável. É expectável que sistemas de Reconhecimento de Entidades Mencionadas treinados com foco em domínios particulares, consigam melhores resultados do que aqueles treinados com dados mais genéricos. De igual forma, salientamos a possibilidade e aplicabilidade de se poder usar diferentes recursos da área de Processamento de Língua Natural, como o uso de sistemas de alinhamento, no auxílio de Reconhecimento de Entidades Mencionadas, como nos casos acima descritos. De uma perspectiva mais linguística, atendemos a questões relacionadas com Entidades Mencionadas ambíguas. Neste ponto, estabeleceu-se quais as entidades que apresentam uma maior variabilidade de anotação entre anotadores, ou seja, aquelas em que houve um maior desacordo entre anotadores no que se refere às suas classificações, tentando encontrar justificações e soluções para este problema.Moniz, Helena Gorete SilvaCabarrão, Vera Mónica dos SantosRepositório da Universidade de LisboaMenezes, Luís Miguel Correia2022-02-09T08:58:52Z2021-10-192021-09-152021-10-19T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/51179TID:202855112enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:55:43Zoai:repositorio.ul.pt:10451/51179Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:02:31.379533Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Named Entities Recognition for Machine Translation: A Case Study on the Importance of Named Entities for Customer Support
title Named Entities Recognition for Machine Translation: A Case Study on the Importance of Named Entities for Customer Support
spellingShingle Named Entities Recognition for Machine Translation: A Case Study on the Importance of Named Entities for Customer Support
Menezes, Luís Miguel Correia
Unbabel. - (Lisboa, Portugal)
Tradução automática
Tratamento automático da linguagem natural
Reconhecimento de entidades mencionadas
Tradução
Teses de mestrado - 2021
Domínio/Área Científica::Humanidades::Línguas e Literaturas
title_short Named Entities Recognition for Machine Translation: A Case Study on the Importance of Named Entities for Customer Support
title_full Named Entities Recognition for Machine Translation: A Case Study on the Importance of Named Entities for Customer Support
title_fullStr Named Entities Recognition for Machine Translation: A Case Study on the Importance of Named Entities for Customer Support
title_full_unstemmed Named Entities Recognition for Machine Translation: A Case Study on the Importance of Named Entities for Customer Support
title_sort Named Entities Recognition for Machine Translation: A Case Study on the Importance of Named Entities for Customer Support
author Menezes, Luís Miguel Correia
author_facet Menezes, Luís Miguel Correia
author_role author
dc.contributor.none.fl_str_mv Moniz, Helena Gorete Silva
Cabarrão, Vera Mónica dos Santos
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Menezes, Luís Miguel Correia
dc.subject.por.fl_str_mv Unbabel. - (Lisboa, Portugal)
Tradução automática
Tratamento automático da linguagem natural
Reconhecimento de entidades mencionadas
Tradução
Teses de mestrado - 2021
Domínio/Área Científica::Humanidades::Línguas e Literaturas
topic Unbabel. - (Lisboa, Portugal)
Tradução automática
Tratamento automático da linguagem natural
Reconhecimento de entidades mencionadas
Tradução
Teses de mestrado - 2021
Domínio/Área Científica::Humanidades::Línguas e Literaturas
description The last two decades have been of significant change in the international panorama at all levels. The onset of the internet and content availability has propelled us to a new era: The Information Age. The staggering growth of new digital contents, either in the form of ebooks, on-demand TV shows, blogs or even e-commerce websites, has led to an increase in the need for translated material, influenced by people's demand for a quick access to this shared knowledge in their native languages and dialects. Fortunately, machine translation technologies (MT), which provide in many cases human-like translations, are now more widely available, enabling quicker translations for multiple languages at more affordable prices. This work describes the Natural Language Process (NLP) sub-task known as Named Entity Recognition (NER), performed by Unbabel, a Portuguese Machine-translation start-up that combines MT with human post-edition and focuses strictly on customer service content, to improve translation quality outputs. The main objective of this study is to contribute to furthering MT quality and good-practices by exposing the importance of having a continuously-in-development robust Named Entity Recognition system for generic and client-specific content in an MT pipeline and for General Data Protection Regulation (GDPR) compliance; moreover, having in mind future applications, we have tested strategies that support the creation of Multilingual Named Entities Recognition Systems. In the following work, we will first define the meaning of Named Entity, highlighting its importance in a Machine Translation scenario, followed by a brief historical overview of the subject. We will also provide a reasonable description of the most recent data-driven Machine Translation technologies. Concerning the main topic of this work, we will describe three experiments carried out jointly with Unbabel´s NLP team. The first experiment focuses on assisting the NLP team in the creation of a domain-specific Named Entity Recognition (NER) system. The second and third experiments explore the possibilities to create in a semi-automatically fashion multilingual NER gold standards, by resorting to aligners able to project Named Entities between a parallel corpus.
publishDate 2021
dc.date.none.fl_str_mv 2021-10-19
2021-09-15
2021-10-19T00:00:00Z
2022-02-09T08:58:52Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/51179
TID:202855112
url http://hdl.handle.net/10451/51179
identifier_str_mv TID:202855112
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134575041970176