Portuguese-Chinese neural machine translation

Detalhes bibliográficos
Autor(a) principal: Santos, Rodrigo Soares dos
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/39863
Resumo: Tese de mestrado, Engenharia Informática (Interação e Conhecimento) Universidade de Lisboa, Faculdade de Ciências, 2019
id RCAP_ada1352259a49490a07bb21c800de156
oai_identifier_str oai:repositorio.ul.pt:10451/39863
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Portuguese-Chinese neural machine translationProcessamento de linguagem naturalTradução automáticaRedes neuronais artificiaisTradução automática neuronalPortuguêsChinêsTeses de mestrado - 2019Departamento de InformáticaTese de mestrado, Engenharia Informática (Interação e Conhecimento) Universidade de Lisboa, Faculdade de Ciências, 2019Esta dissertação apresenta um estudo sobre Tradução Automática Neuronal (Neural Machine Translation) para o par de línguas Português (PT) ↔ Chinês (ZH) culminando na criação de um sistema de tradução automática com desempenho ao nível do estado da arte, que tira partido apenas de recursos e ferramentas livremente disponíveis. Este par de línguas foi escolhido devido ao seu impacto a nível global. O Português é a sexta língua mais falada no mundo, com presença em todos os continentes (sendo em particular a língua mais falada no hemisfério sul) e a língua Chinesa, que tem como país de origem a China, é a língua mais falada em todo o mundo. Como super potência emergente, a China tem cada vez mais ligações aos países ocidentais e, como tal, a necessidade de instrumentos de comunicação adequados que possam atravessar as barreiras linguísticas é cada vez mais premente. A tradução automática surge assim como um apoio para o acesso rápido a grandes quantidades de informação. Portugal e a língua portuguesa têm várias ligações à China. Uma destas ligações é Macau, uma região administrativa especial da República Popular da China onde o Português e o Chinês são ambas línguas oficiais e, assim sendo, onde o interesse num sistema que traduza entre as duas é muito grande. Porém, o problema da Tradução Automática entre estas duas línguas ainda não tem sido alvo de suficiente atenção pela comunidade científica. Neste trabalho ambas as direções de tradução são consideradas, isto é, são criados sistemas de tradução para a direção de tradução Português → Chinês e para a direção Chinês → Português. A dificuldade na criação de tais sistemas passa pela aquisição de corpora de qualidade e em quantidade suficiente nas duas línguas, o que para o par de línguas escolhido é um grande desafio; e passa também pela escolha da arquitetura que melhor se adapta a esse corpora. Para a criação destes sistemas de tradução, exploro três abordagens, que são referidas neste documento como: (i) abordagem direta (direct approach), que faz uso apenas de corpora paralelo entre Português e Chinês; (ii) abordagem pivô (pivot approach), que usa uma terceira língua como intermediário para a tradução; e (iii) abordagem muitos-para muitos (many-to-many approach), que tira partido de toda a informação usada nas outras duas abordagens. As várias abordagens são implementadas com recurso a redes neuronais, mais propriamente à arquitetura Transformer (Vaswani et al., 2017), e obtêm desempenho assinalável, com uma das abordagens a alcançar resultados superiores aos do Google Tradutor para o par de línguas escolhido em ambas as direções. Para efeitos de teste e comparação entre as várias abordagens e as traduções do Google Tradutor, o mesmo corpus de teste é usado para avaliar todos os sistemas. Esse corpus de teste é constituído pelas primeiras 1000 frases do News Commentary v11 corpus (Tiedemann, 2012), sendo composto por textos jornalísticos bem curados e com grande qualidade gramatical. A abordagem direta é a solução mais comum usada para a criação de um sistema de tradução automática. No caso deste estudo, um corpus paralelo entre Português e Chinês é usado para a criação de dois modelos, um para cada direção de tradução, isto é um para PT → ZH e outro para ZH → PT. Apesar das dificuldades em encontrar corpora paralelo entre Português e Chinês, foi possível encontrar um corpus com cerca de 1 milhão de frases, o qual é usado para o treino desta abordagem. O artigo que apresenta este corpus (Chao et al., 2018) foi publicado poucos meses antes do início desta dissertação e tanto quanto sei não existem outros trabalhos que usem este corpus além de (Chao et al., 2018). Usando a métrica BLEU (Papineni et al., 2002), a abordagem direta consegue um melhor desempenho que a base dada pelo Google Tradutor para a direção ZH → PT, não conseguindo, contudo, ultrapassar esta base para a direção de tradução PT → ZH. A falta de qualidade e quantidade de corpora paralelos entre Português e Chinês motiva a experimentação com uma abordagem pivô. Numa abordagem pivô, o sistema faz uso de uma língua intermediária escolhida de forma a que haja grande quantidade e qualidade de corpora paralelos entre esta e as outras duas línguas. O sistema começa por traduzir de Português ou Chinês para a língua pivô e de seguida traduz da língua pivô para Chinês ou Português. A ideia por detrás desta abordagem é que as redes neuronais tendem a ter melhor performance quanto maior for o número de exemplos usados para treino da rede, e que esta melhoria será capaz de compensar a degradação da tradução introduzida pela passagem por uma língua intermédia. Usando a métrica BLEU, esta abordagem obtém resultados superiores à base e à abordagem direta em ambas as direções de tradução. Finalmente, a abordagem muitos-para-muitos segue as propostas de Johnson et al. (2017), Lakew et al. (2017) e Aharoni et al. (2019), que permitem o uso dos vários corpora paralelos usados para treino das outras duas abordagens. Usando a métrica BLEU, os resultados deste sistema ficam entre os da abordagem direta e os da abordagem pivô, não conseguindo ultrapassar a base para a direção de tradução PT → ZH. De entre os vários sistemas criados, a abordagem com melhores resultados é a abordagem pivô, que por sua vez foi a única abordagem que não viu qualquer tipo de dados paralelos entre as línguas Portuguesa e Chinesa. Porém, a abordagem muitos-para-muitos é a que demonstra maior potencial de desenvolvimento pois tem a capacidade de facilmente incorporar mais dados e assim melhorar a qualidade de tradução. O trabalho final, para além de uma panorâmica sobre o estado da arte da tradução automática, fornece uma solução prática com boa qualidade para a tradução entre Português e Chinês usando apenas recursos e ferramentas livremente disponíveis. Foi também criado um serviço online de tradução entre Português e Chinês disponível gratuitamente em https://portulanclarin.net/workbench/lx/translator/, resultante do trabalho descrito neste documento. Cabe notar que parte do trabalho apresentado nesta dissertação já foi alvo de revisão por pares (peer review) e aceite para publicação (Santos et al., to appear).This dissertation reports on a study addressing Neural Machine Translation for the language pair Portuguese ↔ Chinese and also on the development of a state of the art Machine Translation system for this pair using only freely available resources. The choice of this particular language pair was due to the fact that China is regarded as an emerging super power whose ties are steadily increasing with western countries, and as such the need for appropriate communication tools that can cross linguistic barriers is becoming a more pressing issue. The use of Machine Translation supports fast access to big quantities of data in another language. Portugal and its language have several ties with China. With Macau being a special administrative region of the People’s Republic of China where the two languages are official languages, a Machine Translation system for this pair is of high importance. In this work, both translation directions are considered. That is, there are systems for the translation direction Chinese → Portuguese, and systems for the direction Portuguese → Chinese. The key issue underlying the creation of such systems is twofold: (i) the gathering of corpora with good enough quality and quantity, which for this pair is a challenge; and (ii) the choice of a suitable architecture to accommodate such corpora. Three approaches are followed to address the problem, with all the implemented systems making use of neural networks, namely the Transformer architecture, and with the performance of one approach surpassing that of the baseline Google Translate for the chosen language pairs in both translation directions. An online translation service was also developed, showcasing one of the three approaches studied in this document for the two translation directions, and is freely available at https://portulanclarin.net/workbench/lx/translator/. Note that part of the work presented in this dissertation already passed peer review, and was accepted for publication (Santos et al., to appear).Branco, António H., 1963-Silva, João Ricardo Martins Ferreira da, 1977-Repositório da Universidade de LisboaSantos, Rodrigo Soares dos2019-10-16T10:15:04Z201920192019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/39863TID:202292622enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:38:49Zoai:repositorio.ul.pt:10451/39863Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:53:38.879068Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Portuguese-Chinese neural machine translation
title Portuguese-Chinese neural machine translation
spellingShingle Portuguese-Chinese neural machine translation
Santos, Rodrigo Soares dos
Processamento de linguagem natural
Tradução automática
Redes neuronais artificiais
Tradução automática neuronal
Português
Chinês
Teses de mestrado - 2019
Departamento de Informática
title_short Portuguese-Chinese neural machine translation
title_full Portuguese-Chinese neural machine translation
title_fullStr Portuguese-Chinese neural machine translation
title_full_unstemmed Portuguese-Chinese neural machine translation
title_sort Portuguese-Chinese neural machine translation
author Santos, Rodrigo Soares dos
author_facet Santos, Rodrigo Soares dos
author_role author
dc.contributor.none.fl_str_mv Branco, António H., 1963-
Silva, João Ricardo Martins Ferreira da, 1977-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Santos, Rodrigo Soares dos
dc.subject.por.fl_str_mv Processamento de linguagem natural
Tradução automática
Redes neuronais artificiais
Tradução automática neuronal
Português
Chinês
Teses de mestrado - 2019
Departamento de Informática
topic Processamento de linguagem natural
Tradução automática
Redes neuronais artificiais
Tradução automática neuronal
Português
Chinês
Teses de mestrado - 2019
Departamento de Informática
description Tese de mestrado, Engenharia Informática (Interação e Conhecimento) Universidade de Lisboa, Faculdade de Ciências, 2019
publishDate 2019
dc.date.none.fl_str_mv 2019-10-16T10:15:04Z
2019
2019
2019-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/39863
TID:202292622
url http://hdl.handle.net/10451/39863
identifier_str_mv TID:202292622
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134475148328960