Portuguese-Chinese neural machine translation

Santos, Rodrigo Soares dos

Portuguese-Chinese neural machine translation

Detalhes bibliográficos
Autor(a) principal:	Santos, Rodrigo Soares dos
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10451/39863
Resumo:	Tese de mestrado, Engenharia Informática (Interação e Conhecimento) Universidade de Lisboa, Faculdade de Ciências, 2019

Metadados do item

id	RCAP_ada1352259a49490a07bb21c800de156
oai_identifier_str	oai:repositorio.ul.pt:10451/39863
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Portuguese-Chinese neural machine translationProcessamento de linguagem naturalTradução automáticaRedes neuronais artificiaisTradução automática neuronalPortuguêsChinêsTeses de mestrado - 2019Departamento de InformáticaTese de mestrado, Engenharia Informática (Interação e Conhecimento) Universidade de Lisboa, Faculdade de Ciências, 2019Esta dissertação apresenta um estudo sobre Tradução Automática Neuronal (Neural Machine Translation) para o par de línguas Português (PT) ↔ Chinês (ZH) culminando na criação de um sistema de tradução automática com desempenho ao nível do estado da arte, que tira partido apenas de recursos e ferramentas livremente disponíveis. Este par de línguas foi escolhido devido ao seu impacto a nível global. O Português é a sexta língua mais falada no mundo, com presença em todos os continentes (sendo em particular a língua mais falada no hemisfério sul) e a língua Chinesa, que tem como país de origem a China, é a língua mais falada em todo o mundo. Como super potência emergente, a China tem cada vez mais ligações aos países ocidentais e, como tal, a necessidade de instrumentos de comunicação adequados que possam atravessar as barreiras linguísticas é cada vez mais premente. A tradução automática surge assim como um apoio para o acesso rápido a grandes quantidades de informação. Portugal e a língua portuguesa têm várias ligações à China. Uma destas ligações é Macau, uma região administrativa especial da República Popular da China onde o Português e o Chinês são ambas línguas oficiais e, assim sendo, onde o interesse num sistema que traduza entre as duas é muito grande. Porém, o problema da Tradução Automática entre estas duas línguas ainda não tem sido alvo de suficiente atenção pela comunidade científica. Neste trabalho ambas as direções de tradução são consideradas, isto é, são criados sistemas de tradução para a direção de tradução Português → Chinês e para a direção Chinês → Português. A dificuldade na criação de tais sistemas passa pela aquisição de corpora de qualidade e em quantidade suficiente nas duas línguas, o que para o par de línguas escolhido é um grande desafio; e passa também pela escolha da arquitetura que melhor se adapta a esse corpora. Para a criação destes sistemas de tradução, exploro três abordagens, que são referidas neste documento como: (i) abordagem direta (direct approach), que faz uso apenas de corpora paralelo entre Português e Chinês; (ii) abordagem pivô (pivot approach), que usa uma terceira língua como intermediário para a tradução; e (iii) abordagem muitos-para muitos (many-to-many approach), que tira partido de toda a informação usada nas outras duas abordagens. As várias abordagens são implementadas com recurso a redes neuronais, mais propriamente à arquitetura Transformer (Vaswani et al., 2017), e obtêm desempenho assinalável, com uma das abordagens a alcançar resultados superiores aos do Google Tradutor para o par de línguas escolhido em ambas as direções. Para efeitos de teste e comparação entre as várias abordagens e as traduções do Google Tradutor, o mesmo corpus de teste é usado para avaliar todos os sistemas. Esse corpus de teste é constituído pelas primeiras 1000 frases do News Commentary v11 corpus (Tiedemann, 2012), sendo composto por textos jornalísticos bem curados e com grande qualidade gramatical. A abordagem direta é a solução mais comum usada para a criação de um sistema de tradução automática. No caso deste estudo, um corpus paralelo entre Português e Chinês é usado para a criação de dois modelos, um para cada direção de tradução, isto é um para PT → ZH e outro para ZH → PT. Apesar das dificuldades em encontrar corpora paralelo entre Português e Chinês, foi possível encontrar um corpus com cerca de 1 milhão de frases, o qual é usado para o treino desta abordagem. O artigo que apresenta este corpus (Chao et al., 2018) foi publicado poucos meses antes do início desta dissertação e tanto quanto sei não existem outros trabalhos que usem este corpus além de (Chao et al., 2018). Usando a métrica BLEU (Papineni et al., 2002), a abordagem direta consegue um melhor desempenho que a base dada pelo Google Tradutor para a direção ZH → PT, não conseguindo, contudo, ultrapassar esta base para a direção de tradução PT → ZH. A falta de qualidade e quantidade de corpora paralelos entre Português e Chinês motiva a experimentação com uma abordagem pivô. Numa abordagem pivô, o sistema faz uso de uma língua intermediária escolhida de forma a que haja grande quantidade e qualidade de corpora paralelos entre esta e as outras duas línguas. O sistema começa por traduzir de Português ou Chinês para a língua pivô e de seguida traduz da língua pivô para Chinês ou Português. A ideia por detrás desta abordagem é que as redes neuronais tendem a ter melhor performance quanto maior for o número de exemplos usados para treino da rede, e que esta melhoria será capaz de compensar a degradação da tradução introduzida pela passagem por uma língua intermédia. Usando a métrica BLEU, esta abordagem obtém resultados superiores à base e à abordagem direta em ambas as direções de tradução. Finalmente, a abordagem muitos-para-muitos segue as propostas de Johnson et al. (2017), Lakew et al. (2017) e Aharoni et al. (2019), que permitem o uso dos vários corpora paralelos usados para treino das outras duas abordagens. Usando a métrica BLEU, os resultados deste sistema ficam entre os da abordagem direta e os da abordagem pivô, não conseguindo ultrapassar a base para a direção de tradução PT → ZH. De entre os vários sistemas criados, a abordagem com melhores resultados é a abordagem pivô, que por sua vez foi a única abordagem que não viu qualquer tipo de dados paralelos entre as línguas Portuguesa e Chinesa. Porém, a abordagem muitos-para-muitos é a que demonstra maior potencial de desenvolvimento pois tem a capacidade de facilmente incorporar mais dados e assim melhorar a qualidade de tradução. O trabalho final, para além de uma panorâmica sobre o estado da arte da tradução automática, fornece uma solução prática com boa qualidade para a tradução entre Português e Chinês usando apenas recursos e ferramentas livremente disponíveis. Foi também criado um serviço online de tradução entre Português e Chinês disponível gratuitamente em https://portulanclarin.net/workbench/lx/translator/, resultante do trabalho descrito neste documento. Cabe notar que parte do trabalho apresentado nesta dissertação já foi alvo de revisão por pares (peer review) e aceite para publicação (Santos et al., to appear).This dissertation reports on a study addressing Neural Machine Translation for the language pair Portuguese ↔ Chinese and also on the development of a state of the art Machine Translation system for this pair using only freely available resources. The choice of this particular language pair was due to the fact that China is regarded as an emerging super power whose ties are steadily increasing with western countries, and as such the need for appropriate communication tools that can cross linguistic barriers is becoming a more pressing issue. The use of Machine Translation supports fast access to big quantities of data in another language. Portugal and its language have several ties with China. With Macau being a special administrative region of the People’s Republic of China where the two languages are official languages, a Machine Translation system for this pair is of high importance. In this work, both translation directions are considered. That is, there are systems for the translation direction Chinese → Portuguese, and systems for the direction Portuguese → Chinese. The key issue underlying the creation of such systems is twofold: (i) the gathering of corpora with good enough quality and quantity, which for this pair is a challenge; and (ii) the choice of a suitable architecture to accommodate such corpora. Three approaches are followed to address the problem, with all the implemented systems making use of neural networks, namely the Transformer architecture, and with the performance of one approach surpassing that of the baseline Google Translate for the chosen language pairs in both translation directions. An online translation service was also developed, showcasing one of the three approaches studied in this document for the two translation directions, and is freely available at https://portulanclarin.net/workbench/lx/translator/. Note that part of the work presented in this dissertation already passed peer review, and was accepted for publication (Santos et al., to appear).Branco, António H., 1963-Silva, João Ricardo Martins Ferreira da, 1977-Repositório da Universidade de LisboaSantos, Rodrigo Soares dos2019-10-16T10:15:04Z201920192019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/39863TID:202292622enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:38:49Zoai:repositorio.ul.pt:10451/39863Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:53:38.879068Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Portuguese-Chinese neural machine translation
title	Portuguese-Chinese neural machine translation
spellingShingle	Portuguese-Chinese neural machine translation Santos, Rodrigo Soares dos Processamento de linguagem natural Tradução automática Redes neuronais artificiais Tradução automática neuronal Português Chinês Teses de mestrado - 2019 Departamento de Informática
title_short	Portuguese-Chinese neural machine translation
title_full	Portuguese-Chinese neural machine translation
title_fullStr	Portuguese-Chinese neural machine translation
title_full_unstemmed	Portuguese-Chinese neural machine translation
title_sort	Portuguese-Chinese neural machine translation
author	Santos, Rodrigo Soares dos
author_facet	Santos, Rodrigo Soares dos
author_role	author
dc.contributor.none.fl_str_mv	Branco, António H., 1963- Silva, João Ricardo Martins Ferreira da, 1977- Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv	Santos, Rodrigo Soares dos
dc.subject.por.fl_str_mv	Processamento de linguagem natural Tradução automática Redes neuronais artificiais Tradução automática neuronal Português Chinês Teses de mestrado - 2019 Departamento de Informática
topic	Processamento de linguagem natural Tradução automática Redes neuronais artificiais Tradução automática neuronal Português Chinês Teses de mestrado - 2019 Departamento de Informática
description	Tese de mestrado, Engenharia Informática (Interação e Conhecimento) Universidade de Lisboa, Faculdade de Ciências, 2019
publishDate	2019
dc.date.none.fl_str_mv	2019-10-16T10:15:04Z 2019 2019 2019-01-01T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10451/39863 TID:202292622
url	http://hdl.handle.net/10451/39863
identifier_str_mv	TID:202292622
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799134475148328960

Portuguese-Chinese neural machine translation

Registros relacionados