Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/56103 |
Resumo: | Translation Memory is the most commonly used Computer-aided Translation system, whose main purpose is to store and retrieve previous high-quality translated sentences. Although they are very important systems for the translation process, they operate at the sentence level. This approach can be problematic as translated documents without considering the full context can cause coherence and cohesion issues at the text level. The present thesis aims at the analysis and creation of context-independent and gender neutral Translation Memories by resorting to part-of-speech (POS) information, in order to automatically identify context-dependent segments. This would enable the reuse of segments without causing meaning constraints at the document level. In order to achieve this purpose, three experiments were conducted focusing on customer support data. We firstly conducted a pilot experiment to annotate context-related issues in a dataset of 2,045 TMs for Brazilian Portuguese and European Spanish. The results showed that gender agreement was the most frequent category (80%), followed by Register (20%). For the second experiment, we analyzed a total of 5,200 segments for Portuguese, Brazilian Portuguese, Spanish and Latin-american Spanish, with English as the source language. The goal of this analysis was to annotate context related issues with a new context annotation typology. Thereafter, all the context-dependent data was analyzed by a POS tagger in order to understand if it was possible to create sequences of parts of speech patterns that could distinguish context-dependent TMs from context-independent ones. The last experiment consisted on the analysis of a new dataset of a total of 8,000 segments for the same languages. The goal of this experiment was to verify if the previously found patterns could actually identify context-dependent segments. Results showed that 1,298 out of 15,245 TMs were context-dependent in which 1,263 had gender constraints. We were able to turn the latter segments into gender neutral, therefore improving 8% of very frequent data. |
id |
RCAP_c9f99a31dcfa25c16778a10efffeda34 |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/56103 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memoriesDomínio/Área Científica::Humanidades::Línguas e LiteraturasTranslation Memory is the most commonly used Computer-aided Translation system, whose main purpose is to store and retrieve previous high-quality translated sentences. Although they are very important systems for the translation process, they operate at the sentence level. This approach can be problematic as translated documents without considering the full context can cause coherence and cohesion issues at the text level. The present thesis aims at the analysis and creation of context-independent and gender neutral Translation Memories by resorting to part-of-speech (POS) information, in order to automatically identify context-dependent segments. This would enable the reuse of segments without causing meaning constraints at the document level. In order to achieve this purpose, three experiments were conducted focusing on customer support data. We firstly conducted a pilot experiment to annotate context-related issues in a dataset of 2,045 TMs for Brazilian Portuguese and European Spanish. The results showed that gender agreement was the most frequent category (80%), followed by Register (20%). For the second experiment, we analyzed a total of 5,200 segments for Portuguese, Brazilian Portuguese, Spanish and Latin-american Spanish, with English as the source language. The goal of this analysis was to annotate context related issues with a new context annotation typology. Thereafter, all the context-dependent data was analyzed by a POS tagger in order to understand if it was possible to create sequences of parts of speech patterns that could distinguish context-dependent TMs from context-independent ones. The last experiment consisted on the analysis of a new dataset of a total of 8,000 segments for the same languages. The goal of this experiment was to verify if the previously found patterns could actually identify context-dependent segments. Results showed that 1,298 out of 15,245 TMs were context-dependent in which 1,263 had gender constraints. We were able to turn the latter segments into gender neutral, therefore improving 8% of very frequent data.As Memórias de Tradução são as ferramentas de Tradução Assistida por Computador mais comuns, cuja funcionalidade é o armazenamento de pares de frases e as suas respectivas traduções, permitindo que sejam recuperadas a qualquer instante durante o processo de tradução. Embora sejam importantes para a organização e gestão do texto, uma desvantagem destes sistemas prende-se com o facto de operarem ao nível da frase. Esta abordagem pode ser problemática, uma vez que a tradução de segmentos independentes, sem a consideração de relações de dependência intra e interfrásicas, pode causar problemas de coerência e coesão no texto. O presente trabalho centralizou-se no módulo TM server da Unbabel, uma empresa startup portuguesa que fornece serviços de tradução recorrendo a Tradução Automática e outros sistemas de Inteligência Artificial, juntamente com uma comunidade global de tradutores que auxiliam no processo de pós-edição. O TM server é uma ferramenta muito importante para o processo de tradução, no entanto, por armazenar segmentos muito repetitivos e isolados de contexto, pode conter problemas que apenas podem ser resolvidos com mais informação para além da contida na frase. Por conseguinte, a presente tese visa a análise e criação de Memórias de Tradução independentes de contexto e neutras quanto ao género, recorrendo a informação de classificadores morfossintáticos, de forma a possibilitar a identificação automática de segmentos dependentes de contexto. Tal possibilitaria a reutilização destes segmentos sem causar qualquer tipo de constrangimento semântico ao nível do documento. Para tal finalidade, foram realizadas três experiências com base em dados de apoio ao cliente. Primeiramente, foi realizado um estudo piloto, cujo corpus compreendia um total de 2045 segmentos com dados para o português brasileiro e para o espanhol europeu (ou peninsular), sendo o inglês a língua de origem. Com esta análise, pretendia-se a anotação de questões relacionadas com o contexto. Os resultados mostraram que a concordância de género foi a categoria predominante, representando 80% destes casos. Registo foi também uma categoria anotada, sendo atribuída aos restantes 20% dos dados. Esta análise permitiu a construção de uma tipologia de anotação de problemas relacionados com contexto com cinco categorias distintas, nomeadamente concordância de género, concordância em número, elipse, terminologia e registo. A segunda experiência ocorreu em duas partes distintas. Na primeira parte, foram analisados um total de 5200 segmentos com dados para o português europeu (PT) e brasileiro (PT-BR), espanhol europeu (ES) e da América Latina (ES-LATAM). À semelhança do estudo piloto, esta fase consistiu na identificação e anotação de problemas relacionados com contexto, mas agora usando a nova tipologia de anotação. Como resultado, recolhemos um total de 338 segmentos dependentes de contexto. No que diz respeito a categorias de contexto, os resultados foram consistentes com os obtidos previamente, pelo que problemas relacionados com concordância de género continuaram a ser a maioria, correspondendo a 98% dos casos. Ao contrário dos resultados obtidos anteriormente, a categoria Registo apenas registou 1,2% dos casos. Em adição, foram também identificadas novas categorias, sendo estas Elipse e Terminologia que foram menos representativas do que as anteriores. Na segunda parte desta mesma experiência, usando um classificador automático, foram analisados todos os segmentos dependentes de contexto, de forma a que fosse possível verificar padrões morfológicos que pudessem evidenciar dependência de contexto. Através da informação obtida pelo classificador automático morfossintático, foi possível a identificação de categorias gramaticais frequentemente envolvidas em problemas contextuais, sendo estes pronomes, adjetivos e verbos. Primariamente, quanto aos pronomes, os pronomes pessoais de terceira pessoa -lo e -la, para as variantes do português, e o pronome de primeira pessoa do plural nosotros, para as variantes do espanhol, foram bastante frequentes entre os dados. Quanto ao adjetivos, satisfeito(a), interessado(a), para PT e PT-BR, e encantado(a) e emocionado(a), assim como outros adjetivos que permitem expressar agrado ou desagrado, para o ES e ES-LATAM, foram igualmente frequentes. Por último, a categoria gramatical “Verbo” foi muito frequente para o PT como para o PT-BR, correspondendo à ocorrência da expressão Obrigado(a). Como tal, estas categorias gramaticais permitiram a criação de oito padrões, isto é, sequências de categorias POS, que permitem a identificação de sequências dependentes de contexto: três deles que ocorriam exclusivamente para PT e PT-BR e um exclusivo do ES e do ES-LATAM, sendo que os restantes mostraram serem comuns entre todas as variantes. A fim de validar os padrões encontrados, foi conduzida uma terceira e última experiência, cujo objetivo era verificar se estes permitiriam a identificação de segmentos dependentes de contexto, numa amostra mais alargada. Para tal, esta análise compreendeu um total de 8000 TMs de sete clientes diferentes e de diferentes domínios de apoio ao cliente (i.e. gaming, tecnologia) que nunca tinham sido analisados antes. Os resultados mostraram que, no total, dois dos oitos padrões permitiram a identificação de segmentos dependentes de contexto, sendo que um corresponde ao PT e PT-BR e um ao ES e ES-LATAM. Esta experiência permitiu concluir que três dos oito padrões permitem, de facto, a identificação de segmentos dependentes de contexto. O presente projeto teve contribuições positivas. Por um lado, os resultados obtidos das tarefas de anotação permitiram o desenvolvimento de uma tipologia de anotação de contexto, desenvolvida com o intuito de auxiliar a comunidade de editores que trabalha diretamente com estes segmentos. Esta foi validada por profissionais na área que geram a documentação linguística na empresa e será implementada em breve. Por outro lado, após uma análise de diferentes dados de diferentes domínios, foi notório que questões relacionadas com concordância de género foram as mais comuns entre todas as experiências. Por serem prevalentes, viu-se a necessidade de tornar neutros estes segmentos. Assim sendo, como tarefa final, foram apresentadas sugestões de traduções alternativas e neutras, mantendo sempre o sentido do texto original. A produção de segmentos neutros e independentes de contexto permite que estes sejam selecionados para fazer parte de qualquer documento, sem comprometer o significado global de um texto e, mais importante, sem causar dependências de género. No global, foram analisados 15245 dados, sendo que 1298 destes eram dependentes de contexto. Dentre estes últimos, 1263 apresentaram questões relacionadas com género. Tornar neutros todas estas TMs, muito frequentes, permitiu reduzir em 8% estes casos.Moniz, Helena Gorete SilvaCabarrão, Vera Mónica dos SantosRepositório da Universidade de LisboaPaulo, Marjolene Haidé Machado2023-02-01T15:45:38Z2022-12-152022-09-132022-12-15T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/56103TID:203197860enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T17:03:29Zoai:repositorio.ul.pt:10451/56103Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:06:39.413746Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories |
title |
Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories |
spellingShingle |
Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories Paulo, Marjolene Haidé Machado Domínio/Área Científica::Humanidades::Línguas e Literaturas |
title_short |
Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories |
title_full |
Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories |
title_fullStr |
Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories |
title_full_unstemmed |
Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories |
title_sort |
Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories |
author |
Paulo, Marjolene Haidé Machado |
author_facet |
Paulo, Marjolene Haidé Machado |
author_role |
author |
dc.contributor.none.fl_str_mv |
Moniz, Helena Gorete Silva Cabarrão, Vera Mónica dos Santos Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
Paulo, Marjolene Haidé Machado |
dc.subject.por.fl_str_mv |
Domínio/Área Científica::Humanidades::Línguas e Literaturas |
topic |
Domínio/Área Científica::Humanidades::Línguas e Literaturas |
description |
Translation Memory is the most commonly used Computer-aided Translation system, whose main purpose is to store and retrieve previous high-quality translated sentences. Although they are very important systems for the translation process, they operate at the sentence level. This approach can be problematic as translated documents without considering the full context can cause coherence and cohesion issues at the text level. The present thesis aims at the analysis and creation of context-independent and gender neutral Translation Memories by resorting to part-of-speech (POS) information, in order to automatically identify context-dependent segments. This would enable the reuse of segments without causing meaning constraints at the document level. In order to achieve this purpose, three experiments were conducted focusing on customer support data. We firstly conducted a pilot experiment to annotate context-related issues in a dataset of 2,045 TMs for Brazilian Portuguese and European Spanish. The results showed that gender agreement was the most frequent category (80%), followed by Register (20%). For the second experiment, we analyzed a total of 5,200 segments for Portuguese, Brazilian Portuguese, Spanish and Latin-american Spanish, with English as the source language. The goal of this analysis was to annotate context related issues with a new context annotation typology. Thereafter, all the context-dependent data was analyzed by a POS tagger in order to understand if it was possible to create sequences of parts of speech patterns that could distinguish context-dependent TMs from context-independent ones. The last experiment consisted on the analysis of a new dataset of a total of 8,000 segments for the same languages. The goal of this experiment was to verify if the previously found patterns could actually identify context-dependent segments. Results showed that 1,298 out of 15,245 TMs were context-dependent in which 1,263 had gender constraints. We were able to turn the latter segments into gender neutral, therefore improving 8% of very frequent data. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-12-15 2022-09-13 2022-12-15T00:00:00Z 2023-02-01T15:45:38Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/56103 TID:203197860 |
url |
http://hdl.handle.net/10451/56103 |
identifier_str_mv |
TID:203197860 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134619933605888 |