Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories

Detalhes bibliográficos
Autor(a) principal: Paulo, Marjolene Haidé Machado
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/56103
Resumo: Translation Memory is the most commonly used Computer-aided Translation system, whose main purpose is to store and retrieve previous high-quality translated sentences. Although they are very important systems for the translation process, they operate at the sentence level. This approach can be problematic as translated documents without considering the full context can cause coherence and cohesion issues at the text level. The present thesis aims at the analysis and creation of context-independent and gender neutral Translation Memories by resorting to part-of-speech (POS) information, in order to automatically identify context-dependent segments. This would enable the reuse of segments without causing meaning constraints at the document level. In order to achieve this purpose, three experiments were conducted focusing on customer support data. We firstly conducted a pilot experiment to annotate context-related issues in a dataset of 2,045 TMs for Brazilian Portuguese and European Spanish. The results showed that gender agreement was the most frequent category (80%), followed by Register (20%). For the second experiment, we analyzed a total of 5,200 segments for Portuguese, Brazilian Portuguese, Spanish and Latin-american Spanish, with English as the source language. The goal of this analysis was to annotate context related issues with a new context annotation typology. Thereafter, all the context-dependent data was analyzed by a POS tagger in order to understand if it was possible to create sequences of parts of speech patterns that could distinguish context-dependent TMs from context-independent ones. The last experiment consisted on the analysis of a new dataset of a total of 8,000 segments for the same languages. The goal of this experiment was to verify if the previously found patterns could actually identify context-dependent segments. Results showed that 1,298 out of 15,245 TMs were context-dependent in which 1,263 had gender constraints. We were able to turn the latter segments into gender neutral, therefore improving 8% of very frequent data.
id RCAP_c9f99a31dcfa25c16778a10efffeda34
oai_identifier_str oai:repositorio.ul.pt:10451/56103
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memoriesDomínio/Área Científica::Humanidades::Línguas e LiteraturasTranslation Memory is the most commonly used Computer-aided Translation system, whose main purpose is to store and retrieve previous high-quality translated sentences. Although they are very important systems for the translation process, they operate at the sentence level. This approach can be problematic as translated documents without considering the full context can cause coherence and cohesion issues at the text level. The present thesis aims at the analysis and creation of context-independent and gender neutral Translation Memories by resorting to part-of-speech (POS) information, in order to automatically identify context-dependent segments. This would enable the reuse of segments without causing meaning constraints at the document level. In order to achieve this purpose, three experiments were conducted focusing on customer support data. We firstly conducted a pilot experiment to annotate context-related issues in a dataset of 2,045 TMs for Brazilian Portuguese and European Spanish. The results showed that gender agreement was the most frequent category (80%), followed by Register (20%). For the second experiment, we analyzed a total of 5,200 segments for Portuguese, Brazilian Portuguese, Spanish and Latin-american Spanish, with English as the source language. The goal of this analysis was to annotate context related issues with a new context annotation typology. Thereafter, all the context-dependent data was analyzed by a POS tagger in order to understand if it was possible to create sequences of parts of speech patterns that could distinguish context-dependent TMs from context-independent ones. The last experiment consisted on the analysis of a new dataset of a total of 8,000 segments for the same languages. The goal of this experiment was to verify if the previously found patterns could actually identify context-dependent segments. Results showed that 1,298 out of 15,245 TMs were context-dependent in which 1,263 had gender constraints. We were able to turn the latter segments into gender neutral, therefore improving 8% of very frequent data.As Memórias de Tradução são as ferramentas de Tradução Assistida por Computador mais comuns, cuja funcionalidade é o armazenamento de pares de frases e as suas respectivas traduções, permitindo que sejam recuperadas a qualquer instante durante o processo de tradução. Embora sejam importantes para a organização e gestão do texto, uma desvantagem destes sistemas prende-se com o facto de operarem ao nível da frase. Esta abordagem pode ser problemática, uma vez que a tradução de segmentos independentes, sem a consideração de relações de dependência intra e interfrásicas, pode causar problemas de coerência e coesão no texto. O presente trabalho centralizou-se no módulo TM server da Unbabel, uma empresa startup portuguesa que fornece serviços de tradução recorrendo a Tradução Automática e outros sistemas de Inteligência Artificial, juntamente com uma comunidade global de tradutores que auxiliam no processo de pós-edição. O TM server é uma ferramenta muito importante para o processo de tradução, no entanto, por armazenar segmentos muito repetitivos e isolados de contexto, pode conter problemas que apenas podem ser resolvidos com mais informação para além da contida na frase. Por conseguinte, a presente tese visa a análise e criação de Memórias de Tradução independentes de contexto e neutras quanto ao género, recorrendo a informação de classificadores morfossintáticos, de forma a possibilitar a identificação automática de segmentos dependentes de contexto. Tal possibilitaria a reutilização destes segmentos sem causar qualquer tipo de constrangimento semântico ao nível do documento. Para tal finalidade, foram realizadas três experiências com base em dados de apoio ao cliente. Primeiramente, foi realizado um estudo piloto, cujo corpus compreendia um total de 2045 segmentos com dados para o português brasileiro e para o espanhol europeu (ou peninsular), sendo o inglês a língua de origem. Com esta análise, pretendia-se a anotação de questões relacionadas com o contexto. Os resultados mostraram que a concordância de género foi a categoria predominante, representando 80% destes casos. Registo foi também uma categoria anotada, sendo atribuída aos restantes 20% dos dados. Esta análise permitiu a construção de uma tipologia de anotação de problemas relacionados com contexto com cinco categorias distintas, nomeadamente concordância de género, concordância em número, elipse, terminologia e registo. A segunda experiência ocorreu em duas partes distintas. Na primeira parte, foram analisados um total de 5200 segmentos com dados para o português europeu (PT) e brasileiro (PT-BR), espanhol europeu (ES) e da América Latina (ES-LATAM). À semelhança do estudo piloto, esta fase consistiu na identificação e anotação de problemas relacionados com contexto, mas agora usando a nova tipologia de anotação. Como resultado, recolhemos um total de 338 segmentos dependentes de contexto. No que diz respeito a categorias de contexto, os resultados foram consistentes com os obtidos previamente, pelo que problemas relacionados com concordância de género continuaram a ser a maioria, correspondendo a 98% dos casos. Ao contrário dos resultados obtidos anteriormente, a categoria Registo apenas registou 1,2% dos casos. Em adição, foram também identificadas novas categorias, sendo estas Elipse e Terminologia que foram menos representativas do que as anteriores. Na segunda parte desta mesma experiência, usando um classificador automático, foram analisados todos os segmentos dependentes de contexto, de forma a que fosse possível verificar padrões morfológicos que pudessem evidenciar dependência de contexto. Através da informação obtida pelo classificador automático morfossintático, foi possível a identificação de categorias gramaticais frequentemente envolvidas em problemas contextuais, sendo estes pronomes, adjetivos e verbos. Primariamente, quanto aos pronomes, os pronomes pessoais de terceira pessoa -lo e -la, para as variantes do português, e o pronome de primeira pessoa do plural nosotros, para as variantes do espanhol, foram bastante frequentes entre os dados. Quanto ao adjetivos, satisfeito(a), interessado(a), para PT e PT-BR, e encantado(a) e emocionado(a), assim como outros adjetivos que permitem expressar agrado ou desagrado, para o ES e ES-LATAM, foram igualmente frequentes. Por último, a categoria gramatical “Verbo” foi muito frequente para o PT como para o PT-BR, correspondendo à ocorrência da expressão Obrigado(a). Como tal, estas categorias gramaticais permitiram a criação de oito padrões, isto é, sequências de categorias POS, que permitem a identificação de sequências dependentes de contexto: três deles que ocorriam exclusivamente para PT e PT-BR e um exclusivo do ES e do ES-LATAM, sendo que os restantes mostraram serem comuns entre todas as variantes. A fim de validar os padrões encontrados, foi conduzida uma terceira e última experiência, cujo objetivo era verificar se estes permitiriam a identificação de segmentos dependentes de contexto, numa amostra mais alargada. Para tal, esta análise compreendeu um total de 8000 TMs de sete clientes diferentes e de diferentes domínios de apoio ao cliente (i.e. gaming, tecnologia) que nunca tinham sido analisados antes. Os resultados mostraram que, no total, dois dos oitos padrões permitiram a identificação de segmentos dependentes de contexto, sendo que um corresponde ao PT e PT-BR e um ao ES e ES-LATAM. Esta experiência permitiu concluir que três dos oito padrões permitem, de facto, a identificação de segmentos dependentes de contexto. O presente projeto teve contribuições positivas. Por um lado, os resultados obtidos das tarefas de anotação permitiram o desenvolvimento de uma tipologia de anotação de contexto, desenvolvida com o intuito de auxiliar a comunidade de editores que trabalha diretamente com estes segmentos. Esta foi validada por profissionais na área que geram a documentação linguística na empresa e será implementada em breve. Por outro lado, após uma análise de diferentes dados de diferentes domínios, foi notório que questões relacionadas com concordância de género foram as mais comuns entre todas as experiências. Por serem prevalentes, viu-se a necessidade de tornar neutros estes segmentos. Assim sendo, como tarefa final, foram apresentadas sugestões de traduções alternativas e neutras, mantendo sempre o sentido do texto original. A produção de segmentos neutros e independentes de contexto permite que estes sejam selecionados para fazer parte de qualquer documento, sem comprometer o significado global de um texto e, mais importante, sem causar dependências de género. No global, foram analisados 15245 dados, sendo que 1298 destes eram dependentes de contexto. Dentre estes últimos, 1263 apresentaram questões relacionadas com género. Tornar neutros todas estas TMs, muito frequentes, permitiu reduzir em 8% estes casos.Moniz, Helena Gorete SilvaCabarrão, Vera Mónica dos SantosRepositório da Universidade de LisboaPaulo, Marjolene Haidé Machado2023-02-01T15:45:38Z2022-12-152022-09-132022-12-15T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/56103TID:203197860enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T17:03:29Zoai:repositorio.ul.pt:10451/56103Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:06:39.413746Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories
title Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories
spellingShingle Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories
Paulo, Marjolene Haidé Machado
Domínio/Área Científica::Humanidades::Línguas e Literaturas
title_short Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories
title_full Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories
title_fullStr Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories
title_full_unstemmed Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories
title_sort Analysis of context-aware translation memories : part-of-speech pattern distribution and gender neutral translation memories
author Paulo, Marjolene Haidé Machado
author_facet Paulo, Marjolene Haidé Machado
author_role author
dc.contributor.none.fl_str_mv Moniz, Helena Gorete Silva
Cabarrão, Vera Mónica dos Santos
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Paulo, Marjolene Haidé Machado
dc.subject.por.fl_str_mv Domínio/Área Científica::Humanidades::Línguas e Literaturas
topic Domínio/Área Científica::Humanidades::Línguas e Literaturas
description Translation Memory is the most commonly used Computer-aided Translation system, whose main purpose is to store and retrieve previous high-quality translated sentences. Although they are very important systems for the translation process, they operate at the sentence level. This approach can be problematic as translated documents without considering the full context can cause coherence and cohesion issues at the text level. The present thesis aims at the analysis and creation of context-independent and gender neutral Translation Memories by resorting to part-of-speech (POS) information, in order to automatically identify context-dependent segments. This would enable the reuse of segments without causing meaning constraints at the document level. In order to achieve this purpose, three experiments were conducted focusing on customer support data. We firstly conducted a pilot experiment to annotate context-related issues in a dataset of 2,045 TMs for Brazilian Portuguese and European Spanish. The results showed that gender agreement was the most frequent category (80%), followed by Register (20%). For the second experiment, we analyzed a total of 5,200 segments for Portuguese, Brazilian Portuguese, Spanish and Latin-american Spanish, with English as the source language. The goal of this analysis was to annotate context related issues with a new context annotation typology. Thereafter, all the context-dependent data was analyzed by a POS tagger in order to understand if it was possible to create sequences of parts of speech patterns that could distinguish context-dependent TMs from context-independent ones. The last experiment consisted on the analysis of a new dataset of a total of 8,000 segments for the same languages. The goal of this experiment was to verify if the previously found patterns could actually identify context-dependent segments. Results showed that 1,298 out of 15,245 TMs were context-dependent in which 1,263 had gender constraints. We were able to turn the latter segments into gender neutral, therefore improving 8% of very frequent data.
publishDate 2022
dc.date.none.fl_str_mv 2022-12-15
2022-09-13
2022-12-15T00:00:00Z
2023-02-01T15:45:38Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/56103
TID:203197860
url http://hdl.handle.net/10451/56103
identifier_str_mv TID:203197860
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134619933605888