Alinhamento de árvores sintáticas português-inglês
Autor(a) principal: | |
---|---|
Data de Publicação: | 2011 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/481 |
Resumo: | The manual translation of a source natural language into a target natural language is a task that demands time and expertise. In order to reduce the work needed for manual translations, the aim is to accomplish this task through Machine Translation (MT) systems. Since the 1940s, various approaches and techniques of MT have been proposed, investigated and evaluated in order to improve the quality of translations generated automatically. Nowadays, statistical machine translation methods are considered the state-of-art regarding the evaluation automatic measures commonly used in the area (such as BLEU and NIST), however a recent trend indicates that such systems will not improve their level of performance without the application of deeper linguistic knowledge, for instance, syntactic information. Thus, as an attempt to support the building of automatic translators, this dissertation presents the research, the implementation and the evaluation of parse trees alignment techniques. The computational tool for the automatic alignment of syntactic trees, result of this work, may be used to generate an extremely useful resource for various MT techniques: the aligned syntactic trees . This resource, so far unavailable for Brazilian Portuguese, will allow the development of new researches, which can provide the scientific advancement of the area. In this dissertation, a study of various techniques for parse trees alignment from the literature is presented. Besides, the pre-processing of a corpus for the inclusion of syntactic information from which the alignment is performed is also described, as well as the phases of lexical alignment and syntactic analysis. Some implementations and tests have been carried out with the pre-processed corpus, based on the theoretical foundations derived from the study of the techniques proposed in the literature. Based on the results of the intrinsic evaluation of the alignment, it was possible to conclude that the alignment of syntactic trees reached the accuracy of 97.36% and the coverage of 93.48% for tree pairs, representing parallel sentences in Brazilian Portuguese and in English by using different settings. Since the results have been promising, as future work, the aim is to apply the tool to a larger corpus of parallel syntactic trees, in order to obtain more examples of translation and, thus, allow its application to syntax-based machine translation techniques, such as syntax-based statistical methods or data-oriented translation. |
id |
SCAR_46752fb917e7bbe6b4138f423ed952de |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/481 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Araújo, Josué Garcia deCaseli, Helena de Medeiroshttp://lattes.cnpq.br/6608582057810385Última atualização do currículo em 25/07/201196c3af3f-51cf-4ed4-bb6c-f87465b2f9652016-06-02T19:05:53Z2011-12-122016-06-02T19:05:53Z2011-06-20ARAÚJO, Josué Garcia de. Alinhamento de árvores sintáticas português-inglês. 2011. 93 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2011.https://repositorio.ufscar.br/handle/ufscar/481The manual translation of a source natural language into a target natural language is a task that demands time and expertise. In order to reduce the work needed for manual translations, the aim is to accomplish this task through Machine Translation (MT) systems. Since the 1940s, various approaches and techniques of MT have been proposed, investigated and evaluated in order to improve the quality of translations generated automatically. Nowadays, statistical machine translation methods are considered the state-of-art regarding the evaluation automatic measures commonly used in the area (such as BLEU and NIST), however a recent trend indicates that such systems will not improve their level of performance without the application of deeper linguistic knowledge, for instance, syntactic information. Thus, as an attempt to support the building of automatic translators, this dissertation presents the research, the implementation and the evaluation of parse trees alignment techniques. The computational tool for the automatic alignment of syntactic trees, result of this work, may be used to generate an extremely useful resource for various MT techniques: the aligned syntactic trees . This resource, so far unavailable for Brazilian Portuguese, will allow the development of new researches, which can provide the scientific advancement of the area. In this dissertation, a study of various techniques for parse trees alignment from the literature is presented. Besides, the pre-processing of a corpus for the inclusion of syntactic information from which the alignment is performed is also described, as well as the phases of lexical alignment and syntactic analysis. Some implementations and tests have been carried out with the pre-processed corpus, based on the theoretical foundations derived from the study of the techniques proposed in the literature. Based on the results of the intrinsic evaluation of the alignment, it was possible to conclude that the alignment of syntactic trees reached the accuracy of 97.36% and the coverage of 93.48% for tree pairs, representing parallel sentences in Brazilian Portuguese and in English by using different settings. Since the results have been promising, as future work, the aim is to apply the tool to a larger corpus of parallel syntactic trees, in order to obtain more examples of translation and, thus, allow its application to syntax-based machine translation techniques, such as syntax-based statistical methods or data-oriented translation.A tradução manual de uma língua natural fonte para uma língua natural alvo é uma tarefa que demanda tempo e conhecimento. Para reduzir o trabalho árduo necessário na construção manual de traduções, propõe-se realizar esta tarefa por meio de sistemas computacionais de Tradução Automática (TA). Desde a década de 1940, várias técnicas e abordagens de TA têm sido propostas, investigadas e avaliadas com o intuito de melhorar a qualidade das traduções geradas automaticamente. No momento, os métodos de tradução automática estatística são considerados o estado-da-arte em termos de medidas automáticas de avaliação comumente utilizadas na área (como BLEU e NIST), porém há uma tendência recente de que tais sistemas não conseguirão sair do patamar de desempenho no qual se encontram estagnados sem a aplicação de conhecimento linguístico mais aprofundado, por exemplo, informação sintática. Nesse sentido, como uma tentativa de auxiliar o processo de construção de tradutores automáticos, este documento apresenta a investigação, implementação e avaliação de técnicas de alinhamento de árvores sintáticas. A ferramenta computacional para alinhamento automático de árvores sintáticas resultante deste trabalho pode ser utilizada para a geração de um recurso extremamente útil para diversas técnicas de TA: as árvores sintáticas alinhadas. Esse recurso, até então inexistente para o português do Brasil, possibilitará o desenvolvimento de pesquisas inovadoras e que propiciem o avanço científico da área. Neste documento, um estudo de várias técnicas de alinhamento de árvores sintáticas é apresentado, baseado na literatura. O pr´e-processamento de um corpus para inserção de informações sintáticas a partir das quais o alinhamento é realizado também é descrito, destacando-se as fases de alinhamento lexical e análise sintática. A partir do embasamento teórico derivado do estudo das técnicas propostas na literatura, cinco modelos foram implementados para realizar a tarefa de alinhar as árvores sintáticas. Estes modelos foram avaliados usando o corpus pré-processado. Com base nos resultados da avaliação intrínseca do alinhamento propriamente dito, é possível concluir que o alinhamento de árvores sintáticas atingiu cerca de 97,36% de precisão e 93,48% de cobertura em pares de árvores representando sentenças paralelas em português do Brasil e inglês usando diferentes configurações. A partir desses resultados promissores pretende-se aplicar a ferramenta a um corpus maior de árvores sintáticas paralelas visando a obtenção de mais exemplos de tradução e permitindo, assim, sua aplicação nas técnicas de tradução automática baseada em sintaxe como os métodos estatísticos baseados em sintaxe ou a tradução orientada a dados.Financiadora de Estudos e Projetosapplication/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRProcessamento da linguagem natural (Computação)Linguística - processamento de dadosInteligência artificialCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAlinhamento de árvores sintáticas português-inglêsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-1-1e36d4e63-960d-4f5c-9c93-f8b7f5f93d65info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL3976.pdfapplication/pdf1798870https://repositorio.ufscar.br/bitstream/ufscar/481/1/3976.pdf00ab81148c7fb6dad5738877a4809e84MD51THUMBNAIL3976.pdf.jpg3976.pdf.jpgIM Thumbnailimage/jpeg4620https://repositorio.ufscar.br/bitstream/ufscar/481/2/3976.pdf.jpg54677dc4267c87846fdb81b1e798551dMD52ufscar/4812023-09-18 18:30:38.74oai:repositorio.ufscar.br:ufscar/481Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:30:38Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Alinhamento de árvores sintáticas português-inglês |
title |
Alinhamento de árvores sintáticas português-inglês |
spellingShingle |
Alinhamento de árvores sintáticas português-inglês Araújo, Josué Garcia de Processamento da linguagem natural (Computação) Linguística - processamento de dados Inteligência artificial CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Alinhamento de árvores sintáticas português-inglês |
title_full |
Alinhamento de árvores sintáticas português-inglês |
title_fullStr |
Alinhamento de árvores sintáticas português-inglês |
title_full_unstemmed |
Alinhamento de árvores sintáticas português-inglês |
title_sort |
Alinhamento de árvores sintáticas português-inglês |
author |
Araújo, Josué Garcia de |
author_facet |
Araújo, Josué Garcia de |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
Última atualização do currículo em 25/07/2011 |
dc.contributor.author.fl_str_mv |
Araújo, Josué Garcia de |
dc.contributor.advisor1.fl_str_mv |
Caseli, Helena de Medeiros |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6608582057810385 |
dc.contributor.authorID.fl_str_mv |
96c3af3f-51cf-4ed4-bb6c-f87465b2f965 |
contributor_str_mv |
Caseli, Helena de Medeiros |
dc.subject.por.fl_str_mv |
Processamento da linguagem natural (Computação) Linguística - processamento de dados Inteligência artificial |
topic |
Processamento da linguagem natural (Computação) Linguística - processamento de dados Inteligência artificial CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
The manual translation of a source natural language into a target natural language is a task that demands time and expertise. In order to reduce the work needed for manual translations, the aim is to accomplish this task through Machine Translation (MT) systems. Since the 1940s, various approaches and techniques of MT have been proposed, investigated and evaluated in order to improve the quality of translations generated automatically. Nowadays, statistical machine translation methods are considered the state-of-art regarding the evaluation automatic measures commonly used in the area (such as BLEU and NIST), however a recent trend indicates that such systems will not improve their level of performance without the application of deeper linguistic knowledge, for instance, syntactic information. Thus, as an attempt to support the building of automatic translators, this dissertation presents the research, the implementation and the evaluation of parse trees alignment techniques. The computational tool for the automatic alignment of syntactic trees, result of this work, may be used to generate an extremely useful resource for various MT techniques: the aligned syntactic trees . This resource, so far unavailable for Brazilian Portuguese, will allow the development of new researches, which can provide the scientific advancement of the area. In this dissertation, a study of various techniques for parse trees alignment from the literature is presented. Besides, the pre-processing of a corpus for the inclusion of syntactic information from which the alignment is performed is also described, as well as the phases of lexical alignment and syntactic analysis. Some implementations and tests have been carried out with the pre-processed corpus, based on the theoretical foundations derived from the study of the techniques proposed in the literature. Based on the results of the intrinsic evaluation of the alignment, it was possible to conclude that the alignment of syntactic trees reached the accuracy of 97.36% and the coverage of 93.48% for tree pairs, representing parallel sentences in Brazilian Portuguese and in English by using different settings. Since the results have been promising, as future work, the aim is to apply the tool to a larger corpus of parallel syntactic trees, in order to obtain more examples of translation and, thus, allow its application to syntax-based machine translation techniques, such as syntax-based statistical methods or data-oriented translation. |
publishDate |
2011 |
dc.date.available.fl_str_mv |
2011-12-12 2016-06-02T19:05:53Z |
dc.date.issued.fl_str_mv |
2011-06-20 |
dc.date.accessioned.fl_str_mv |
2016-06-02T19:05:53Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
ARAÚJO, Josué Garcia de. Alinhamento de árvores sintáticas português-inglês. 2011. 93 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2011. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/481 |
identifier_str_mv |
ARAÚJO, Josué Garcia de. Alinhamento de árvores sintáticas português-inglês. 2011. 93 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2011. |
url |
https://repositorio.ufscar.br/handle/ufscar/481 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
-1 -1 |
dc.relation.authority.fl_str_mv |
e36d4e63-960d-4f5c-9c93-f8b7f5f93d65 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
dc.publisher.initials.fl_str_mv |
UFSCar |
dc.publisher.country.fl_str_mv |
BR |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/481/1/3976.pdf https://repositorio.ufscar.br/bitstream/ufscar/481/2/3976.pdf.jpg |
bitstream.checksum.fl_str_mv |
00ab81148c7fb6dad5738877a4809e84 54677dc4267c87846fdb81b1e798551d |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1813715503301001216 |