Tradução automática estatística baseada em sintaxe e linguagens de árvores

Detalhes bibliográficos
Autor(a) principal: Beck, Daniel Emilio
Data de Publicação: 2012
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/504
Resumo: Machine Translation (MT) is one of the classic Natural Language Processing (NLP) applications. The state-of-the-art in MT is represented by statistical methods that aim to learn all necessary linguistic knowledge automatically through large collections of texts (corpora). However, while the quality of statistical MT systems had improved, nowadays these advances are not significant. For this reason, research in the area have sought to involve more explicit linguistic knowledge in these systems. One issue that purely statistical MT systems have is the lack of correct treatment of syntactic phenomena. Thus, one of the research directions when trying to incorporate linguistic knowledge in those systems is through the addition of syntactic rules. To accomplish this, many methods and formalisms with this goal in mind are studied. This text presents the investigation of methods which aim to advance the state-of-the-art in statistical MT through models that consider syntactic information. The methods and formalisms studied are those used to deal with tree languages, mainly Tree Substitution Grammars (TSGs) and Tree-to-String (TTS) Transducers. From this work, a greater understanding was obtained about the studied formalisms and their behavior when used in NLP applications.
id SCAR_ca24d0b92d8b732124bbafd14eb54fad
oai_identifier_str oai:repositorio.ufscar.br:ufscar/504
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Beck, Daniel EmilioCaseli, Helena de Medeiroshttp://lattes.cnpq.br/6608582057810385http://lattes.cnpq.br/0876169547835331b68185a9-5291-4ad4-a4be-1cb974ae002d2016-06-02T19:05:58Z2012-09-282016-06-02T19:05:58Z2012-06-19BECK, Daniel Emilio. Tradução automática estatística baseada em sintaxe e linguagens de árvores. 2012. 94 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2012.https://repositorio.ufscar.br/handle/ufscar/504Machine Translation (MT) is one of the classic Natural Language Processing (NLP) applications. The state-of-the-art in MT is represented by statistical methods that aim to learn all necessary linguistic knowledge automatically through large collections of texts (corpora). However, while the quality of statistical MT systems had improved, nowadays these advances are not significant. For this reason, research in the area have sought to involve more explicit linguistic knowledge in these systems. One issue that purely statistical MT systems have is the lack of correct treatment of syntactic phenomena. Thus, one of the research directions when trying to incorporate linguistic knowledge in those systems is through the addition of syntactic rules. To accomplish this, many methods and formalisms with this goal in mind are studied. This text presents the investigation of methods which aim to advance the state-of-the-art in statistical MT through models that consider syntactic information. The methods and formalisms studied are those used to deal with tree languages, mainly Tree Substitution Grammars (TSGs) and Tree-to-String (TTS) Transducers. From this work, a greater understanding was obtained about the studied formalisms and their behavior when used in NLP applications.A Tradução Automática (Machine Translation - MT) é uma das aplicações clássicas dentro do Processamento da Língua Natural (Natural Language Processing - NLP). O estado-da-arte em MT é representado por métodos estatísticos, que buscam aprender o conhecimento linguístico necessário de forma automática por meio de grandes coleções de textos (os corpora). Entretanto, ainda que se tenha avançado bastante em relação à qualidade de sistemas estatísticos de MT, hoje em dia esses avanços não estão sendo significativos. Por conta disso, as pesquisas na área têm buscado formas de envolver mais conhecimento linguístico explícito nesses sistemas. Um dos problemas que não é bem resolvido por sistemas de MT puramente estatísticos é o correto tratamento de fenômenos sintáticos. Assim, uma das direções que as pesquisas tomam na hora de incorporar conhecimento linguístico a esses sistemas é através da adição de regras sintáticas. Para isso, uma série de métodos e formalismos foram e são estudados até hoje. Esse texto apresenta a investigação de métodos que se utilizam de informação sintática na tentativa de avançar no estado-da-arte da MT estatística. Foram utilizados métodos e formalismos que lidam com linguagens de a´rvores, em especial as Gramáticas de Substituição de Árvores (Tree Substitution Grammars - TSGs) e os Transdutores Árvore-para-String (Tree-to-String - TTS). Desta investigação, obteve-se maior entendimento sobre os formalismos estudados e seu comportamento em aplicações de NLP.Universidade Federal de Minas Geraisapplication/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRProcessamento da linguagem natural (Computação)Linguística - processamento de dadosLinguagem - tradução automáticaProcessamento da Língua NaturalLinguística ComputacionalTradução automática estatísticaGramáticas de substituição de árvoresTransdutores árvore-para-StringNatural language processingComputational linguisticsStatistical machine translationTree substitution grammarsTree-to-string transducersCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOTradução automática estatística baseada em sintaxe e linguagens de árvoresinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-1-1e36d4e63-960d-4f5c-9c93-f8b7f5f93d65info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL4541.pdfapplication/pdf1339407https://repositorio.ufscar.br/bitstream/ufscar/504/1/4541.pdfbe0e2f3bb86e7d6b4c8d03f4f20214efMD51TEXT4541.pdf.txt4541.pdf.txtExtracted texttext/plain0https://repositorio.ufscar.br/bitstream/ufscar/504/2/4541.pdf.txtd41d8cd98f00b204e9800998ecf8427eMD52THUMBNAIL4541.pdf.jpg4541.pdf.jpgIM Thumbnailimage/jpeg7701https://repositorio.ufscar.br/bitstream/ufscar/504/3/4541.pdf.jpg3c5de04c0672b4f79342c2fc934405baMD53ufscar/5042023-09-18 18:31:27.424oai:repositorio.ufscar.br:ufscar/504Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:27Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Tradução automática estatística baseada em sintaxe e linguagens de árvores
title Tradução automática estatística baseada em sintaxe e linguagens de árvores
spellingShingle Tradução automática estatística baseada em sintaxe e linguagens de árvores
Beck, Daniel Emilio
Processamento da linguagem natural (Computação)
Linguística - processamento de dados
Linguagem - tradução automática
Processamento da Língua Natural
Linguística Computacional
Tradução automática estatística
Gramáticas de substituição de árvores
Transdutores árvore-para-String
Natural language processing
Computational linguistics
Statistical machine translation
Tree substitution grammars
Tree-to-string transducers
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Tradução automática estatística baseada em sintaxe e linguagens de árvores
title_full Tradução automática estatística baseada em sintaxe e linguagens de árvores
title_fullStr Tradução automática estatística baseada em sintaxe e linguagens de árvores
title_full_unstemmed Tradução automática estatística baseada em sintaxe e linguagens de árvores
title_sort Tradução automática estatística baseada em sintaxe e linguagens de árvores
author Beck, Daniel Emilio
author_facet Beck, Daniel Emilio
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/0876169547835331
dc.contributor.author.fl_str_mv Beck, Daniel Emilio
dc.contributor.advisor1.fl_str_mv Caseli, Helena de Medeiros
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6608582057810385
dc.contributor.authorID.fl_str_mv b68185a9-5291-4ad4-a4be-1cb974ae002d
contributor_str_mv Caseli, Helena de Medeiros
dc.subject.por.fl_str_mv Processamento da linguagem natural (Computação)
Linguística - processamento de dados
Linguagem - tradução automática
Processamento da Língua Natural
Linguística Computacional
Tradução automática estatística
Gramáticas de substituição de árvores
Transdutores árvore-para-String
topic Processamento da linguagem natural (Computação)
Linguística - processamento de dados
Linguagem - tradução automática
Processamento da Língua Natural
Linguística Computacional
Tradução automática estatística
Gramáticas de substituição de árvores
Transdutores árvore-para-String
Natural language processing
Computational linguistics
Statistical machine translation
Tree substitution grammars
Tree-to-string transducers
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Natural language processing
Computational linguistics
Statistical machine translation
Tree substitution grammars
Tree-to-string transducers
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Machine Translation (MT) is one of the classic Natural Language Processing (NLP) applications. The state-of-the-art in MT is represented by statistical methods that aim to learn all necessary linguistic knowledge automatically through large collections of texts (corpora). However, while the quality of statistical MT systems had improved, nowadays these advances are not significant. For this reason, research in the area have sought to involve more explicit linguistic knowledge in these systems. One issue that purely statistical MT systems have is the lack of correct treatment of syntactic phenomena. Thus, one of the research directions when trying to incorporate linguistic knowledge in those systems is through the addition of syntactic rules. To accomplish this, many methods and formalisms with this goal in mind are studied. This text presents the investigation of methods which aim to advance the state-of-the-art in statistical MT through models that consider syntactic information. The methods and formalisms studied are those used to deal with tree languages, mainly Tree Substitution Grammars (TSGs) and Tree-to-String (TTS) Transducers. From this work, a greater understanding was obtained about the studied formalisms and their behavior when used in NLP applications.
publishDate 2012
dc.date.available.fl_str_mv 2012-09-28
2016-06-02T19:05:58Z
dc.date.issued.fl_str_mv 2012-06-19
dc.date.accessioned.fl_str_mv 2016-06-02T19:05:58Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv BECK, Daniel Emilio. Tradução automática estatística baseada em sintaxe e linguagens de árvores. 2012. 94 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2012.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/504
identifier_str_mv BECK, Daniel Emilio. Tradução automática estatística baseada em sintaxe e linguagens de árvores. 2012. 94 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2012.
url https://repositorio.ufscar.br/handle/ufscar/504
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv -1
-1
dc.relation.authority.fl_str_mv e36d4e63-960d-4f5c-9c93-f8b7f5f93d65
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Universidade Federal de São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/504/1/4541.pdf
https://repositorio.ufscar.br/bitstream/ufscar/504/2/4541.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/504/3/4541.pdf.jpg
bitstream.checksum.fl_str_mv be0e2f3bb86e7d6b4c8d03f4f20214ef
d41d8cd98f00b204e9800998ecf8427e
3c5de04c0672b4f79342c2fc934405ba
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136245011218432