Tradução automática estatística baseada em sintaxe e linguagens de árvores
Autor(a) principal: | |
---|---|
Data de Publicação: | 2012 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/504 |
Resumo: | Machine Translation (MT) is one of the classic Natural Language Processing (NLP) applications. The state-of-the-art in MT is represented by statistical methods that aim to learn all necessary linguistic knowledge automatically through large collections of texts (corpora). However, while the quality of statistical MT systems had improved, nowadays these advances are not significant. For this reason, research in the area have sought to involve more explicit linguistic knowledge in these systems. One issue that purely statistical MT systems have is the lack of correct treatment of syntactic phenomena. Thus, one of the research directions when trying to incorporate linguistic knowledge in those systems is through the addition of syntactic rules. To accomplish this, many methods and formalisms with this goal in mind are studied. This text presents the investigation of methods which aim to advance the state-of-the-art in statistical MT through models that consider syntactic information. The methods and formalisms studied are those used to deal with tree languages, mainly Tree Substitution Grammars (TSGs) and Tree-to-String (TTS) Transducers. From this work, a greater understanding was obtained about the studied formalisms and their behavior when used in NLP applications. |
id |
SCAR_ca24d0b92d8b732124bbafd14eb54fad |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/504 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Beck, Daniel EmilioCaseli, Helena de Medeiroshttp://lattes.cnpq.br/6608582057810385http://lattes.cnpq.br/0876169547835331b68185a9-5291-4ad4-a4be-1cb974ae002d2016-06-02T19:05:58Z2012-09-282016-06-02T19:05:58Z2012-06-19BECK, Daniel Emilio. Tradução automática estatística baseada em sintaxe e linguagens de árvores. 2012. 94 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2012.https://repositorio.ufscar.br/handle/ufscar/504Machine Translation (MT) is one of the classic Natural Language Processing (NLP) applications. The state-of-the-art in MT is represented by statistical methods that aim to learn all necessary linguistic knowledge automatically through large collections of texts (corpora). However, while the quality of statistical MT systems had improved, nowadays these advances are not significant. For this reason, research in the area have sought to involve more explicit linguistic knowledge in these systems. One issue that purely statistical MT systems have is the lack of correct treatment of syntactic phenomena. Thus, one of the research directions when trying to incorporate linguistic knowledge in those systems is through the addition of syntactic rules. To accomplish this, many methods and formalisms with this goal in mind are studied. This text presents the investigation of methods which aim to advance the state-of-the-art in statistical MT through models that consider syntactic information. The methods and formalisms studied are those used to deal with tree languages, mainly Tree Substitution Grammars (TSGs) and Tree-to-String (TTS) Transducers. From this work, a greater understanding was obtained about the studied formalisms and their behavior when used in NLP applications.A Tradução Automática (Machine Translation - MT) é uma das aplicações clássicas dentro do Processamento da Língua Natural (Natural Language Processing - NLP). O estado-da-arte em MT é representado por métodos estatísticos, que buscam aprender o conhecimento linguístico necessário de forma automática por meio de grandes coleções de textos (os corpora). Entretanto, ainda que se tenha avançado bastante em relação à qualidade de sistemas estatísticos de MT, hoje em dia esses avanços não estão sendo significativos. Por conta disso, as pesquisas na área têm buscado formas de envolver mais conhecimento linguístico explícito nesses sistemas. Um dos problemas que não é bem resolvido por sistemas de MT puramente estatísticos é o correto tratamento de fenômenos sintáticos. Assim, uma das direções que as pesquisas tomam na hora de incorporar conhecimento linguístico a esses sistemas é através da adição de regras sintáticas. Para isso, uma série de métodos e formalismos foram e são estudados até hoje. Esse texto apresenta a investigação de métodos que se utilizam de informação sintática na tentativa de avançar no estado-da-arte da MT estatística. Foram utilizados métodos e formalismos que lidam com linguagens de a´rvores, em especial as Gramáticas de Substituição de Árvores (Tree Substitution Grammars - TSGs) e os Transdutores Árvore-para-String (Tree-to-String - TTS). Desta investigação, obteve-se maior entendimento sobre os formalismos estudados e seu comportamento em aplicações de NLP.Universidade Federal de Minas Geraisapplication/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRProcessamento da linguagem natural (Computação)Linguística - processamento de dadosLinguagem - tradução automáticaProcessamento da Língua NaturalLinguística ComputacionalTradução automática estatísticaGramáticas de substituição de árvoresTransdutores árvore-para-StringNatural language processingComputational linguisticsStatistical machine translationTree substitution grammarsTree-to-string transducersCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOTradução automática estatística baseada em sintaxe e linguagens de árvoresinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-1-1e36d4e63-960d-4f5c-9c93-f8b7f5f93d65info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINAL4541.pdfapplication/pdf1339407https://repositorio.ufscar.br/bitstream/ufscar/504/1/4541.pdfbe0e2f3bb86e7d6b4c8d03f4f20214efMD51TEXT4541.pdf.txt4541.pdf.txtExtracted texttext/plain0https://repositorio.ufscar.br/bitstream/ufscar/504/2/4541.pdf.txtd41d8cd98f00b204e9800998ecf8427eMD52THUMBNAIL4541.pdf.jpg4541.pdf.jpgIM Thumbnailimage/jpeg7701https://repositorio.ufscar.br/bitstream/ufscar/504/3/4541.pdf.jpg3c5de04c0672b4f79342c2fc934405baMD53ufscar/5042023-09-18 18:31:27.424oai:repositorio.ufscar.br:ufscar/504Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:27Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Tradução automática estatística baseada em sintaxe e linguagens de árvores |
title |
Tradução automática estatística baseada em sintaxe e linguagens de árvores |
spellingShingle |
Tradução automática estatística baseada em sintaxe e linguagens de árvores Beck, Daniel Emilio Processamento da linguagem natural (Computação) Linguística - processamento de dados Linguagem - tradução automática Processamento da Língua Natural Linguística Computacional Tradução automática estatística Gramáticas de substituição de árvores Transdutores árvore-para-String Natural language processing Computational linguistics Statistical machine translation Tree substitution grammars Tree-to-string transducers CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Tradução automática estatística baseada em sintaxe e linguagens de árvores |
title_full |
Tradução automática estatística baseada em sintaxe e linguagens de árvores |
title_fullStr |
Tradução automática estatística baseada em sintaxe e linguagens de árvores |
title_full_unstemmed |
Tradução automática estatística baseada em sintaxe e linguagens de árvores |
title_sort |
Tradução automática estatística baseada em sintaxe e linguagens de árvores |
author |
Beck, Daniel Emilio |
author_facet |
Beck, Daniel Emilio |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/0876169547835331 |
dc.contributor.author.fl_str_mv |
Beck, Daniel Emilio |
dc.contributor.advisor1.fl_str_mv |
Caseli, Helena de Medeiros |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6608582057810385 |
dc.contributor.authorID.fl_str_mv |
b68185a9-5291-4ad4-a4be-1cb974ae002d |
contributor_str_mv |
Caseli, Helena de Medeiros |
dc.subject.por.fl_str_mv |
Processamento da linguagem natural (Computação) Linguística - processamento de dados Linguagem - tradução automática Processamento da Língua Natural Linguística Computacional Tradução automática estatística Gramáticas de substituição de árvores Transdutores árvore-para-String |
topic |
Processamento da linguagem natural (Computação) Linguística - processamento de dados Linguagem - tradução automática Processamento da Língua Natural Linguística Computacional Tradução automática estatística Gramáticas de substituição de árvores Transdutores árvore-para-String Natural language processing Computational linguistics Statistical machine translation Tree substitution grammars Tree-to-string transducers CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Natural language processing Computational linguistics Statistical machine translation Tree substitution grammars Tree-to-string transducers |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Machine Translation (MT) is one of the classic Natural Language Processing (NLP) applications. The state-of-the-art in MT is represented by statistical methods that aim to learn all necessary linguistic knowledge automatically through large collections of texts (corpora). However, while the quality of statistical MT systems had improved, nowadays these advances are not significant. For this reason, research in the area have sought to involve more explicit linguistic knowledge in these systems. One issue that purely statistical MT systems have is the lack of correct treatment of syntactic phenomena. Thus, one of the research directions when trying to incorporate linguistic knowledge in those systems is through the addition of syntactic rules. To accomplish this, many methods and formalisms with this goal in mind are studied. This text presents the investigation of methods which aim to advance the state-of-the-art in statistical MT through models that consider syntactic information. The methods and formalisms studied are those used to deal with tree languages, mainly Tree Substitution Grammars (TSGs) and Tree-to-String (TTS) Transducers. From this work, a greater understanding was obtained about the studied formalisms and their behavior when used in NLP applications. |
publishDate |
2012 |
dc.date.available.fl_str_mv |
2012-09-28 2016-06-02T19:05:58Z |
dc.date.issued.fl_str_mv |
2012-06-19 |
dc.date.accessioned.fl_str_mv |
2016-06-02T19:05:58Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
BECK, Daniel Emilio. Tradução automática estatística baseada em sintaxe e linguagens de árvores. 2012. 94 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2012. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/504 |
identifier_str_mv |
BECK, Daniel Emilio. Tradução automática estatística baseada em sintaxe e linguagens de árvores. 2012. 94 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2012. |
url |
https://repositorio.ufscar.br/handle/ufscar/504 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
-1 -1 |
dc.relation.authority.fl_str_mv |
e36d4e63-960d-4f5c-9c93-f8b7f5f93d65 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
dc.publisher.initials.fl_str_mv |
UFSCar |
dc.publisher.country.fl_str_mv |
BR |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/504/1/4541.pdf https://repositorio.ufscar.br/bitstream/ufscar/504/2/4541.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/504/3/4541.pdf.jpg |
bitstream.checksum.fl_str_mv |
be0e2f3bb86e7d6b4c8d03f4f20214ef d41d8cd98f00b204e9800998ecf8427e 3c5de04c0672b4f79342c2fc934405ba |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1813715503373352960 |