Unsupervised word discovery using attentional encoder decoder models
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/185054 |
Resumo: | Os sistemas neurais “sequência-para-sequência” de tradução automática baseados em atenção (attentional seq2seq NMT systems) são capazes de traduzir e alinhar frases em uma língua fonte diretamente em frases em uma língua alvo. Neste trabalho de conclusão de curso, nós utilizamos sequências de símbolos não-segmentados (grafemas ou fonemas) como língua de origem, com o objetivo de explorar um produto do treino desses sistemas, as matrizes probabilísticas de alinhamento suave (soft-alignment probability matrices). Investigamos se essas matrizes são capazes de automaticamente descobrir fronteiras de palavras. Se essa abordagem for bem sucedida, ela pode ser útil como auxílio para a documentação de línguas sem forma escrita e/ou com perigo de desaparecimento. Entretanto, para isso ser possível, os modelos de atenção precisam ser robustos a um cenário escarso de dados, composto por coleções de frases na ordem dos poucos milhares. Neste trabalho, nós utilizamos um corpus paralelo entre uma língua verdadeiramente em perigo de desaparecimento (Mboshi, língua falada em Congo-Brazaville) e o Francês, enfrentando o desafio de treinar uma rede neural com apenas 5.157 frases alinhadas. Os nossos resultados (BOITO; BESACIER; VILLAVICENCIO, 2017; BOITO et al., 2017) demonstraram que, modificando a ordem de entrada entre as línguas, e assim criando um modelo “palavras-para-símbolos’ de tradução automática do Francês para o Mboshi, nós fomos capazes de descobrir automaticamente quase 28% do léxico presente nas frases em Mboshi. Além disso, as matrizes probabilísticas de alinhamento suave geradas apresentaram características interessantes, que podem ser exploradas futuramente para auxílio na descrição de línguas. |
id |
UFRGS-2_5fb37d491aa1d9cb73a6114eb52a0afa |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/185054 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Boito, Marcely ZanonVillavicencio, Aline2018-11-24T03:14:29Z2018http://hdl.handle.net/10183/185054001077780Os sistemas neurais “sequência-para-sequência” de tradução automática baseados em atenção (attentional seq2seq NMT systems) são capazes de traduzir e alinhar frases em uma língua fonte diretamente em frases em uma língua alvo. Neste trabalho de conclusão de curso, nós utilizamos sequências de símbolos não-segmentados (grafemas ou fonemas) como língua de origem, com o objetivo de explorar um produto do treino desses sistemas, as matrizes probabilísticas de alinhamento suave (soft-alignment probability matrices). Investigamos se essas matrizes são capazes de automaticamente descobrir fronteiras de palavras. Se essa abordagem for bem sucedida, ela pode ser útil como auxílio para a documentação de línguas sem forma escrita e/ou com perigo de desaparecimento. Entretanto, para isso ser possível, os modelos de atenção precisam ser robustos a um cenário escarso de dados, composto por coleções de frases na ordem dos poucos milhares. Neste trabalho, nós utilizamos um corpus paralelo entre uma língua verdadeiramente em perigo de desaparecimento (Mboshi, língua falada em Congo-Brazaville) e o Francês, enfrentando o desafio de treinar uma rede neural com apenas 5.157 frases alinhadas. Os nossos resultados (BOITO; BESACIER; VILLAVICENCIO, 2017; BOITO et al., 2017) demonstraram que, modificando a ordem de entrada entre as línguas, e assim criando um modelo “palavras-para-símbolos’ de tradução automática do Francês para o Mboshi, nós fomos capazes de descobrir automaticamente quase 28% do léxico presente nas frases em Mboshi. Além disso, as matrizes probabilísticas de alinhamento suave geradas apresentaram características interessantes, que podem ser exploradas futuramente para auxílio na descrição de línguas.application/pdfengProcessamento : Linguagem naturalUnsupervised word discovery using attentional encoder decoder modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2018Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001077780.pdf.txt001077780.pdf.txtExtracted Texttext/plain167428http://www.lume.ufrgs.br/bitstream/10183/185054/2/001077780.pdf.txt76c95778679dedf6b7e0fa991c9addcdMD52ORIGINAL001077780.pdfTexto completo (inglês)application/pdf1421146http://www.lume.ufrgs.br/bitstream/10183/185054/1/001077780.pdf57a7967b479594f8211e1993bc5d0445MD5110183/1850542021-05-26 04:34:23.22426oai:www.lume.ufrgs.br:10183/185054Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2021-05-26T07:34:23Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Unsupervised word discovery using attentional encoder decoder models |
title |
Unsupervised word discovery using attentional encoder decoder models |
spellingShingle |
Unsupervised word discovery using attentional encoder decoder models Boito, Marcely Zanon Processamento : Linguagem natural |
title_short |
Unsupervised word discovery using attentional encoder decoder models |
title_full |
Unsupervised word discovery using attentional encoder decoder models |
title_fullStr |
Unsupervised word discovery using attentional encoder decoder models |
title_full_unstemmed |
Unsupervised word discovery using attentional encoder decoder models |
title_sort |
Unsupervised word discovery using attentional encoder decoder models |
author |
Boito, Marcely Zanon |
author_facet |
Boito, Marcely Zanon |
author_role |
author |
dc.contributor.author.fl_str_mv |
Boito, Marcely Zanon |
dc.contributor.advisor1.fl_str_mv |
Villavicencio, Aline |
contributor_str_mv |
Villavicencio, Aline |
dc.subject.por.fl_str_mv |
Processamento : Linguagem natural |
topic |
Processamento : Linguagem natural |
description |
Os sistemas neurais “sequência-para-sequência” de tradução automática baseados em atenção (attentional seq2seq NMT systems) são capazes de traduzir e alinhar frases em uma língua fonte diretamente em frases em uma língua alvo. Neste trabalho de conclusão de curso, nós utilizamos sequências de símbolos não-segmentados (grafemas ou fonemas) como língua de origem, com o objetivo de explorar um produto do treino desses sistemas, as matrizes probabilísticas de alinhamento suave (soft-alignment probability matrices). Investigamos se essas matrizes são capazes de automaticamente descobrir fronteiras de palavras. Se essa abordagem for bem sucedida, ela pode ser útil como auxílio para a documentação de línguas sem forma escrita e/ou com perigo de desaparecimento. Entretanto, para isso ser possível, os modelos de atenção precisam ser robustos a um cenário escarso de dados, composto por coleções de frases na ordem dos poucos milhares. Neste trabalho, nós utilizamos um corpus paralelo entre uma língua verdadeiramente em perigo de desaparecimento (Mboshi, língua falada em Congo-Brazaville) e o Francês, enfrentando o desafio de treinar uma rede neural com apenas 5.157 frases alinhadas. Os nossos resultados (BOITO; BESACIER; VILLAVICENCIO, 2017; BOITO et al., 2017) demonstraram que, modificando a ordem de entrada entre as línguas, e assim criando um modelo “palavras-para-símbolos’ de tradução automática do Francês para o Mboshi, nós fomos capazes de descobrir automaticamente quase 28% do léxico presente nas frases em Mboshi. Além disso, as matrizes probabilísticas de alinhamento suave geradas apresentaram características interessantes, que podem ser exploradas futuramente para auxílio na descrição de línguas. |
publishDate |
2018 |
dc.date.accessioned.fl_str_mv |
2018-11-24T03:14:29Z |
dc.date.issued.fl_str_mv |
2018 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/185054 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001077780 |
url |
http://hdl.handle.net/10183/185054 |
identifier_str_mv |
001077780 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/185054/2/001077780.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/185054/1/001077780.pdf |
bitstream.checksum.fl_str_mv |
76c95778679dedf6b7e0fa991c9addcd 57a7967b479594f8211e1993bc5d0445 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1801224564372406272 |