Unsupervised word discovery using attentional encoder decoder models

Detalhes bibliográficos
Autor(a) principal: Boito, Marcely Zanon
Data de Publicação: 2018
Tipo de documento: Trabalho de conclusão de curso
Idioma: eng
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/185054
Resumo: Os sistemas neurais “sequência-para-sequência” de tradução automática baseados em atenção (attentional seq2seq NMT systems) são capazes de traduzir e alinhar frases em uma língua fonte diretamente em frases em uma língua alvo. Neste trabalho de conclusão de curso, nós utilizamos sequências de símbolos não-segmentados (grafemas ou fonemas) como língua de origem, com o objetivo de explorar um produto do treino desses sistemas, as matrizes probabilísticas de alinhamento suave (soft-alignment probability matrices). Investigamos se essas matrizes são capazes de automaticamente descobrir fronteiras de palavras. Se essa abordagem for bem sucedida, ela pode ser útil como auxílio para a documentação de línguas sem forma escrita e/ou com perigo de desaparecimento. Entretanto, para isso ser possível, os modelos de atenção precisam ser robustos a um cenário escarso de dados, composto por coleções de frases na ordem dos poucos milhares. Neste trabalho, nós utilizamos um corpus paralelo entre uma língua verdadeiramente em perigo de desaparecimento (Mboshi, língua falada em Congo-Brazaville) e o Francês, enfrentando o desafio de treinar uma rede neural com apenas 5.157 frases alinhadas. Os nossos resultados (BOITO; BESACIER; VILLAVICENCIO, 2017; BOITO et al., 2017) demonstraram que, modificando a ordem de entrada entre as línguas, e assim criando um modelo “palavras-para-símbolos’ de tradução automática do Francês para o Mboshi, nós fomos capazes de descobrir automaticamente quase 28% do léxico presente nas frases em Mboshi. Além disso, as matrizes probabilísticas de alinhamento suave geradas apresentaram características interessantes, que podem ser exploradas futuramente para auxílio na descrição de línguas.
id UFRGS-2_5fb37d491aa1d9cb73a6114eb52a0afa
oai_identifier_str oai:www.lume.ufrgs.br:10183/185054
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Boito, Marcely ZanonVillavicencio, Aline2018-11-24T03:14:29Z2018http://hdl.handle.net/10183/185054001077780Os sistemas neurais “sequência-para-sequência” de tradução automática baseados em atenção (attentional seq2seq NMT systems) são capazes de traduzir e alinhar frases em uma língua fonte diretamente em frases em uma língua alvo. Neste trabalho de conclusão de curso, nós utilizamos sequências de símbolos não-segmentados (grafemas ou fonemas) como língua de origem, com o objetivo de explorar um produto do treino desses sistemas, as matrizes probabilísticas de alinhamento suave (soft-alignment probability matrices). Investigamos se essas matrizes são capazes de automaticamente descobrir fronteiras de palavras. Se essa abordagem for bem sucedida, ela pode ser útil como auxílio para a documentação de línguas sem forma escrita e/ou com perigo de desaparecimento. Entretanto, para isso ser possível, os modelos de atenção precisam ser robustos a um cenário escarso de dados, composto por coleções de frases na ordem dos poucos milhares. Neste trabalho, nós utilizamos um corpus paralelo entre uma língua verdadeiramente em perigo de desaparecimento (Mboshi, língua falada em Congo-Brazaville) e o Francês, enfrentando o desafio de treinar uma rede neural com apenas 5.157 frases alinhadas. Os nossos resultados (BOITO; BESACIER; VILLAVICENCIO, 2017; BOITO et al., 2017) demonstraram que, modificando a ordem de entrada entre as línguas, e assim criando um modelo “palavras-para-símbolos’ de tradução automática do Francês para o Mboshi, nós fomos capazes de descobrir automaticamente quase 28% do léxico presente nas frases em Mboshi. Além disso, as matrizes probabilísticas de alinhamento suave geradas apresentaram características interessantes, que podem ser exploradas futuramente para auxílio na descrição de línguas.application/pdfengProcessamento : Linguagem naturalUnsupervised word discovery using attentional encoder decoder modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2018Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001077780.pdf.txt001077780.pdf.txtExtracted Texttext/plain167428http://www.lume.ufrgs.br/bitstream/10183/185054/2/001077780.pdf.txt76c95778679dedf6b7e0fa991c9addcdMD52ORIGINAL001077780.pdfTexto completo (inglês)application/pdf1421146http://www.lume.ufrgs.br/bitstream/10183/185054/1/001077780.pdf57a7967b479594f8211e1993bc5d0445MD5110183/1850542021-05-26 04:34:23.22426oai:www.lume.ufrgs.br:10183/185054Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2021-05-26T07:34:23Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Unsupervised word discovery using attentional encoder decoder models
title Unsupervised word discovery using attentional encoder decoder models
spellingShingle Unsupervised word discovery using attentional encoder decoder models
Boito, Marcely Zanon
Processamento : Linguagem natural
title_short Unsupervised word discovery using attentional encoder decoder models
title_full Unsupervised word discovery using attentional encoder decoder models
title_fullStr Unsupervised word discovery using attentional encoder decoder models
title_full_unstemmed Unsupervised word discovery using attentional encoder decoder models
title_sort Unsupervised word discovery using attentional encoder decoder models
author Boito, Marcely Zanon
author_facet Boito, Marcely Zanon
author_role author
dc.contributor.author.fl_str_mv Boito, Marcely Zanon
dc.contributor.advisor1.fl_str_mv Villavicencio, Aline
contributor_str_mv Villavicencio, Aline
dc.subject.por.fl_str_mv Processamento : Linguagem natural
topic Processamento : Linguagem natural
description Os sistemas neurais “sequência-para-sequência” de tradução automática baseados em atenção (attentional seq2seq NMT systems) são capazes de traduzir e alinhar frases em uma língua fonte diretamente em frases em uma língua alvo. Neste trabalho de conclusão de curso, nós utilizamos sequências de símbolos não-segmentados (grafemas ou fonemas) como língua de origem, com o objetivo de explorar um produto do treino desses sistemas, as matrizes probabilísticas de alinhamento suave (soft-alignment probability matrices). Investigamos se essas matrizes são capazes de automaticamente descobrir fronteiras de palavras. Se essa abordagem for bem sucedida, ela pode ser útil como auxílio para a documentação de línguas sem forma escrita e/ou com perigo de desaparecimento. Entretanto, para isso ser possível, os modelos de atenção precisam ser robustos a um cenário escarso de dados, composto por coleções de frases na ordem dos poucos milhares. Neste trabalho, nós utilizamos um corpus paralelo entre uma língua verdadeiramente em perigo de desaparecimento (Mboshi, língua falada em Congo-Brazaville) e o Francês, enfrentando o desafio de treinar uma rede neural com apenas 5.157 frases alinhadas. Os nossos resultados (BOITO; BESACIER; VILLAVICENCIO, 2017; BOITO et al., 2017) demonstraram que, modificando a ordem de entrada entre as línguas, e assim criando um modelo “palavras-para-símbolos’ de tradução automática do Francês para o Mboshi, nós fomos capazes de descobrir automaticamente quase 28% do léxico presente nas frases em Mboshi. Além disso, as matrizes probabilísticas de alinhamento suave geradas apresentaram características interessantes, que podem ser exploradas futuramente para auxílio na descrição de línguas.
publishDate 2018
dc.date.accessioned.fl_str_mv 2018-11-24T03:14:29Z
dc.date.issued.fl_str_mv 2018
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/185054
dc.identifier.nrb.pt_BR.fl_str_mv 001077780
url http://hdl.handle.net/10183/185054
identifier_str_mv 001077780
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/185054/2/001077780.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/185054/1/001077780.pdf
bitstream.checksum.fl_str_mv 76c95778679dedf6b7e0fa991c9addcd
57a7967b479594f8211e1993bc5d0445
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224564372406272