Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim

Detalhes bibliográficos
Autor(a) principal: Rosa, Rodrigo Kobashikawa
Data de Publicação: 2021
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/228258
Resumo: TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia Eletrônica.
id UFSC_087d14605f93924e6eb9782d2eb04d99
oai_identifier_str oai:repositorio.ufsc.br:123456789/228258
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-LimSíntese de falaRedes neuraisTacotron 2Griffin-LimProcessamento de falaTCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia Eletrônica.A síntese de fala é uma área de pesquisa antiga, motivada pelo desejo humano de fazer as máquinas falarem e interagirem como humanos. Durante muito tempo, os resultados obtidos estavam muito longe da fala humana natural devido à complexidade do aparelho fonador humano. Porém, com o advento do aprendizado profundo, novas arquiteturas de redes neurais estão aparecendo e os modelos do estado da arte estão conseguindo sintetizar falas tão naturais quanto as de humanos reais, sendo quase imperceptível a diferença. Neste trabalho será apresentado o treinamento de um modelo do estado da arte com redes neurais, o Tacotron-2. Será utilizado um conjunto de dados de fala de código aberto do projeto Common Voice em português brasileiro. Foram avaliados os resultados do treinamento do modelo do zero e da aplicação de transfer learning a partir de um modelo pré-treinado em inglês. Os resultados mostraram que é possível treinar o modelo com recursos de dados limitados, a partir da avaliação da inteligibilidade dos modelos e da qualidade do áudio sintetizado.Speech synthesis is an old research field, motivated by the human desire of making machines talk and interact as humans. For a long time, the obtained results were very far from natural human speech due to the complexity of the human speech organs. However, with the advent of deep learning, new neural networks architectures have been appearing and the state of the art models are capable of synthesizing voices as natural as of real humans, with the difference being almost imperceptible. In this work it will be presented the training of a state-of-the-art neural network model, Tacotron-2. It will also use an open-source brazilian portuguese voice dataset from the Common Voice project. Results from training the model from scratch and by applying transfer learning of a pre-trained english model were evaluated. The results show that it is possible to train the model with limited data resources, from the evaluation of the models intelligibility and synthesized audio quality.Florianópolis, SCSilva, DaniloUniversidade Federal de Santa CatarinaRosa, Rodrigo Kobashikawa2021-09-28T12:46:22Z2021-09-28T12:46:22Z2021-08-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis57 f.application/pdfhttps://repositorio.ufsc.br/handle/123456789/228258info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSC2021-09-28T12:46:22Zoai:repositorio.ufsc.br:123456789/228258Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732021-09-28T12:46:22Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim
title Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim
spellingShingle Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim
Rosa, Rodrigo Kobashikawa
Síntese de fala
Redes neurais
Tacotron 2
Griffin-Lim
Processamento de fala
title_short Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim
title_full Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim
title_fullStr Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim
title_full_unstemmed Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim
title_sort Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim
author Rosa, Rodrigo Kobashikawa
author_facet Rosa, Rodrigo Kobashikawa
author_role author
dc.contributor.none.fl_str_mv Silva, Danilo
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Rosa, Rodrigo Kobashikawa
dc.subject.por.fl_str_mv Síntese de fala
Redes neurais
Tacotron 2
Griffin-Lim
Processamento de fala
topic Síntese de fala
Redes neurais
Tacotron 2
Griffin-Lim
Processamento de fala
description TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia Eletrônica.
publishDate 2021
dc.date.none.fl_str_mv 2021-09-28T12:46:22Z
2021-09-28T12:46:22Z
2021-08-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/228258
url https://repositorio.ufsc.br/handle/123456789/228258
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 57 f.
application/pdf
dc.publisher.none.fl_str_mv Florianópolis, SC
publisher.none.fl_str_mv Florianópolis, SC
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652004298326016