Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala

Detalhes bibliográficos
Autor(a) principal: Casanova, Edresson
Data de Publicação: 2022
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/
Resumo: O reconhecimento automático de fala é um dos objetivos mais antigos da computação, pois reconhecer a fala oferece benefícios promissores para aplicações comerciais e pessoais. Ainda que os sistemas de reconhecimento automático de fala tenham evoluído com o advento de métodos deep learning, o reconhecimento automático de fala ainda não é um problema totalmente solucionado. Em muitos idiomas ainda há escassez de recursos livres, resultando em sistemas de reconhecimento automático de fala com baixo desempenho. Por outro lado, a área de síntese de fala também evoluiu na última década permitindo o surgimento de modelos de síntese de fala zero-shot multi-speaker que permitem gerar fala na voz de um locutor alvo utilizando apenas alguns segundos de fala desse locutor. Esses avanços motivaram o uso de síntese de fala zero-shot multi-speaker no treinamento de sistemas de reconhecimento automático de fala, com estudos mostrando que a síntese pode melhorar significativamente o desempenho de sistemas de reconhecimento automático de fala. Entretanto, os modelos de síntese zero-shot multi-speaker ainda necessitam de uma grande quantidade de locutores e horas de fala durante o treinamento, deste modo, inviabilizando a sua aplicação em idiomas com poucos recursos disponíveis. Nessa tese de doutorado, investigou-se o desenvolvimento e a avaliação de modelos de síntese de fala zero-shot multi-speaker em cenários com poucos locutores disponíveis. Para isso, propusemos o uso de modelos flow-based, devido ao seus resultados no estado da arte em síntese de fala. Além disso, investigou-se o uso de modelos multilíngues, deste modo, fazendo uso da quantidade de locutores disponíveis em idiomas com muitos recursos disponíveis. Os resultados alcançados com esse trabalho tornaram possível o desenvolvimento de sistemas de síntese de fala zero-shot multi-speaker e conversão de voz zero-shot em idiomas com poucos locutores disponíveis. Além disso, a abordagem proposta nesse trabalho foi aplicada na melhoria de sistemas de reconhecimento automático de fala em dois idiomas, simulando um cenário com apenas um locutor disponível para o treinamento do modelo síntese zero-shot multi-speaker. Apesar de utilizar apenas um locutor nos idiomas alvos, a abordagem de aumento de dados proposta nesse trabalho alcançou resultados comparáveis ao estado da arte no idioma Inglês. Por fim, foi explorado o treinamento de um modelo de reconhecimento automático de fala com um único locutor real nos idiomas alvos, utilizando a abordagem de aumento de dados proposta nesse trabalho, alcançando um Word Error Rate de 33.96% e 36.59%, respectivamente, para o conjunto de teste do dataset Common Voice no Português e no Russo.
id USP_0aee00d77e5798ac1ebf14e5bcbea610
oai_identifier_str oai:teses.usp.br:tde-02092022-142539
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de falaSpeech synthesis applied to the generation of datasets for automatic speech recognitionASRAutomatic speech recognitionConversão de voz zero-shotCross-lingual zero-shot voice conversionMulti-lingual speech synthesisReconhecimento automático de falaSíntese de falaSíntese de fala multilíngueSíntese de fala zero-shotSpeech synthesisTTSZero-shot multi-speaker TTSO reconhecimento automático de fala é um dos objetivos mais antigos da computação, pois reconhecer a fala oferece benefícios promissores para aplicações comerciais e pessoais. Ainda que os sistemas de reconhecimento automático de fala tenham evoluído com o advento de métodos deep learning, o reconhecimento automático de fala ainda não é um problema totalmente solucionado. Em muitos idiomas ainda há escassez de recursos livres, resultando em sistemas de reconhecimento automático de fala com baixo desempenho. Por outro lado, a área de síntese de fala também evoluiu na última década permitindo o surgimento de modelos de síntese de fala zero-shot multi-speaker que permitem gerar fala na voz de um locutor alvo utilizando apenas alguns segundos de fala desse locutor. Esses avanços motivaram o uso de síntese de fala zero-shot multi-speaker no treinamento de sistemas de reconhecimento automático de fala, com estudos mostrando que a síntese pode melhorar significativamente o desempenho de sistemas de reconhecimento automático de fala. Entretanto, os modelos de síntese zero-shot multi-speaker ainda necessitam de uma grande quantidade de locutores e horas de fala durante o treinamento, deste modo, inviabilizando a sua aplicação em idiomas com poucos recursos disponíveis. Nessa tese de doutorado, investigou-se o desenvolvimento e a avaliação de modelos de síntese de fala zero-shot multi-speaker em cenários com poucos locutores disponíveis. Para isso, propusemos o uso de modelos flow-based, devido ao seus resultados no estado da arte em síntese de fala. Além disso, investigou-se o uso de modelos multilíngues, deste modo, fazendo uso da quantidade de locutores disponíveis em idiomas com muitos recursos disponíveis. Os resultados alcançados com esse trabalho tornaram possível o desenvolvimento de sistemas de síntese de fala zero-shot multi-speaker e conversão de voz zero-shot em idiomas com poucos locutores disponíveis. Além disso, a abordagem proposta nesse trabalho foi aplicada na melhoria de sistemas de reconhecimento automático de fala em dois idiomas, simulando um cenário com apenas um locutor disponível para o treinamento do modelo síntese zero-shot multi-speaker. Apesar de utilizar apenas um locutor nos idiomas alvos, a abordagem de aumento de dados proposta nesse trabalho alcançou resultados comparáveis ao estado da arte no idioma Inglês. Por fim, foi explorado o treinamento de um modelo de reconhecimento automático de fala com um único locutor real nos idiomas alvos, utilizando a abordagem de aumento de dados proposta nesse trabalho, alcançando um Word Error Rate de 33.96% e 36.59%, respectivamente, para o conjunto de teste do dataset Common Voice no Português e no Russo.Automatic speech recognition is one the earliest goals of computing, as speech recognition offers promising benefits for business and personal applications. Although automatic speech recognition systems have evolved significantly with deep learning methods, it remains an open research problem. In many languages there is still a shortage of open/public resources, resulting in low-quality automatic speech recognition systems. On the other hand, speech synthesis has also evolved in the last decade, allowing for zero-shot multi-speaker TTS models to generate speech of a target speaker by using only a few seconds of its speech. These advances motivated the use of zero-shot multi-speaker TTS in the training of automatic speech recognition systems. Studies have shown that speech synthesis can significantly improve the performance of automatic speech recognition systems. However, the zero-shot multi-speaker TTS models still require a large number of diverse speakers and hours of speech during training, thus hindering their practical use in languages with less accessible data. In this work, we explored zero-shot multi-speaker TTS in scenarios with few available speakers. For this, we propose the use of flow-based models due to its state-of-the-art speech synthesis. Furthermore, we explored the use of multilingual models, seeking to leverage available data from languages with many available speakers. The results achieved by this work made possible the development of zero-shot multi-speaker TTS and zero-shot voice conversion systems in languages with few available speakers. Furthermore, the approach proposed in this work was applied to improve automatic speech recognition systems in two languages, simulating a scenario with only one speaker available for the training of the zero-shot multi-speaker TTS model. Despite using only one speaker in the target languages, our data augmentation approach achieved results comparable to the state-of-the-art in the English language. In addition, we explored the training of an automatic speech recognition model with a single real speaker in the target languages, using our data augmentation approach, reaching a Word Error Rate of 33.96% and 36.59%, respectively, for the test set of the Common Voice dataset in Portuguese and Russian.Biblioteca Digitais de Teses e Dissertações da USPAluisio, Sandra MariaPonti, Moacir AntonelliCasanova, Edresson2022-07-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-09-02T17:34:10Zoai:teses.usp.br:tde-02092022-142539Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-09-02T17:34:10Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala
Speech synthesis applied to the generation of datasets for automatic speech recognition
title Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala
spellingShingle Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala
Casanova, Edresson
ASR
Automatic speech recognition
Conversão de voz zero-shot
Cross-lingual zero-shot voice conversion
Multi-lingual speech synthesis
Reconhecimento automático de fala
Síntese de fala
Síntese de fala multilíngue
Síntese de fala zero-shot
Speech synthesis
TTS
Zero-shot multi-speaker TTS
title_short Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala
title_full Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala
title_fullStr Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala
title_full_unstemmed Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala
title_sort Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala
author Casanova, Edresson
author_facet Casanova, Edresson
author_role author
dc.contributor.none.fl_str_mv Aluisio, Sandra Maria
Ponti, Moacir Antonelli
dc.contributor.author.fl_str_mv Casanova, Edresson
dc.subject.por.fl_str_mv ASR
Automatic speech recognition
Conversão de voz zero-shot
Cross-lingual zero-shot voice conversion
Multi-lingual speech synthesis
Reconhecimento automático de fala
Síntese de fala
Síntese de fala multilíngue
Síntese de fala zero-shot
Speech synthesis
TTS
Zero-shot multi-speaker TTS
topic ASR
Automatic speech recognition
Conversão de voz zero-shot
Cross-lingual zero-shot voice conversion
Multi-lingual speech synthesis
Reconhecimento automático de fala
Síntese de fala
Síntese de fala multilíngue
Síntese de fala zero-shot
Speech synthesis
TTS
Zero-shot multi-speaker TTS
description O reconhecimento automático de fala é um dos objetivos mais antigos da computação, pois reconhecer a fala oferece benefícios promissores para aplicações comerciais e pessoais. Ainda que os sistemas de reconhecimento automático de fala tenham evoluído com o advento de métodos deep learning, o reconhecimento automático de fala ainda não é um problema totalmente solucionado. Em muitos idiomas ainda há escassez de recursos livres, resultando em sistemas de reconhecimento automático de fala com baixo desempenho. Por outro lado, a área de síntese de fala também evoluiu na última década permitindo o surgimento de modelos de síntese de fala zero-shot multi-speaker que permitem gerar fala na voz de um locutor alvo utilizando apenas alguns segundos de fala desse locutor. Esses avanços motivaram o uso de síntese de fala zero-shot multi-speaker no treinamento de sistemas de reconhecimento automático de fala, com estudos mostrando que a síntese pode melhorar significativamente o desempenho de sistemas de reconhecimento automático de fala. Entretanto, os modelos de síntese zero-shot multi-speaker ainda necessitam de uma grande quantidade de locutores e horas de fala durante o treinamento, deste modo, inviabilizando a sua aplicação em idiomas com poucos recursos disponíveis. Nessa tese de doutorado, investigou-se o desenvolvimento e a avaliação de modelos de síntese de fala zero-shot multi-speaker em cenários com poucos locutores disponíveis. Para isso, propusemos o uso de modelos flow-based, devido ao seus resultados no estado da arte em síntese de fala. Além disso, investigou-se o uso de modelos multilíngues, deste modo, fazendo uso da quantidade de locutores disponíveis em idiomas com muitos recursos disponíveis. Os resultados alcançados com esse trabalho tornaram possível o desenvolvimento de sistemas de síntese de fala zero-shot multi-speaker e conversão de voz zero-shot em idiomas com poucos locutores disponíveis. Além disso, a abordagem proposta nesse trabalho foi aplicada na melhoria de sistemas de reconhecimento automático de fala em dois idiomas, simulando um cenário com apenas um locutor disponível para o treinamento do modelo síntese zero-shot multi-speaker. Apesar de utilizar apenas um locutor nos idiomas alvos, a abordagem de aumento de dados proposta nesse trabalho alcançou resultados comparáveis ao estado da arte no idioma Inglês. Por fim, foi explorado o treinamento de um modelo de reconhecimento automático de fala com um único locutor real nos idiomas alvos, utilizando a abordagem de aumento de dados proposta nesse trabalho, alcançando um Word Error Rate de 33.96% e 36.59%, respectivamente, para o conjunto de teste do dataset Common Voice no Português e no Russo.
publishDate 2022
dc.date.none.fl_str_mv 2022-07-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-02092022-142539/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256617182035968