Conversão de fala sussurrada para fala normal usando modelos neurais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/30188 |
Resumo: | O sussurro é um mecanismo de fala comum e secundário para se comunicar, porém, em alguns casos, pode ser a principal forma de diálogo, como nos casos de pessoas com patologias da laringe ou que sofreram algum tipo de dano nas pregas vocais. As diferenças de características entre a voz normal e a sussurrada têm levantado discussões na área de reconhecimento de fala, pela dificuldade de realizar a conversão de fala sussurrada para fala vozeada. Este trabalho apresenta o estudo das características da fala normal e sussurrada, e a implementação do sistema de conversão de voz normal para sussurrada utilizando redes perceptron multicamadas e redes generativas adversárias. Os dados utilizados foram provenientes pela parceria com Faculdade de Porto, que são sinais de vogais usados no português europeu. Para a validação do estudo, foram analisado três métricas: Mel-Cepstrum Distortion, raiz quadrada do erro médio do log(F0) e acurácia do classificador de vogais. |
id |
UTFPR-12_3037f680de6eaac71c9a4026f40caaf8 |
---|---|
oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/30188 |
network_acronym_str |
UTFPR-12 |
network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
repository_id_str |
|
spelling |
2022-11-28T13:13:02Z2022-11-28T13:13:02Z2021-11-17YAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021.http://repositorio.utfpr.edu.br/jspui/handle/1/30188O sussurro é um mecanismo de fala comum e secundário para se comunicar, porém, em alguns casos, pode ser a principal forma de diálogo, como nos casos de pessoas com patologias da laringe ou que sofreram algum tipo de dano nas pregas vocais. As diferenças de características entre a voz normal e a sussurrada têm levantado discussões na área de reconhecimento de fala, pela dificuldade de realizar a conversão de fala sussurrada para fala vozeada. Este trabalho apresenta o estudo das características da fala normal e sussurrada, e a implementação do sistema de conversão de voz normal para sussurrada utilizando redes perceptron multicamadas e redes generativas adversárias. Os dados utilizados foram provenientes pela parceria com Faculdade de Porto, que são sinais de vogais usados no português europeu. Para a validação do estudo, foram analisado três métricas: Mel-Cepstrum Distortion, raiz quadrada do erro médio do log(F0) e acurácia do classificador de vogais.Whispering is a common and secondary speech mechanism for communicating, however, in some cases, it can also be the main form to communicate, such as cases of people with pathologies of the larynx or who have suffered some type of damage to the vocal folds. Differences in characteristics between normal voice and whispered discussions have raised in speech recognition area, due to the difficulty of converting whispered to normal speech. This work presents the study of the characteristics of normal and whispered speech, and the implementation of the whispered to normal voice conversion system using multilayer perceptron networks and generative adversarial networks. The database used came from the partnership with Faculdade de Porto, which are vowel signs used in European Portuguese. To validate the study, three metrics were analyzed: Mel-Cepstrum Distortion, square root of the mean error of log(F0) and accuracy of the vowel classifier.porUniversidade Tecnológica Federal do ParanáCornelio ProcopioPrograma de Pós-Graduação em Engenharia ElétricaUTFPRBrasilCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAEngenharia ElétricaDistúrbios da falaRedes Neurais (Computação)ComunicaçãoSpeech disordersNeural networks (Computer science)CommunicationConversão de fala sussurrada para fala normal usando modelos neuraisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisCornélio ProcópioScalassara, Paulo Rogeriohttp://lattes.cnpq.br/5016119298122922Agulhari, Cristiano Marcoshttp://lattes.cnpq.br/4935395556663775Spatti, Danilo Hernanehttp://lattes.cnpq.br/7371885828178292Scalassara, Paulo Rogeriohttp://lattes.cnpq.br/5016119298122922Barbon Junior, Sylviohttps://orcid.org/ 0000-0002-4085-070Xhttp://lattes.cnpq.br/8471372431195427Yamamura, Cezar Fumioinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALwhisperedspeechneuralmodels.pdfapplication/pdf4553925http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/1/whisperedspeechneuralmodels.pdfe22fc272e024baf0d634e45e44aaca67MD51TEXTwhisperedspeechneuralmodels.pdf.txtwhisperedspeechneuralmodels.pdf.txtExtracted texttext/plain74128http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/2/whisperedspeechneuralmodels.pdf.txt300eafb6200e96f8248341004c2b309fMD52THUMBNAILwhisperedspeechneuralmodels.pdf.jpgwhisperedspeechneuralmodels.pdf.jpgGenerated Thumbnailimage/jpeg1252http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/3/whisperedspeechneuralmodels.pdf.jpg9c79168ce0aa40541919750dd417d45dMD531/301882022-11-29 04:06:34.031oai:repositorio.utfpr.edu.br:1/30188Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2022-11-29T06:06:34Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
dc.title.pt_BR.fl_str_mv |
Conversão de fala sussurrada para fala normal usando modelos neurais |
title |
Conversão de fala sussurrada para fala normal usando modelos neurais |
spellingShingle |
Conversão de fala sussurrada para fala normal usando modelos neurais Yamamura, Cezar Fumio CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Distúrbios da fala Redes Neurais (Computação) Comunicação Speech disorders Neural networks (Computer science) Communication Engenharia Elétrica |
title_short |
Conversão de fala sussurrada para fala normal usando modelos neurais |
title_full |
Conversão de fala sussurrada para fala normal usando modelos neurais |
title_fullStr |
Conversão de fala sussurrada para fala normal usando modelos neurais |
title_full_unstemmed |
Conversão de fala sussurrada para fala normal usando modelos neurais |
title_sort |
Conversão de fala sussurrada para fala normal usando modelos neurais |
author |
Yamamura, Cezar Fumio |
author_facet |
Yamamura, Cezar Fumio |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Scalassara, Paulo Rogerio |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/5016119298122922 |
dc.contributor.referee1.fl_str_mv |
Agulhari, Cristiano Marcos |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/4935395556663775 |
dc.contributor.referee2.fl_str_mv |
Spatti, Danilo Hernane |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/7371885828178292 |
dc.contributor.referee3.fl_str_mv |
Scalassara, Paulo Rogerio |
dc.contributor.referee3Lattes.fl_str_mv |
http://lattes.cnpq.br/5016119298122922 |
dc.contributor.referee4.fl_str_mv |
Barbon Junior, Sylvio |
dc.contributor.authorID.fl_str_mv |
https://orcid.org/ 0000-0002-4085-070X |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/8471372431195427 |
dc.contributor.author.fl_str_mv |
Yamamura, Cezar Fumio |
contributor_str_mv |
Scalassara, Paulo Rogerio Agulhari, Cristiano Marcos Spatti, Danilo Hernane Scalassara, Paulo Rogerio Barbon Junior, Sylvio |
dc.subject.cnpq.fl_str_mv |
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA |
topic |
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA Distúrbios da fala Redes Neurais (Computação) Comunicação Speech disorders Neural networks (Computer science) Communication Engenharia Elétrica |
dc.subject.por.fl_str_mv |
Distúrbios da fala Redes Neurais (Computação) Comunicação Speech disorders Neural networks (Computer science) Communication |
dc.subject.capes.pt_BR.fl_str_mv |
Engenharia Elétrica |
description |
O sussurro é um mecanismo de fala comum e secundário para se comunicar, porém, em alguns casos, pode ser a principal forma de diálogo, como nos casos de pessoas com patologias da laringe ou que sofreram algum tipo de dano nas pregas vocais. As diferenças de características entre a voz normal e a sussurrada têm levantado discussões na área de reconhecimento de fala, pela dificuldade de realizar a conversão de fala sussurrada para fala vozeada. Este trabalho apresenta o estudo das características da fala normal e sussurrada, e a implementação do sistema de conversão de voz normal para sussurrada utilizando redes perceptron multicamadas e redes generativas adversárias. Os dados utilizados foram provenientes pela parceria com Faculdade de Porto, que são sinais de vogais usados no português europeu. Para a validação do estudo, foram analisado três métricas: Mel-Cepstrum Distortion, raiz quadrada do erro médio do log(F0) e acurácia do classificador de vogais. |
publishDate |
2021 |
dc.date.issued.fl_str_mv |
2021-11-17 |
dc.date.accessioned.fl_str_mv |
2022-11-28T13:13:02Z |
dc.date.available.fl_str_mv |
2022-11-28T13:13:02Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
YAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021. |
dc.identifier.uri.fl_str_mv |
http://repositorio.utfpr.edu.br/jspui/handle/1/30188 |
identifier_str_mv |
YAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/30188 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Engenharia Elétrica |
dc.publisher.initials.fl_str_mv |
UTFPR |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Cornelio Procopio |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
instacron_str |
UTFPR |
institution |
UTFPR |
reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
bitstream.url.fl_str_mv |
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/1/whisperedspeechneuralmodels.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/2/whisperedspeechneuralmodels.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/3/whisperedspeechneuralmodels.pdf.jpg |
bitstream.checksum.fl_str_mv |
e22fc272e024baf0d634e45e44aaca67 300eafb6200e96f8248341004c2b309f 9c79168ce0aa40541919750dd417d45d |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1797043950007091200 |