Conversão de fala sussurrada para fala normal usando modelos neurais

Detalhes bibliográficos
Autor(a) principal: Yamamura, Cezar Fumio
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/30188
Resumo: O sussurro é um mecanismo de fala comum e secundário para se comunicar, porém, em alguns casos, pode ser a principal forma de diálogo, como nos casos de pessoas com patologias da laringe ou que sofreram algum tipo de dano nas pregas vocais. As diferenças de características entre a voz normal e a sussurrada têm levantado discussões na área de reconhecimento de fala, pela dificuldade de realizar a conversão de fala sussurrada para fala vozeada. Este trabalho apresenta o estudo das características da fala normal e sussurrada, e a implementação do sistema de conversão de voz normal para sussurrada utilizando redes perceptron multicamadas e redes generativas adversárias. Os dados utilizados foram provenientes pela parceria com Faculdade de Porto, que são sinais de vogais usados no português europeu. Para a validação do estudo, foram analisado três métricas: Mel-Cepstrum Distortion, raiz quadrada do erro médio do log(F0) e acurácia do classificador de vogais.
id UTFPR-12_3037f680de6eaac71c9a4026f40caaf8
oai_identifier_str oai:repositorio.utfpr.edu.br:1/30188
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2022-11-28T13:13:02Z2022-11-28T13:13:02Z2021-11-17YAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021.http://repositorio.utfpr.edu.br/jspui/handle/1/30188O sussurro é um mecanismo de fala comum e secundário para se comunicar, porém, em alguns casos, pode ser a principal forma de diálogo, como nos casos de pessoas com patologias da laringe ou que sofreram algum tipo de dano nas pregas vocais. As diferenças de características entre a voz normal e a sussurrada têm levantado discussões na área de reconhecimento de fala, pela dificuldade de realizar a conversão de fala sussurrada para fala vozeada. Este trabalho apresenta o estudo das características da fala normal e sussurrada, e a implementação do sistema de conversão de voz normal para sussurrada utilizando redes perceptron multicamadas e redes generativas adversárias. Os dados utilizados foram provenientes pela parceria com Faculdade de Porto, que são sinais de vogais usados no português europeu. Para a validação do estudo, foram analisado três métricas: Mel-Cepstrum Distortion, raiz quadrada do erro médio do log(F0) e acurácia do classificador de vogais.Whispering is a common and secondary speech mechanism for communicating, however, in some cases, it can also be the main form to communicate, such as cases of people with pathologies of the larynx or who have suffered some type of damage to the vocal folds. Differences in characteristics between normal voice and whispered discussions have raised in speech recognition area, due to the difficulty of converting whispered to normal speech. This work presents the study of the characteristics of normal and whispered speech, and the implementation of the whispered to normal voice conversion system using multilayer perceptron networks and generative adversarial networks. The database used came from the partnership with Faculdade de Porto, which are vowel signs used in European Portuguese. To validate the study, three metrics were analyzed: Mel-Cepstrum Distortion, square root of the mean error of log(F0) and accuracy of the vowel classifier.porUniversidade Tecnológica Federal do ParanáCornelio ProcopioPrograma de Pós-Graduação em Engenharia ElétricaUTFPRBrasilCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAEngenharia ElétricaDistúrbios da falaRedes Neurais (Computação)ComunicaçãoSpeech disordersNeural networks (Computer science)CommunicationConversão de fala sussurrada para fala normal usando modelos neuraisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisCornélio ProcópioScalassara, Paulo Rogeriohttp://lattes.cnpq.br/5016119298122922Agulhari, Cristiano Marcoshttp://lattes.cnpq.br/4935395556663775Spatti, Danilo Hernanehttp://lattes.cnpq.br/7371885828178292Scalassara, Paulo Rogeriohttp://lattes.cnpq.br/5016119298122922Barbon Junior, Sylviohttps://orcid.org/ 0000-0002-4085-070Xhttp://lattes.cnpq.br/8471372431195427Yamamura, Cezar Fumioinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALwhisperedspeechneuralmodels.pdfapplication/pdf4553925http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/1/whisperedspeechneuralmodels.pdfe22fc272e024baf0d634e45e44aaca67MD51TEXTwhisperedspeechneuralmodels.pdf.txtwhisperedspeechneuralmodels.pdf.txtExtracted texttext/plain74128http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/2/whisperedspeechneuralmodels.pdf.txt300eafb6200e96f8248341004c2b309fMD52THUMBNAILwhisperedspeechneuralmodels.pdf.jpgwhisperedspeechneuralmodels.pdf.jpgGenerated Thumbnailimage/jpeg1252http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/3/whisperedspeechneuralmodels.pdf.jpg9c79168ce0aa40541919750dd417d45dMD531/301882022-11-29 04:06:34.031oai:repositorio.utfpr.edu.br:1/30188Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2022-11-29T06:06:34Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Conversão de fala sussurrada para fala normal usando modelos neurais
title Conversão de fala sussurrada para fala normal usando modelos neurais
spellingShingle Conversão de fala sussurrada para fala normal usando modelos neurais
Yamamura, Cezar Fumio
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Distúrbios da fala
Redes Neurais (Computação)
Comunicação
Speech disorders
Neural networks (Computer science)
Communication
Engenharia Elétrica
title_short Conversão de fala sussurrada para fala normal usando modelos neurais
title_full Conversão de fala sussurrada para fala normal usando modelos neurais
title_fullStr Conversão de fala sussurrada para fala normal usando modelos neurais
title_full_unstemmed Conversão de fala sussurrada para fala normal usando modelos neurais
title_sort Conversão de fala sussurrada para fala normal usando modelos neurais
author Yamamura, Cezar Fumio
author_facet Yamamura, Cezar Fumio
author_role author
dc.contributor.advisor1.fl_str_mv Scalassara, Paulo Rogerio
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/5016119298122922
dc.contributor.referee1.fl_str_mv Agulhari, Cristiano Marcos
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/4935395556663775
dc.contributor.referee2.fl_str_mv Spatti, Danilo Hernane
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/7371885828178292
dc.contributor.referee3.fl_str_mv Scalassara, Paulo Rogerio
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/5016119298122922
dc.contributor.referee4.fl_str_mv Barbon Junior, Sylvio
dc.contributor.authorID.fl_str_mv https://orcid.org/ 0000-0002-4085-070X
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/8471372431195427
dc.contributor.author.fl_str_mv Yamamura, Cezar Fumio
contributor_str_mv Scalassara, Paulo Rogerio
Agulhari, Cristiano Marcos
Spatti, Danilo Hernane
Scalassara, Paulo Rogerio
Barbon Junior, Sylvio
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
topic CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Distúrbios da fala
Redes Neurais (Computação)
Comunicação
Speech disorders
Neural networks (Computer science)
Communication
Engenharia Elétrica
dc.subject.por.fl_str_mv Distúrbios da fala
Redes Neurais (Computação)
Comunicação
Speech disorders
Neural networks (Computer science)
Communication
dc.subject.capes.pt_BR.fl_str_mv Engenharia Elétrica
description O sussurro é um mecanismo de fala comum e secundário para se comunicar, porém, em alguns casos, pode ser a principal forma de diálogo, como nos casos de pessoas com patologias da laringe ou que sofreram algum tipo de dano nas pregas vocais. As diferenças de características entre a voz normal e a sussurrada têm levantado discussões na área de reconhecimento de fala, pela dificuldade de realizar a conversão de fala sussurrada para fala vozeada. Este trabalho apresenta o estudo das características da fala normal e sussurrada, e a implementação do sistema de conversão de voz normal para sussurrada utilizando redes perceptron multicamadas e redes generativas adversárias. Os dados utilizados foram provenientes pela parceria com Faculdade de Porto, que são sinais de vogais usados no português europeu. Para a validação do estudo, foram analisado três métricas: Mel-Cepstrum Distortion, raiz quadrada do erro médio do log(F0) e acurácia do classificador de vogais.
publishDate 2021
dc.date.issued.fl_str_mv 2021-11-17
dc.date.accessioned.fl_str_mv 2022-11-28T13:13:02Z
dc.date.available.fl_str_mv 2022-11-28T13:13:02Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv YAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/30188
identifier_str_mv YAMAMURA, Cezar Fumio. Conversão de fala sussurrada para fala normal usando modelos neurais. 2021. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021.
url http://repositorio.utfpr.edu.br/jspui/handle/1/30188
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/1/whisperedspeechneuralmodels.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/2/whisperedspeechneuralmodels.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/30188/3/whisperedspeechneuralmodels.pdf.jpg
bitstream.checksum.fl_str_mv e22fc272e024baf0d634e45e44aaca67
300eafb6200e96f8248341004c2b309f
9c79168ce0aa40541919750dd417d45d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1797043950007091200