Erro perceptivo-auditivo de vozes humanas e sintetizadas

Detalhes bibliográficos
Autor(a) principal: Englert, Marina Taborda [UNIFESP]
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNIFESP
Texto Completo: https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=3045826
http://repositorio.unifesp.br/handle/11600/49044
Resumo: Introdução: A análise perceptivo-auditiva é considerada padrão ouro para avaliação das disfonias, apesar da reconhecida variabilidade inter-indivíduos. O uso de treinamento auditivo e estímulos âncora, especialmente com vozes sintetizadas, que têm propriedades acústicas conhecidas e manipuláveis, aumentam a confiabilidade dessa avaliação. No entanto, esses estímulos precisam soar naturais. Objetivo: Verificar a qualidade de vozes sintetizadas por meio da habilidade de fonoaudiólogos e leigos em discriminar vozes humanas e produzidas pelo sintetizador VoiceSim, com tipo e grau de desvio variados. Métodos: Foram selecionados 36 estímulos da emissão da vogal ?é? sustentada, 18 humanos e 18 sintetizados, em igual número por sexo. Vozes humanas: três fonoaudiólogos selecionaram amostras rugosas, soprosas e tensas, com diferentes graus de desvio, da database de uma clínica vocal. Amostras sintetizadas: empregado o sistema VoiceSim que produziu amostras com os mesmos desvios das vozes humanas, manipulando-se os parâmetros de perturbação de frequência para produzir rugosidade, adição de ruído para produzir soprosidade e aumento da tensão e diminuição da separação entre as pregas vocais para produzir tensão. Participaram como ouvintes 269 indivíduos, divididos em três grupos para comparar a percepção entre sujeitos com diferentes experiências auditivas; fonoaudiólogos especialistas em voz ? FV, fonoaudiólogos clínicos gerais - FG e leigos ? IL, todos identificaram as amostras, com 50% de repetição, como sendo humana ou sintetizada; FV e FG também classificaram o grau de desvio (normal, leve, moderado ou intenso) e tipo de voz predominante (rugosa, soprosa ou tensa). Desses 269 ouvintes, 99 foram excluídos por não serem consistentes; assim, mantiveram-se 170 sujeitos (58 FV, 51 FG e 61 IL). Resultados: Os ouvintes erraram 39,3% das identificações, tanto vozes sintetizadas foram identificadas como humanas (42,3%) como vozes humanas foram identificadas como sintetizadas (36,4%) com diferença estatisticamente significante (p=0,001). FV produziu a menor porcentagem de erros em relação à natureza das vozes (34,6%); FG e IL identificaram quase metade das vozes sintetizadas como humanas (46,9% e 45,6%). As vozes masculinas, humanas ou sintetizadas, foram mais suscetíveis a erro de identificação, independente do tipo ou grau de desvio, sendo que as soprosas sintetizadas foram as que geraram maior confusão perceptiva; as vozes com desvio intenso parecem ser mais suscetíveis a erro; vozes humanas femininas e tensas sintetizadas apresentaram menor porcentagem de erros. IL apresentou maior confusão perceptivo-auditiva que os demais grupos e FV identificou melhor as vozes sintetizadas. Os fonoaudiólogos classificaram corretamente quase todos os tipos de desvios vocais sintetizados nas vozes femininas; para as vozes masculinas isso aconteceu apenas para a rugosidade; a soprosidade e tensão masculinas foram classificados quase sempre como rugosidade. Houve fator de aprendizagem apenas no grupo FV, que identificou mais corretamente as últimas vozes apresentadas. Conclusão: O sintetizador mostrou-se bom, pois produziu vozes com caraterísticas muito similares às de pacientes disfônicos, confundindo todos os grupos de ouvintes. FV teve melhor habilidade em identificar corretamente a natureza das vozes provavelmente por ser o grupo dos especialistas. O sintetizador mostrou-se mais natural para simular o desvio vocal de soprosidade e simulou bem os tipos de desvios vocais femininos. No entanto, para a voz masculina, será necessário ajustar a simulação de soprosidade e tensão, que foram identificados como rugosidade.
id UFSP_339bcf31843666944bf5d0421f898d17
oai_identifier_str oai:repositorio.unifesp.br:11600/49044
network_acronym_str UFSP
network_name_str Repositório Institucional da UNIFESP
repository_id_str 3465
spelling Englert, Marina Taborda [UNIFESP]Universidade Federal de São Paulo (UNIFESP)http://lattes.cnpq.br/3770270616197149http://lattes.cnpq.br/2274436726620746Behlau, Mara Suzana [UNIFESP]São Paulo2018-07-30T11:53:56Z2018-07-30T11:53:56Z2016-01-03https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=3045826ENGLERT, Marina Taborda. Erro perceptivo-auditivo de vozes humanas e sintetizadas. 2016. 89 f. Dissertação (Mestrado em Distúrbios da Comunicação Humana: Fonoaudiologia) – Escola Paulista de Medicina, Universidade Federal de São Paulo, São Paulo, 2016.http://repositorio.unifesp.br/handle/11600/490442016-0230.pdfIntrodução: A análise perceptivo-auditiva é considerada padrão ouro para avaliação das disfonias, apesar da reconhecida variabilidade inter-indivíduos. O uso de treinamento auditivo e estímulos âncora, especialmente com vozes sintetizadas, que têm propriedades acústicas conhecidas e manipuláveis, aumentam a confiabilidade dessa avaliação. No entanto, esses estímulos precisam soar naturais. Objetivo: Verificar a qualidade de vozes sintetizadas por meio da habilidade de fonoaudiólogos e leigos em discriminar vozes humanas e produzidas pelo sintetizador VoiceSim, com tipo e grau de desvio variados. Métodos: Foram selecionados 36 estímulos da emissão da vogal ?é? sustentada, 18 humanos e 18 sintetizados, em igual número por sexo. Vozes humanas: três fonoaudiólogos selecionaram amostras rugosas, soprosas e tensas, com diferentes graus de desvio, da database de uma clínica vocal. Amostras sintetizadas: empregado o sistema VoiceSim que produziu amostras com os mesmos desvios das vozes humanas, manipulando-se os parâmetros de perturbação de frequência para produzir rugosidade, adição de ruído para produzir soprosidade e aumento da tensão e diminuição da separação entre as pregas vocais para produzir tensão. Participaram como ouvintes 269 indivíduos, divididos em três grupos para comparar a percepção entre sujeitos com diferentes experiências auditivas; fonoaudiólogos especialistas em voz ? FV, fonoaudiólogos clínicos gerais - FG e leigos ? IL, todos identificaram as amostras, com 50% de repetição, como sendo humana ou sintetizada; FV e FG também classificaram o grau de desvio (normal, leve, moderado ou intenso) e tipo de voz predominante (rugosa, soprosa ou tensa). Desses 269 ouvintes, 99 foram excluídos por não serem consistentes; assim, mantiveram-se 170 sujeitos (58 FV, 51 FG e 61 IL). Resultados: Os ouvintes erraram 39,3% das identificações, tanto vozes sintetizadas foram identificadas como humanas (42,3%) como vozes humanas foram identificadas como sintetizadas (36,4%) com diferença estatisticamente significante (p=0,001). FV produziu a menor porcentagem de erros em relação à natureza das vozes (34,6%); FG e IL identificaram quase metade das vozes sintetizadas como humanas (46,9% e 45,6%). As vozes masculinas, humanas ou sintetizadas, foram mais suscetíveis a erro de identificação, independente do tipo ou grau de desvio, sendo que as soprosas sintetizadas foram as que geraram maior confusão perceptiva; as vozes com desvio intenso parecem ser mais suscetíveis a erro; vozes humanas femininas e tensas sintetizadas apresentaram menor porcentagem de erros. IL apresentou maior confusão perceptivo-auditiva que os demais grupos e FV identificou melhor as vozes sintetizadas. Os fonoaudiólogos classificaram corretamente quase todos os tipos de desvios vocais sintetizados nas vozes femininas; para as vozes masculinas isso aconteceu apenas para a rugosidade; a soprosidade e tensão masculinas foram classificados quase sempre como rugosidade. Houve fator de aprendizagem apenas no grupo FV, que identificou mais corretamente as últimas vozes apresentadas. Conclusão: O sintetizador mostrou-se bom, pois produziu vozes com caraterísticas muito similares às de pacientes disfônicos, confundindo todos os grupos de ouvintes. FV teve melhor habilidade em identificar corretamente a natureza das vozes provavelmente por ser o grupo dos especialistas. O sintetizador mostrou-se mais natural para simular o desvio vocal de soprosidade e simulou bem os tipos de desvios vocais femininos. No entanto, para a voz masculina, será necessário ajustar a simulação de soprosidade e tensão, que foram identificados como rugosidade.Introduction: Perceptual auditory analysis is considered the gold standard for dysphonia evaluation, in spite of its recognized interindividual variability. Auditory training and anchor stimuli, especially with synthesized voices, which has known and manageable acoustic properties, increases the vocal evaluation reliability. However, these stimuli must sound natural. Objective: Assess the quality of synthesized voices produced by VoiceSim system, through listeners’ skills in discriminating human and synthesized voices, with different types and degree of deviation. Methods: Selection of 36 stimuli, sustained vowel, 18 human and 18 synthesized, male and female. Human voices: three speech language pathologists voice specialist selected from a vocal clinic database voices with roughness, breathiness and strain; with different types and degree of deviation. Synthesized voices: production of samples with the same deviations as the human voices by VoiceSim system; manipulated parameters were vocal frequency perturbation (roughness); additive noise (breathiness) and by increasing tension and subglottal pressure and decreasing vocal folds separation (strain). Total of 269 listeners divides into three groups to analysis the auditory perception of listeners with different auditory experiences; voice specialists ­ VS, general speech language pathologists, SLP and naive listeners, NL. The listeners rated the samples with 50% of repetition, as human or synthesized; VS and SLP listeners also indicated the degree of deviation (normal, mild, moderate or severe) and predominant voice (rough, breathy or strain). 99 listeners were not consistent and were excluded; remaining 170 subjects (58 VS, 51 SLP, 61 NL). Results: Listeners misclassified 39.3% of the voices, both synthesized (42.3%) and human (36.4%) samples, with statistical difference (p=0.001). VS group produced the lowest percentage of error for the voice nature (34.6%); SLP and NL identified almost half of the synthesized samples as human (46.9%, 45.6%). Male voices were more susceptible for misidentification, regardless the type or degree of deviation; synthesized breathy samples were generated greater perceptual confusion; samples with severe deviation seemed to be more susceptible for error; female human voices and synthesized strain samples showed lower percentage of error. NL group had higher perceptual confusion and VS group identified better the synthesized samples. Synthesized female deviations were correctly classified, for male voices, this was observed only for roughness; male breathiness and strain were identified as roughness. There was learning factor for the VS group, who identified more correctly the voices presented last. Conclusion: VoiceSim produced stimuli very similar to dysphonic patient voices. VS had better ability to classify human and synthesized voices, probably due to the fact they were the specialist group. VoiceSim is better to simulate vocal breathiness and female deviations; male samples need adjustment, breathiness and strain were identified as roughness.Dados abertos - Sucupira - Teses e dissertações (2013 a 2016)89 f.porUniversidade Federal de São Paulo (UNIFESP)VozDistúrbios da vozPercepção auditivaAvaliaçãoAcústica da falaProcessamento de sinaisErro perceptivo-auditivo de vozes humanas e sintetizadasPerceptual error analysis of human and synthesized voicesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESPSão Paulo, Escola Paulista de Medicina (EPM)Distúrbios da Comunicação Humana (Fonoaudiologia)Ciências da saúdeFonoaudiologiaORIGINALMarina Taborda Englert.pdfMarina Taborda Englert.pdfapplication/pdf1549969${dspace.ui.url}/bitstream/11600/49044/2/Marina%20Taborda%20Englert.pdf7cfd3f7070508626ff6e5eaa4056af76MD52open access11600/490442023-02-14 16:25:09.609open accessoai:repositorio.unifesp.br:11600/49044Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestopendoar:34652023-02-14T19:25:09Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.pt_BR.fl_str_mv Erro perceptivo-auditivo de vozes humanas e sintetizadas
dc.title.alternative.en.fl_str_mv Perceptual error analysis of human and synthesized voices
title Erro perceptivo-auditivo de vozes humanas e sintetizadas
spellingShingle Erro perceptivo-auditivo de vozes humanas e sintetizadas
Englert, Marina Taborda [UNIFESP]
Voz
Distúrbios da voz
Percepção auditiva
Avaliação
Acústica da fala
Processamento de sinais
title_short Erro perceptivo-auditivo de vozes humanas e sintetizadas
title_full Erro perceptivo-auditivo de vozes humanas e sintetizadas
title_fullStr Erro perceptivo-auditivo de vozes humanas e sintetizadas
title_full_unstemmed Erro perceptivo-auditivo de vozes humanas e sintetizadas
title_sort Erro perceptivo-auditivo de vozes humanas e sintetizadas
author Englert, Marina Taborda [UNIFESP]
author_facet Englert, Marina Taborda [UNIFESP]
author_role author
dc.contributor.institution.pt_BR.fl_str_mv Universidade Federal de São Paulo (UNIFESP)
dc.contributor.authorLattes.none.fl_str_mv http://lattes.cnpq.br/3770270616197149
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/2274436726620746
dc.contributor.author.fl_str_mv Englert, Marina Taborda [UNIFESP]
dc.contributor.advisor1.fl_str_mv Behlau, Mara Suzana [UNIFESP]
contributor_str_mv Behlau, Mara Suzana [UNIFESP]
dc.subject.por.fl_str_mv Voz
Distúrbios da voz
Percepção auditiva
Avaliação
Acústica da fala
Processamento de sinais
topic Voz
Distúrbios da voz
Percepção auditiva
Avaliação
Acústica da fala
Processamento de sinais
description Introdução: A análise perceptivo-auditiva é considerada padrão ouro para avaliação das disfonias, apesar da reconhecida variabilidade inter-indivíduos. O uso de treinamento auditivo e estímulos âncora, especialmente com vozes sintetizadas, que têm propriedades acústicas conhecidas e manipuláveis, aumentam a confiabilidade dessa avaliação. No entanto, esses estímulos precisam soar naturais. Objetivo: Verificar a qualidade de vozes sintetizadas por meio da habilidade de fonoaudiólogos e leigos em discriminar vozes humanas e produzidas pelo sintetizador VoiceSim, com tipo e grau de desvio variados. Métodos: Foram selecionados 36 estímulos da emissão da vogal ?é? sustentada, 18 humanos e 18 sintetizados, em igual número por sexo. Vozes humanas: três fonoaudiólogos selecionaram amostras rugosas, soprosas e tensas, com diferentes graus de desvio, da database de uma clínica vocal. Amostras sintetizadas: empregado o sistema VoiceSim que produziu amostras com os mesmos desvios das vozes humanas, manipulando-se os parâmetros de perturbação de frequência para produzir rugosidade, adição de ruído para produzir soprosidade e aumento da tensão e diminuição da separação entre as pregas vocais para produzir tensão. Participaram como ouvintes 269 indivíduos, divididos em três grupos para comparar a percepção entre sujeitos com diferentes experiências auditivas; fonoaudiólogos especialistas em voz ? FV, fonoaudiólogos clínicos gerais - FG e leigos ? IL, todos identificaram as amostras, com 50% de repetição, como sendo humana ou sintetizada; FV e FG também classificaram o grau de desvio (normal, leve, moderado ou intenso) e tipo de voz predominante (rugosa, soprosa ou tensa). Desses 269 ouvintes, 99 foram excluídos por não serem consistentes; assim, mantiveram-se 170 sujeitos (58 FV, 51 FG e 61 IL). Resultados: Os ouvintes erraram 39,3% das identificações, tanto vozes sintetizadas foram identificadas como humanas (42,3%) como vozes humanas foram identificadas como sintetizadas (36,4%) com diferença estatisticamente significante (p=0,001). FV produziu a menor porcentagem de erros em relação à natureza das vozes (34,6%); FG e IL identificaram quase metade das vozes sintetizadas como humanas (46,9% e 45,6%). As vozes masculinas, humanas ou sintetizadas, foram mais suscetíveis a erro de identificação, independente do tipo ou grau de desvio, sendo que as soprosas sintetizadas foram as que geraram maior confusão perceptiva; as vozes com desvio intenso parecem ser mais suscetíveis a erro; vozes humanas femininas e tensas sintetizadas apresentaram menor porcentagem de erros. IL apresentou maior confusão perceptivo-auditiva que os demais grupos e FV identificou melhor as vozes sintetizadas. Os fonoaudiólogos classificaram corretamente quase todos os tipos de desvios vocais sintetizados nas vozes femininas; para as vozes masculinas isso aconteceu apenas para a rugosidade; a soprosidade e tensão masculinas foram classificados quase sempre como rugosidade. Houve fator de aprendizagem apenas no grupo FV, que identificou mais corretamente as últimas vozes apresentadas. Conclusão: O sintetizador mostrou-se bom, pois produziu vozes com caraterísticas muito similares às de pacientes disfônicos, confundindo todos os grupos de ouvintes. FV teve melhor habilidade em identificar corretamente a natureza das vozes provavelmente por ser o grupo dos especialistas. O sintetizador mostrou-se mais natural para simular o desvio vocal de soprosidade e simulou bem os tipos de desvios vocais femininos. No entanto, para a voz masculina, será necessário ajustar a simulação de soprosidade e tensão, que foram identificados como rugosidade.
publishDate 2016
dc.date.issued.fl_str_mv 2016-01-03
dc.date.accessioned.fl_str_mv 2018-07-30T11:53:56Z
dc.date.available.fl_str_mv 2018-07-30T11:53:56Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.pt_BR.fl_str_mv https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=3045826
dc.identifier.citation.fl_str_mv ENGLERT, Marina Taborda. Erro perceptivo-auditivo de vozes humanas e sintetizadas. 2016. 89 f. Dissertação (Mestrado em Distúrbios da Comunicação Humana: Fonoaudiologia) – Escola Paulista de Medicina, Universidade Federal de São Paulo, São Paulo, 2016.
dc.identifier.uri.fl_str_mv http://repositorio.unifesp.br/handle/11600/49044
dc.identifier.file.none.fl_str_mv 2016-0230.pdf
url https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=3045826
http://repositorio.unifesp.br/handle/11600/49044
identifier_str_mv ENGLERT, Marina Taborda. Erro perceptivo-auditivo de vozes humanas e sintetizadas. 2016. 89 f. Dissertação (Mestrado em Distúrbios da Comunicação Humana: Fonoaudiologia) – Escola Paulista de Medicina, Universidade Federal de São Paulo, São Paulo, 2016.
2016-0230.pdf
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 89 f.
dc.coverage.spatial.pt_BR.fl_str_mv São Paulo
dc.publisher.none.fl_str_mv Universidade Federal de São Paulo (UNIFESP)
publisher.none.fl_str_mv Universidade Federal de São Paulo (UNIFESP)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIFESP
instname:Universidade Federal de São Paulo (UNIFESP)
instacron:UNIFESP
instname_str Universidade Federal de São Paulo (UNIFESP)
instacron_str UNIFESP
institution UNIFESP
reponame_str Repositório Institucional da UNIFESP
collection Repositório Institucional da UNIFESP
bitstream.url.fl_str_mv ${dspace.ui.url}/bitstream/11600/49044/2/Marina%20Taborda%20Englert.pdf
bitstream.checksum.fl_str_mv 7cfd3f7070508626ff6e5eaa4056af76
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv
_version_ 1802764214662594560