Análise de medidas objetivas e da percepção auditiva da soprosidade vocal

Detalhes bibliográficos
Autor(a) principal: Joao Pedro Hallack Sansao
Data de Publicação: 2018
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/BUOS-B63JZV
Resumo: A análise da qualidade de voz é um campo vasto, que abrange áreas como ciência e tecnologia da fala, telecomunicações, fonética e fonoaudiologia. Ela visa complementar os exames de visualização das pregas vocais (como video-laringoscopia) na investigação da voz disfônica. Em geral, este tipo de distúrbio decorre de alterações que afetam tanto a estrutura anatômica das pregas vocais devido a lesões (nódulos, pólipos, etc.) quanto seu comportamento fonatório devido à tensão anormal nos músculos da região da laringe. A análise da voz disfônica é feita em duas modalidades: através do uso de medidas instrumentais do sinal acústico da voz como, por exemplo, a freqüência fundamental ciclo-a-ciclo, e usando a percepção auditiva, por meio de escalas perceptivas. Estas escalas surgem da rotulação (i.e. atribuição de adjetivos) de impressões observadas pelos ouvintes de uma determinada voz. A escala GRBAS (e variações) é a mais comumente utilizada no Brasil. Nela, os atributos estudados são a rugosidade (R), soprosidade (B), astenia (A), tensão (S) e a impressão geral ou grau (G). Atributos como os citados acima são subjetivos e, apesar de serem empregados clinicamente na avaliação de problemas na voz, ainda há diculdade no estabelecimento de escalas perceptivas consistentes entre ouvintes. Neste trabalho, escolheu-se o atributo perceptivo de soprosidade para estudo, uma característica percebida devido ao uxo turbulento gerado na glote ou devido ao escape de ar excessivo através de uma fenda. Diferentes graus de severidade são encontrados nos pacientes, varrendo de níveis leves de perturbação até casos extremos. O estudo da soprosidade vocal foi executado em duasfrentes: das medidasinstrumentais e dapercepção auditiva. Em relação às medidas instrumentais, desenvolveu-se uma plataforma para teste de variados métodos. Esta comparação de métodos consistiu em (i) avaliar amostras sintéticas de voz com relação sinal-ruído, jitter e shimmer controlados; e (ii) avaliar amostras de voz real predominantemente soprosas, avaliadas em trabalhos anteriores em uma escala perceptiva de 7 pontos. Foram testados métodos conhecidos da literatura, como a CPPS (cepstral peak prominence smoothed), SFR (spectral atness residue signal), HNR (harmonic-to-noise ratio) e S2NR (spectrographic signal-to-noise ratio), tendo sido este último método desenvolvido neste trabalho. Através deste estudo, determinou-se que os métodos que apresentam maior correlação entre medidas instrumentais e perceptiva são a CPPS e a S2NR. Notou-se também que a S2NR apresenta maior robustez a perturbações em freqüência e amplitude que a CPPS, sendo, neste critério, uma medida melhor de soprosidade. Em relação à percepção, o passo inicial foi a caracterização da psicofísica da soprosidade, relacionando as variações na dimensão física (nível de ruído glótico) e a escala perceptiva. Outro resultado foi a obtenção das mínimas diferenças perceptíveis na variação de intensidade de ruído. O objetivo seguinte deste trabalho foi estabelecer um método de classicação comparativo para a qualidade da voz soprosa, o qual exija mínimo treinamento e conhecimento prévio do julgador e que tenha a maior concordância intra-julgadores e inter-julgadores. Este método foi baseado na busca de elementos em uma árvore binária. A seqüência das comparações segue a estrutura da árvore, seguindo até não ser possível a distinção de diferenças ou atingir o último nível. Para tanto, são escolhidas amostras de referência (âncoras), que são comparadas às amostras em análise. As escolhas das âncoras e da profundidade da árvore de busca são feitas com base na psicofísica da soprosidade. Explora-se, deste modo, a natureza relativa do ouvido humano, em contraste com os métodos atuais de avaliação perceptiva, nos quais o ouvido é tratado como absoluto. No método desenvolvido, são escolhidas 3 ou 7 amostras-âncora, com relação sinal-ruído crescente, necessitando de 2 ou 3 comparações distintas para a avaliação de uma amostra de teste. Nos experimentos, utilizando vogais sintéticas e voz humana soprosa, a avaliação comparativa apresentou alta conabilidade inter-julgadores, mesmo com avaliadores inexperientes.
id UFMG_2893a9190bad7526be9510c95f72dc77
oai_identifier_str oai:repositorio.ufmg.br:1843/BUOS-B63JZV
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Maurilio Nunes VieiraHani Camille YehiaAdriano Vilela BarbosaAna Cristina Cortes GamaRafael Michelin LaboissiéreMiguel Arjona RamírezJoao Pedro Hallack Sansao2019-08-12T14:51:29Z2019-08-12T14:51:29Z2018-09-21http://hdl.handle.net/1843/BUOS-B63JZVA análise da qualidade de voz é um campo vasto, que abrange áreas como ciência e tecnologia da fala, telecomunicações, fonética e fonoaudiologia. Ela visa complementar os exames de visualização das pregas vocais (como video-laringoscopia) na investigação da voz disfônica. Em geral, este tipo de distúrbio decorre de alterações que afetam tanto a estrutura anatômica das pregas vocais devido a lesões (nódulos, pólipos, etc.) quanto seu comportamento fonatório devido à tensão anormal nos músculos da região da laringe. A análise da voz disfônica é feita em duas modalidades: através do uso de medidas instrumentais do sinal acústico da voz como, por exemplo, a freqüência fundamental ciclo-a-ciclo, e usando a percepção auditiva, por meio de escalas perceptivas. Estas escalas surgem da rotulação (i.e. atribuição de adjetivos) de impressões observadas pelos ouvintes de uma determinada voz. A escala GRBAS (e variações) é a mais comumente utilizada no Brasil. Nela, os atributos estudados são a rugosidade (R), soprosidade (B), astenia (A), tensão (S) e a impressão geral ou grau (G). Atributos como os citados acima são subjetivos e, apesar de serem empregados clinicamente na avaliação de problemas na voz, ainda há diculdade no estabelecimento de escalas perceptivas consistentes entre ouvintes. Neste trabalho, escolheu-se o atributo perceptivo de soprosidade para estudo, uma característica percebida devido ao uxo turbulento gerado na glote ou devido ao escape de ar excessivo através de uma fenda. Diferentes graus de severidade são encontrados nos pacientes, varrendo de níveis leves de perturbação até casos extremos. O estudo da soprosidade vocal foi executado em duasfrentes: das medidasinstrumentais e dapercepção auditiva. Em relação às medidas instrumentais, desenvolveu-se uma plataforma para teste de variados métodos. Esta comparação de métodos consistiu em (i) avaliar amostras sintéticas de voz com relação sinal-ruído, jitter e shimmer controlados; e (ii) avaliar amostras de voz real predominantemente soprosas, avaliadas em trabalhos anteriores em uma escala perceptiva de 7 pontos. Foram testados métodos conhecidos da literatura, como a CPPS (cepstral peak prominence smoothed), SFR (spectral atness residue signal), HNR (harmonic-to-noise ratio) e S2NR (spectrographic signal-to-noise ratio), tendo sido este último método desenvolvido neste trabalho. Através deste estudo, determinou-se que os métodos que apresentam maior correlação entre medidas instrumentais e perceptiva são a CPPS e a S2NR. Notou-se também que a S2NR apresenta maior robustez a perturbações em freqüência e amplitude que a CPPS, sendo, neste critério, uma medida melhor de soprosidade. Em relação à percepção, o passo inicial foi a caracterização da psicofísica da soprosidade, relacionando as variações na dimensão física (nível de ruído glótico) e a escala perceptiva. Outro resultado foi a obtenção das mínimas diferenças perceptíveis na variação de intensidade de ruído. O objetivo seguinte deste trabalho foi estabelecer um método de classicação comparativo para a qualidade da voz soprosa, o qual exija mínimo treinamento e conhecimento prévio do julgador e que tenha a maior concordância intra-julgadores e inter-julgadores. Este método foi baseado na busca de elementos em uma árvore binária. A seqüência das comparações segue a estrutura da árvore, seguindo até não ser possível a distinção de diferenças ou atingir o último nível. Para tanto, são escolhidas amostras de referência (âncoras), que são comparadas às amostras em análise. As escolhas das âncoras e da profundidade da árvore de busca são feitas com base na psicofísica da soprosidade. Explora-se, deste modo, a natureza relativa do ouvido humano, em contraste com os métodos atuais de avaliação perceptiva, nos quais o ouvido é tratado como absoluto. No método desenvolvido, são escolhidas 3 ou 7 amostras-âncora, com relação sinal-ruído crescente, necessitando de 2 ou 3 comparações distintas para a avaliação de uma amostra de teste. Nos experimentos, utilizando vogais sintéticas e voz humana soprosa, a avaliação comparativa apresentou alta conabilidade inter-julgadores, mesmo com avaliadores inexperientes.Voice quality is a vast eld, which covers the areas of speech science and technology, telecommunications, phonetics and speech therapy. It aims to complement vocal fold visualization exams (such as video-laryngoscopy) in the investigation of dysphonic voices. In general, this type of anomaly results from changes aecting vocal folds anatomy due to lesions (nodules, polyps, etc.) and phonatory behavior due to abnormal tension in the laryngeal muscles. Clinical voice analysis is usually done in two ways: through the use of instrumental measures of the acoustic signal, for example, fundamental frequency cycle-to-cycle perturbations, or by auditory perceptive scales. In the GRBAS scale, which is the most commonly used, the perceptual attributes are general (holistic) impression (G), roughness (R), breathiness (B), asthenia (A) and strain (S). Attributes such as those are subjective and, although widely used clinically in the evaluation of problems in the voice, there are still diculties in using them consistently. In this work, we chose the breathiness perceptual attribute, a characteristic perceived due to turbulentow generated in the glottis or due to excessive air escape through a slit. Dierent degrees of severity are found in patients, varying from mild disturbance levels to extreme cases. The study of vocal breathiness was performed on two fronts: instrumental measurements and auditory perception. Related to instrumental measures, a platform has been developed to test various methods. This method comparison consists of (i) evaluating synthetic samples of voice with known signal-to-noise ratios, jitter and shimmer; and (ii) to evaluate predominantly breathy real voice samples on a 7-point perceptual scale. Methods known from the literature, such as CPPS (cepstral peak prominence smoothed), SFR (spectral atness residue signal), HNR (harmonic-to-noise ratio) and S2NR (spectrographic signal-to-noise ratio) were tested, the latter method being developed in this work. In this study, it was determined that the methods that present the greatest correlation between acoustic (objective) and perceptive (subjective) measurements are CPPS and S2NR. It was also observed that the S2NR presents greater robustness to frequency and amplitude perturbations than CPPS, being, in this criterion, a better measure of breathiness. Regarding perception, the initial step was breathiness psychophysics characterization relating the variations in the physical dimension (glottal noise level) and the perceptive scale. Another result was to obtain the just noticeable dierences related to noise intensity variation. The next objective of this work was establishing a comparative classication method for voice quality, which would require raters minimal training and prior knowledge, and has high intra-rater and inter-rater agreement. This method was based on the search for elements in a binary tree. The sequence of comparisons follows the structure of the tree, following until it is not possible to distinguish dierences or reach the last level. To do so, reference samples (anchors) are chosen, which are compared to the samples under analysis. Choices of Anchors and search tree depth are made based in breathiness psychophysics. The relative nature of the human ear is thus explored in contrast to current methods of perceptual evaluation in which the ear is treated as absolute. In the developed method, 3 or 7 anchors were chosen, with increasing signal-to-noise ratio, requiring 2 or 3 dierent comparisons for a single voice sample evaluation. In the experiments, using synthetic vowels and human breathy voice, the comparative evaluation presented high inter-rater reliability, even with inexperienced evaluators.Universidade Federal de Minas GeraisUFMGDistúrbios da vozPercepção auditivaPsicofísicaEngenharia elétricaPsicofísicaCorrelatos acústicosPercepçãoRelação sinal-ruídoVoz disfônicaSoprosidade vocalAnálise de medidas objetivas e da percepção auditiva da soprosidade vocalinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtese_jphs.pdfapplication/pdf7058277https://repositorio.ufmg.br/bitstream/1843/BUOS-B63JZV/1/tese_jphs.pdf2e67f188e2c3d1e3794bc666e3456fefMD51TEXTtese_jphs.pdf.txttese_jphs.pdf.txtExtracted texttext/plain202904https://repositorio.ufmg.br/bitstream/1843/BUOS-B63JZV/2/tese_jphs.pdf.txt8f090cfc3430eccb51ad4200c7e9e2d1MD521843/BUOS-B63JZV2019-11-14 18:19:51.61oai:repositorio.ufmg.br:1843/BUOS-B63JZVRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T21:19:51Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Análise de medidas objetivas e da percepção auditiva da soprosidade vocal
title Análise de medidas objetivas e da percepção auditiva da soprosidade vocal
spellingShingle Análise de medidas objetivas e da percepção auditiva da soprosidade vocal
Joao Pedro Hallack Sansao
Psicofísica
Correlatos acústicos
Percepção
Relação sinal-ruído
Voz disfônica
Soprosidade vocal
Distúrbios da voz
Percepção auditiva
Psicofísica
Engenharia elétrica
title_short Análise de medidas objetivas e da percepção auditiva da soprosidade vocal
title_full Análise de medidas objetivas e da percepção auditiva da soprosidade vocal
title_fullStr Análise de medidas objetivas e da percepção auditiva da soprosidade vocal
title_full_unstemmed Análise de medidas objetivas e da percepção auditiva da soprosidade vocal
title_sort Análise de medidas objetivas e da percepção auditiva da soprosidade vocal
author Joao Pedro Hallack Sansao
author_facet Joao Pedro Hallack Sansao
author_role author
dc.contributor.advisor1.fl_str_mv Maurilio Nunes Vieira
dc.contributor.referee1.fl_str_mv Hani Camille Yehia
dc.contributor.referee2.fl_str_mv Adriano Vilela Barbosa
dc.contributor.referee3.fl_str_mv Ana Cristina Cortes Gama
dc.contributor.referee4.fl_str_mv Rafael Michelin Laboissiére
dc.contributor.referee5.fl_str_mv Miguel Arjona Ramírez
dc.contributor.author.fl_str_mv Joao Pedro Hallack Sansao
contributor_str_mv Maurilio Nunes Vieira
Hani Camille Yehia
Adriano Vilela Barbosa
Ana Cristina Cortes Gama
Rafael Michelin Laboissiére
Miguel Arjona Ramírez
dc.subject.por.fl_str_mv Psicofísica
Correlatos acústicos
Percepção
Relação sinal-ruído
Voz disfônica
Soprosidade vocal
topic Psicofísica
Correlatos acústicos
Percepção
Relação sinal-ruído
Voz disfônica
Soprosidade vocal
Distúrbios da voz
Percepção auditiva
Psicofísica
Engenharia elétrica
dc.subject.other.pt_BR.fl_str_mv Distúrbios da voz
Percepção auditiva
Psicofísica
Engenharia elétrica
description A análise da qualidade de voz é um campo vasto, que abrange áreas como ciência e tecnologia da fala, telecomunicações, fonética e fonoaudiologia. Ela visa complementar os exames de visualização das pregas vocais (como video-laringoscopia) na investigação da voz disfônica. Em geral, este tipo de distúrbio decorre de alterações que afetam tanto a estrutura anatômica das pregas vocais devido a lesões (nódulos, pólipos, etc.) quanto seu comportamento fonatório devido à tensão anormal nos músculos da região da laringe. A análise da voz disfônica é feita em duas modalidades: através do uso de medidas instrumentais do sinal acústico da voz como, por exemplo, a freqüência fundamental ciclo-a-ciclo, e usando a percepção auditiva, por meio de escalas perceptivas. Estas escalas surgem da rotulação (i.e. atribuição de adjetivos) de impressões observadas pelos ouvintes de uma determinada voz. A escala GRBAS (e variações) é a mais comumente utilizada no Brasil. Nela, os atributos estudados são a rugosidade (R), soprosidade (B), astenia (A), tensão (S) e a impressão geral ou grau (G). Atributos como os citados acima são subjetivos e, apesar de serem empregados clinicamente na avaliação de problemas na voz, ainda há diculdade no estabelecimento de escalas perceptivas consistentes entre ouvintes. Neste trabalho, escolheu-se o atributo perceptivo de soprosidade para estudo, uma característica percebida devido ao uxo turbulento gerado na glote ou devido ao escape de ar excessivo através de uma fenda. Diferentes graus de severidade são encontrados nos pacientes, varrendo de níveis leves de perturbação até casos extremos. O estudo da soprosidade vocal foi executado em duasfrentes: das medidasinstrumentais e dapercepção auditiva. Em relação às medidas instrumentais, desenvolveu-se uma plataforma para teste de variados métodos. Esta comparação de métodos consistiu em (i) avaliar amostras sintéticas de voz com relação sinal-ruído, jitter e shimmer controlados; e (ii) avaliar amostras de voz real predominantemente soprosas, avaliadas em trabalhos anteriores em uma escala perceptiva de 7 pontos. Foram testados métodos conhecidos da literatura, como a CPPS (cepstral peak prominence smoothed), SFR (spectral atness residue signal), HNR (harmonic-to-noise ratio) e S2NR (spectrographic signal-to-noise ratio), tendo sido este último método desenvolvido neste trabalho. Através deste estudo, determinou-se que os métodos que apresentam maior correlação entre medidas instrumentais e perceptiva são a CPPS e a S2NR. Notou-se também que a S2NR apresenta maior robustez a perturbações em freqüência e amplitude que a CPPS, sendo, neste critério, uma medida melhor de soprosidade. Em relação à percepção, o passo inicial foi a caracterização da psicofísica da soprosidade, relacionando as variações na dimensão física (nível de ruído glótico) e a escala perceptiva. Outro resultado foi a obtenção das mínimas diferenças perceptíveis na variação de intensidade de ruído. O objetivo seguinte deste trabalho foi estabelecer um método de classicação comparativo para a qualidade da voz soprosa, o qual exija mínimo treinamento e conhecimento prévio do julgador e que tenha a maior concordância intra-julgadores e inter-julgadores. Este método foi baseado na busca de elementos em uma árvore binária. A seqüência das comparações segue a estrutura da árvore, seguindo até não ser possível a distinção de diferenças ou atingir o último nível. Para tanto, são escolhidas amostras de referência (âncoras), que são comparadas às amostras em análise. As escolhas das âncoras e da profundidade da árvore de busca são feitas com base na psicofísica da soprosidade. Explora-se, deste modo, a natureza relativa do ouvido humano, em contraste com os métodos atuais de avaliação perceptiva, nos quais o ouvido é tratado como absoluto. No método desenvolvido, são escolhidas 3 ou 7 amostras-âncora, com relação sinal-ruído crescente, necessitando de 2 ou 3 comparações distintas para a avaliação de uma amostra de teste. Nos experimentos, utilizando vogais sintéticas e voz humana soprosa, a avaliação comparativa apresentou alta conabilidade inter-julgadores, mesmo com avaliadores inexperientes.
publishDate 2018
dc.date.issued.fl_str_mv 2018-09-21
dc.date.accessioned.fl_str_mv 2019-08-12T14:51:29Z
dc.date.available.fl_str_mv 2019-08-12T14:51:29Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/BUOS-B63JZV
url http://hdl.handle.net/1843/BUOS-B63JZV
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/BUOS-B63JZV/1/tese_jphs.pdf
https://repositorio.ufmg.br/bitstream/1843/BUOS-B63JZV/2/tese_jphs.pdf.txt
bitstream.checksum.fl_str_mv 2e67f188e2c3d1e3794bc666e3456fef
8f090cfc3430eccb51ad4200c7e9e2d1
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589146133921792