Utilização de medidas de previsibilidade em sinais de voz para discriminação de patologias de laringe

Detalhes bibliográficos
Autor(a) principal: Scalassara, Paulo Rogério
Data de Publicação: 2009
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/18/18152/tde-03122009-085230/
Resumo: Este trabalho apresenta um estudo inicial da aplicação de medidas de previsibilidade em sinais de voz. O objetivo é desenvolver métodos que sejam capazes de diferenciar sinais saudáveis e patológicos, inclusive separar patologias. Para isso, tenta-se medir a variação da incerteza e previsibilidade entre os sinais de voz dos grupos analisados. Algumas patologias de laringe, como nódulo e edema de Reinke, usadas neste estudo, causam modificações nos sinais de voz devido a mudanças na estrutura e funcionalidade do trato e pregas vocais. Nos casos patológicos, tem-se, principalmente, aumento de perturbações de freqüência e amplitude, adição de ruído e supressão de componentes harmônicos de alta freqüência da voz. Por causa disso, observa-se perda da estrutura quase-periódica dos sinais, aumentando-se a incerteza do sistema vocal e, portanto, diminuição de sua previsibilidade. Para avaliar essas mudanças, usam-se medidas de entropia de Shannon e entropia relativa entre os sinais saudáveis e patológicos. Além dessas, tem-se a potência de previsão (PP), a qual é uma medida baseada na entropia relativa entre o sinal de voz e seu erro de previsão obtido por um modelo. Inicialmente, optou-se pelo modelo autorregressivo (AR), consagrado em análise de voz, porém, devido a resultados não satisfatórios, apresentou-se um modelo baseado em decomposições por wavelets. Outra ferramenta utilizada foi a chamada análise de componentes previsíveis (PrCA), a qual realiza uma decomposição dos sinais em componentes ordenados por sua previsibilidade, sendo possível reconstruí-los usando somente os componentes mais previsíveis. Também, com essa técnica, analisaram-se representações tridimensionais dos sinais de voz em um espaço cujas coordenadas são dadas por versões atrasadas dos próprios sinais. Os algoritmos desenvolvidos foram testados com o auxílio de sinais de voz simulados, os quais possuíam variações de nível de ruído e perturbações de amplitude e freqüência. Com isso, foi possível detectar erros e solucionar problemas com os métodos. Após a avaliação dos algoritmos, estimou-se os valores de entropia dos sinais de voz, a entropia relativa entre os sinais saudáveis e os sinais dos grupos analisados, além de se calcular a PP usando o modelo AR e o modelo por wavelets. Por fim, utilizou-se a PrCA para obtenção de versões mais previsíveis dos sinais, então, calculando-se a PP para esses casos usando essa versão como previsão dos sinais. Aplicou-se, também, a PrCA para as representações tridimensionais dos sinais usando um modelamento AR multidimensional para obtenção de previsões. Com os ensaios de entropia dos sinais de voz, não foi possível diferenciar os grupos, mas com os resultados de entropia relativa, conseguiu-se distinguir eficientemente os sinais patológicos dos saudáveis. Porém, essa medida não possui muita aplicação prática, isso pois é necessário um banco de vozes diagnosticadas para servir de comparação. Nos ensaios de PP usando modelo AR, também não foi possível diferenciar os grupos, no entanto, com o modelo wavelet, os sinais saudáveis apresentaram significativamente maior previsibilidade do que os patológicos, mas, mesmo assim, não se conseguiu diferenciar as patologias. Com a PrCA, utilizando-se ambos os modelos, foi possível diferenciar os grupos patológicos do saudável, porém, frente ao modelo AR, os sinais saudáveis apresentaram menor previsibilidade. Isso demonstra que a previsibilidade depende do modelo usado para a análise, assim, as patologias da laringe podem diminuir ou aumentar a capacidade de previsão dos sinais de voz conforme o modelo usado. Com a avaliação dos resultados de PrCA das representações tridimensionais, tem-se comportamento semelhante ao obtido pela análise direta nos sinais de voz com o modelo AR, entretanto, essa forma e representação dos dados mostra se promissora em estudos futuros. Com esses ensaios, concluiu-se que este estudo foi muito útil para um maior conhecimento da dinâmica da produção vocal e que as medidas de previsibilidade são interessantes para avaliação de patologias da laringe, em especial, a presença de nódulo nas pregas vocais e edema de Reinke, pelo menos nestes estudos iniciais e usando os sinais de voz disponíveis. Mais estudos ainda são necessários, entretanto essa forma de análise já apresenta bons resultados, os quais podem ser aplicados para auxiliar o diagnóstico de disfonias por profissionais da saúde.
id USP_abbb0d336631a215e2cd56d4de1dab85
oai_identifier_str oai:teses.usp.br:tde-03122009-085230
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Utilização de medidas de previsibilidade em sinais de voz para discriminação de patologias de laringeApplication of predictability measures to voice signals for larynx pathology differentiationAnálise de componentes previsíveisEdema de ReinkeEntropiaEntropyNoduleNóduloPathologyPatologiaPotência de previsãoPredictabilityPredictable component analysisPredictive powerPrevisibilidadeReinke's edemaVoiceVozEste trabalho apresenta um estudo inicial da aplicação de medidas de previsibilidade em sinais de voz. O objetivo é desenvolver métodos que sejam capazes de diferenciar sinais saudáveis e patológicos, inclusive separar patologias. Para isso, tenta-se medir a variação da incerteza e previsibilidade entre os sinais de voz dos grupos analisados. Algumas patologias de laringe, como nódulo e edema de Reinke, usadas neste estudo, causam modificações nos sinais de voz devido a mudanças na estrutura e funcionalidade do trato e pregas vocais. Nos casos patológicos, tem-se, principalmente, aumento de perturbações de freqüência e amplitude, adição de ruído e supressão de componentes harmônicos de alta freqüência da voz. Por causa disso, observa-se perda da estrutura quase-periódica dos sinais, aumentando-se a incerteza do sistema vocal e, portanto, diminuição de sua previsibilidade. Para avaliar essas mudanças, usam-se medidas de entropia de Shannon e entropia relativa entre os sinais saudáveis e patológicos. Além dessas, tem-se a potência de previsão (PP), a qual é uma medida baseada na entropia relativa entre o sinal de voz e seu erro de previsão obtido por um modelo. Inicialmente, optou-se pelo modelo autorregressivo (AR), consagrado em análise de voz, porém, devido a resultados não satisfatórios, apresentou-se um modelo baseado em decomposições por wavelets. Outra ferramenta utilizada foi a chamada análise de componentes previsíveis (PrCA), a qual realiza uma decomposição dos sinais em componentes ordenados por sua previsibilidade, sendo possível reconstruí-los usando somente os componentes mais previsíveis. Também, com essa técnica, analisaram-se representações tridimensionais dos sinais de voz em um espaço cujas coordenadas são dadas por versões atrasadas dos próprios sinais. Os algoritmos desenvolvidos foram testados com o auxílio de sinais de voz simulados, os quais possuíam variações de nível de ruído e perturbações de amplitude e freqüência. Com isso, foi possível detectar erros e solucionar problemas com os métodos. Após a avaliação dos algoritmos, estimou-se os valores de entropia dos sinais de voz, a entropia relativa entre os sinais saudáveis e os sinais dos grupos analisados, além de se calcular a PP usando o modelo AR e o modelo por wavelets. Por fim, utilizou-se a PrCA para obtenção de versões mais previsíveis dos sinais, então, calculando-se a PP para esses casos usando essa versão como previsão dos sinais. Aplicou-se, também, a PrCA para as representações tridimensionais dos sinais usando um modelamento AR multidimensional para obtenção de previsões. Com os ensaios de entropia dos sinais de voz, não foi possível diferenciar os grupos, mas com os resultados de entropia relativa, conseguiu-se distinguir eficientemente os sinais patológicos dos saudáveis. Porém, essa medida não possui muita aplicação prática, isso pois é necessário um banco de vozes diagnosticadas para servir de comparação. Nos ensaios de PP usando modelo AR, também não foi possível diferenciar os grupos, no entanto, com o modelo wavelet, os sinais saudáveis apresentaram significativamente maior previsibilidade do que os patológicos, mas, mesmo assim, não se conseguiu diferenciar as patologias. Com a PrCA, utilizando-se ambos os modelos, foi possível diferenciar os grupos patológicos do saudável, porém, frente ao modelo AR, os sinais saudáveis apresentaram menor previsibilidade. Isso demonstra que a previsibilidade depende do modelo usado para a análise, assim, as patologias da laringe podem diminuir ou aumentar a capacidade de previsão dos sinais de voz conforme o modelo usado. Com a avaliação dos resultados de PrCA das representações tridimensionais, tem-se comportamento semelhante ao obtido pela análise direta nos sinais de voz com o modelo AR, entretanto, essa forma e representação dos dados mostra se promissora em estudos futuros. Com esses ensaios, concluiu-se que este estudo foi muito útil para um maior conhecimento da dinâmica da produção vocal e que as medidas de previsibilidade são interessantes para avaliação de patologias da laringe, em especial, a presença de nódulo nas pregas vocais e edema de Reinke, pelo menos nestes estudos iniciais e usando os sinais de voz disponíveis. Mais estudos ainda são necessários, entretanto essa forma de análise já apresenta bons resultados, os quais podem ser aplicados para auxiliar o diagnóstico de disfonias por profissionais da saúde.This thesis presents initial studies of the application of predictability measures to voice signal analysis. Its aim is to develop methods that are capable of differentiating healthy and pathological signals, also amongst pathologies. In order to do that, we perform an attempt to measure the uncertainty and predictability variations of the signals from the analyzed groups. Some larynx pathologies, such as nodule and Reinkes edema, that are used in this study, cause changes to the voice signals due to structure and functionality modifications of the vocal tract and folds. The main modifications are higher amplitude and frequency perturbations, noise addition, and supression of high frequency harmonic components. Because of that, the signals lose some of their almost periodic structure, the vocal system\'s uncertainty increases and, therefore, the predictability decreases. We use several measures to evaluate these changes, such as Shannons entropy and relative entropy between healthy and pathological signals. In addition, we use the predictive power (PP), that is based on the relative entropy between the voice signal and its prediction error given by a model. Firstly, we used the autoregressive model (AR), common for voice analysis, however, due to unsatisfactory results, we presented a model based on wavelet decomposition. We also took advantage of another tool, called predictable component analysis (PrCA), it performs a signal decomposition in components that are ordered by their predictability. Then it is possible to reconstruct the signals using only their most predictable components. Using this technique, we analyzed a kind of tridimensional representation of the voice signals in a space with coordinates given by delayed versions of the signals. We tested the developed algorithms with the aid of simulated voice signals, which had variations of noise level and amplitude and frequency perturbations. By means of that, it was possible to detect errors and solve method problems. After the algorithms evaluation, we estimated the entropy of the voice signals and the relative entropy between the healthy signals and all the signals. In addition, we estimated the PP using the AR and wavelet based models. After that, we used the PrCA in order to obtain more predictable versions of the signals and then, estimated the PP using this version as the signals prediction. Also, we applied the PrCA to the signals tridimensional representations using a multidimensional AR model as a predictor. Using the voice entropy results, we could not distinguish between the analyzed groups, but with the relative entropy values, the healthy and pathological signals were differentiated efficiently. In spite of that, this measure has no practical application, because a diagnosed voice database is necessary as a basis of comparison. For the PP with AR modeling, no distinction between the groups is observed, but with the wavelet modeling, the healthy signals showed significantly higher predictability than the pathological ones, however the pathologies were differentiated. Using the PrCA with both models, the pathological and healthy groups were distinguished, but for the AR model, the healthy signals presented smaller predictability. This shows that the predictability depends on the analysis model, thus the larynx pathologies can decrease or increase the prediction capacity of the voice signals according to the used model. The results of PrCA of the tridimensional representations show similar behavior of the ones from direct PrCA signal analisys with the AR model. Despite of these results, this form of data representation seems to be promising for future studies. Considering these results, we concluded that this study was very useful to acquire a better understanding of the dynamics of voice production and that the predictability measures are interesting for the evaluation of larynx pathologies, especially presence of nodule in the vocal folds and Reinke\'s edema, at least for this initial study using the available signals. More studies are still necessary, but this analysis method already presents good results, which can be applied to aid pathology diagnosis by health professionals.Biblioteca Digitais de Teses e Dissertações da USPPereira, José CarlosScalassara, Paulo Rogério2009-11-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/18/18152/tde-03122009-085230/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T13:16:04Zoai:teses.usp.br:tde-03122009-085230Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T13:16:04Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Utilização de medidas de previsibilidade em sinais de voz para discriminação de patologias de laringe
Application of predictability measures to voice signals for larynx pathology differentiation
title Utilização de medidas de previsibilidade em sinais de voz para discriminação de patologias de laringe
spellingShingle Utilização de medidas de previsibilidade em sinais de voz para discriminação de patologias de laringe
Scalassara, Paulo Rogério
Análise de componentes previsíveis
Edema de Reinke
Entropia
Entropy
Nodule
Nódulo
Pathology
Patologia
Potência de previsão
Predictability
Predictable component analysis
Predictive power
Previsibilidade
Reinke's edema
Voice
Voz
title_short Utilização de medidas de previsibilidade em sinais de voz para discriminação de patologias de laringe
title_full Utilização de medidas de previsibilidade em sinais de voz para discriminação de patologias de laringe
title_fullStr Utilização de medidas de previsibilidade em sinais de voz para discriminação de patologias de laringe
title_full_unstemmed Utilização de medidas de previsibilidade em sinais de voz para discriminação de patologias de laringe
title_sort Utilização de medidas de previsibilidade em sinais de voz para discriminação de patologias de laringe
author Scalassara, Paulo Rogério
author_facet Scalassara, Paulo Rogério
author_role author
dc.contributor.none.fl_str_mv Pereira, José Carlos
dc.contributor.author.fl_str_mv Scalassara, Paulo Rogério
dc.subject.por.fl_str_mv Análise de componentes previsíveis
Edema de Reinke
Entropia
Entropy
Nodule
Nódulo
Pathology
Patologia
Potência de previsão
Predictability
Predictable component analysis
Predictive power
Previsibilidade
Reinke's edema
Voice
Voz
topic Análise de componentes previsíveis
Edema de Reinke
Entropia
Entropy
Nodule
Nódulo
Pathology
Patologia
Potência de previsão
Predictability
Predictable component analysis
Predictive power
Previsibilidade
Reinke's edema
Voice
Voz
description Este trabalho apresenta um estudo inicial da aplicação de medidas de previsibilidade em sinais de voz. O objetivo é desenvolver métodos que sejam capazes de diferenciar sinais saudáveis e patológicos, inclusive separar patologias. Para isso, tenta-se medir a variação da incerteza e previsibilidade entre os sinais de voz dos grupos analisados. Algumas patologias de laringe, como nódulo e edema de Reinke, usadas neste estudo, causam modificações nos sinais de voz devido a mudanças na estrutura e funcionalidade do trato e pregas vocais. Nos casos patológicos, tem-se, principalmente, aumento de perturbações de freqüência e amplitude, adição de ruído e supressão de componentes harmônicos de alta freqüência da voz. Por causa disso, observa-se perda da estrutura quase-periódica dos sinais, aumentando-se a incerteza do sistema vocal e, portanto, diminuição de sua previsibilidade. Para avaliar essas mudanças, usam-se medidas de entropia de Shannon e entropia relativa entre os sinais saudáveis e patológicos. Além dessas, tem-se a potência de previsão (PP), a qual é uma medida baseada na entropia relativa entre o sinal de voz e seu erro de previsão obtido por um modelo. Inicialmente, optou-se pelo modelo autorregressivo (AR), consagrado em análise de voz, porém, devido a resultados não satisfatórios, apresentou-se um modelo baseado em decomposições por wavelets. Outra ferramenta utilizada foi a chamada análise de componentes previsíveis (PrCA), a qual realiza uma decomposição dos sinais em componentes ordenados por sua previsibilidade, sendo possível reconstruí-los usando somente os componentes mais previsíveis. Também, com essa técnica, analisaram-se representações tridimensionais dos sinais de voz em um espaço cujas coordenadas são dadas por versões atrasadas dos próprios sinais. Os algoritmos desenvolvidos foram testados com o auxílio de sinais de voz simulados, os quais possuíam variações de nível de ruído e perturbações de amplitude e freqüência. Com isso, foi possível detectar erros e solucionar problemas com os métodos. Após a avaliação dos algoritmos, estimou-se os valores de entropia dos sinais de voz, a entropia relativa entre os sinais saudáveis e os sinais dos grupos analisados, além de se calcular a PP usando o modelo AR e o modelo por wavelets. Por fim, utilizou-se a PrCA para obtenção de versões mais previsíveis dos sinais, então, calculando-se a PP para esses casos usando essa versão como previsão dos sinais. Aplicou-se, também, a PrCA para as representações tridimensionais dos sinais usando um modelamento AR multidimensional para obtenção de previsões. Com os ensaios de entropia dos sinais de voz, não foi possível diferenciar os grupos, mas com os resultados de entropia relativa, conseguiu-se distinguir eficientemente os sinais patológicos dos saudáveis. Porém, essa medida não possui muita aplicação prática, isso pois é necessário um banco de vozes diagnosticadas para servir de comparação. Nos ensaios de PP usando modelo AR, também não foi possível diferenciar os grupos, no entanto, com o modelo wavelet, os sinais saudáveis apresentaram significativamente maior previsibilidade do que os patológicos, mas, mesmo assim, não se conseguiu diferenciar as patologias. Com a PrCA, utilizando-se ambos os modelos, foi possível diferenciar os grupos patológicos do saudável, porém, frente ao modelo AR, os sinais saudáveis apresentaram menor previsibilidade. Isso demonstra que a previsibilidade depende do modelo usado para a análise, assim, as patologias da laringe podem diminuir ou aumentar a capacidade de previsão dos sinais de voz conforme o modelo usado. Com a avaliação dos resultados de PrCA das representações tridimensionais, tem-se comportamento semelhante ao obtido pela análise direta nos sinais de voz com o modelo AR, entretanto, essa forma e representação dos dados mostra se promissora em estudos futuros. Com esses ensaios, concluiu-se que este estudo foi muito útil para um maior conhecimento da dinâmica da produção vocal e que as medidas de previsibilidade são interessantes para avaliação de patologias da laringe, em especial, a presença de nódulo nas pregas vocais e edema de Reinke, pelo menos nestes estudos iniciais e usando os sinais de voz disponíveis. Mais estudos ainda são necessários, entretanto essa forma de análise já apresenta bons resultados, os quais podem ser aplicados para auxiliar o diagnóstico de disfonias por profissionais da saúde.
publishDate 2009
dc.date.none.fl_str_mv 2009-11-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/18/18152/tde-03122009-085230/
url http://www.teses.usp.br/teses/disponiveis/18/18152/tde-03122009-085230/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1826319216380215296