Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe

Detalhes bibliográficos
Autor(a) principal: Teixeira, Felipe
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10198/20525
Resumo: Este trabalho está relacionado com o estudo e utilização de um conjunto de ferramentas de machine learning, nomeadamente árvores de decisão, support vector machines (SVM’s), Deep-learning - Deep Neural Networks, com o prepósito de fazer a classificação entre fala patológica e fala normal, e identificar a patologia com estas ferramentas. As patologias utilizadas neste estudo são a laringite crónica, disfonia e paralisia das cordas vocais. Utilizou-se a base de dados Alemã Saarbrucken Voice Database (SVD), que se encontra disponível online de forma gratuita pelo Instituto de Fonética da Universidade de Saarland. Nesta base de dados é possível encontrar sinais de voz, entre saudáveis e patológicos de mais de 2000 sujeitos. Foram utilizados três grupos de parâmetros, o grupo I (a), contêm parâmetros como Jitter relativo, Shimmer relativo e Harmonic to Noise Ratio (HNR), determinados em segmentos de fala estacionária, onde se atingiu 80.7% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo I (b), contêm os parâmetros do grupo I(a), Noise to Harmonic Ratio (NHR) e Autocorrelação determinados em segmentos de fala estacionária, onde se atingiu 79.2% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo II é baseado em Mel Frequency Cepstral Coefficientes (MFCC’s), determinados nos segmentos de fala estacionários, onde se atingiu 83.3% de exatidão para distinguir saudáveis e laringite com SVM. O grupo III é formado por coeficientes MFCC’s extraídos de fala contínua onde se atingiu 71% de exatidão para distinguir saudáveis e patológicos com Redes Neuronais. Realizou-se uma análise estatística referente aos parâmetros do grupo I (b), com o propósito de identificar características únicas em determinados parâmetros, que permitissem diferenciar as patologias. No decorrer deste trabalho, embora não fosse objetivo inicial, deu-se início a elaboração de um “software” protótipo para fazer gravação de voz, extração de parâmetros e classificação da patologia.
id RCAP_40231940d0e0df34fff68e09166453ce
oai_identifier_str oai:bibliotecadigital.ipb.pt:10198/20525
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Utilização de ferramentas de machine learning no diagnóstico de patologias da laringeMachine learningDeep learningPatologiasDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaEste trabalho está relacionado com o estudo e utilização de um conjunto de ferramentas de machine learning, nomeadamente árvores de decisão, support vector machines (SVM’s), Deep-learning - Deep Neural Networks, com o prepósito de fazer a classificação entre fala patológica e fala normal, e identificar a patologia com estas ferramentas. As patologias utilizadas neste estudo são a laringite crónica, disfonia e paralisia das cordas vocais. Utilizou-se a base de dados Alemã Saarbrucken Voice Database (SVD), que se encontra disponível online de forma gratuita pelo Instituto de Fonética da Universidade de Saarland. Nesta base de dados é possível encontrar sinais de voz, entre saudáveis e patológicos de mais de 2000 sujeitos. Foram utilizados três grupos de parâmetros, o grupo I (a), contêm parâmetros como Jitter relativo, Shimmer relativo e Harmonic to Noise Ratio (HNR), determinados em segmentos de fala estacionária, onde se atingiu 80.7% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo I (b), contêm os parâmetros do grupo I(a), Noise to Harmonic Ratio (NHR) e Autocorrelação determinados em segmentos de fala estacionária, onde se atingiu 79.2% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo II é baseado em Mel Frequency Cepstral Coefficientes (MFCC’s), determinados nos segmentos de fala estacionários, onde se atingiu 83.3% de exatidão para distinguir saudáveis e laringite com SVM. O grupo III é formado por coeficientes MFCC’s extraídos de fala contínua onde se atingiu 71% de exatidão para distinguir saudáveis e patológicos com Redes Neuronais. Realizou-se uma análise estatística referente aos parâmetros do grupo I (b), com o propósito de identificar características únicas em determinados parâmetros, que permitissem diferenciar as patologias. No decorrer deste trabalho, embora não fosse objetivo inicial, deu-se início a elaboração de um “software” protótipo para fazer gravação de voz, extração de parâmetros e classificação da patologia.This work is related to the study and use of a set of machine learning tools, namely decision trees, Support Vector Machines (SVM's), Deep learning - Deep Neural Networks (neural networks), with the purpose of classifying speech pathological and normal speech, and to identify the pathology with these tools. The pathologies used in this study are chronic laryngitis, dysphonia and vocal cord paralysis. We use the database of the German Saarbrucken Voice Database (SVD), which is available online for free at the Institute of Phonetics at the University of Saarland. In this database it is possible to find voice signals between healthy and pathological of more than 2000 subjects. Three groups of parameters were used, the first one is the group I (a) contains parameters such as Relative Jitter, Relative Shimmer and Harmonic to Noise Ratio (HNR), determined in stationary speech segments, where 80.7% accuracy was achieved to distinguish healthy and pathologies. The group I (b), contain parameters like Relative Jitter, Relative Shimmer, HNR, Noise to Harmonic Ratio (NHR) and Autocorrelation determined in segments of stationary speech, where it obtained 79.2% accuracy to distinguish healthy and pathological patients with SVM. Group II is based on Mel Frequency Cepstral Coefficients (MFCC's), determined in stationary speech segments, where it obtained 83.3% accuracy to distinguish the healthy and laryngitis with SVM. Group III is formed by MFCC coefficients, extracted from continuous speech, where it reached 71% of accuracy to distinguish healthy and pathologies with Neuronal Networks. The statistical study concerning the parameters of group I (b) was performed, in which three 'a', 'i' and 'u' vowels were analyzed in three differents tones: high, low and normal. The statistical study was performed with the purpose of detecting unique characteristics in certain parameters, which allowed to distinguish the pathologies used in this dissertation. In the course of this work, although it was not an initial objective, Started the development of prototype software to make voice recording, parameter extraction and classification of the pathology.Este trabajo está relacionado con el estudio y utilización de un conjunto de herramientas de machine learning, dígase árboles de decisión, support vector machines, Deep learning- Deep Neural Networks (redes neuronales), con el propósito de hacer la clasificación entre habla patológica y habla normal e identificar la patología con estas herramientas. Las patologías utilizadas en este estudio son la laringitis crónica, disfonía y parálisis de las cuerdas vocales. Se ha utilizado la base de datos alemana Saarbrucken Voice Database (SVD), que se encuentra disponible online de forma gratuita por el Instituto de Fonética de la Universidad de Saarland. En esta base de datos es posible encontrar señales de voz, entre saludables y patológicos de más de 2000 sujetos. Se han analizado tres grupos de parámetros, el grupo I(a) contiene parámetros como Jitter relativo, Shimmer relativo, HNR, determinados en segmentos de habla estacionaria, alcanzaron una precisión del 80.7% para distinguir entre sano y patológico. El grupo I(b), contiene parámetros como Jitter relativo, Shimmer relativo, HNR, NHR y Autocorrelación, determinados en segmentos de habla estacionaria, donde se alcanzó una precisión del 79,2% para distinguir sanos y patológicos con la SVM. O grupo II está basado en coeficientes MFCC’s, determinados en segmentos de habla estacionaria, donde se logró una precisión del 83.3% para distinguir los sanos y la laringitis con SVM. El grupo III está formado por coeficientes MFCC extraídos del habla continua, que alcanzaron el 71% de precisión para distinguir los sanos y patológicas con Redes neuronales. Se ha realizado el estudio estadístico referente a los parámetros del grupo I(b), cuyas 3 vocales “a”, “i” y “u” en tres tonos disponibles alto, bajo y normal fueron analizadas. el estudio estadístico se ha realizado con el propósito de detectar características únicas en determinados parámetros, que permitieran diferenciar las patologías utilizadas en esta disertación. En el transcurso de este trabajo, aunque no fuera el objetivo inicial, se dió inicio a la elaboración de un “software” prototipo para hacer grabación de voz, extracción de parámetros y clasificación de la patología.Teixeira, João PauloBiblioteca Digital do IPBTeixeira, Felipe2020-02-03T10:23:17Z201920182019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10198/20525TID:202400352porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-06T01:20:33Zoai:bibliotecadigital.ipb.pt:10198/20525Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:11:22.448887Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
title Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
spellingShingle Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
Teixeira, Felipe
Machine learning
Deep learning
Patologias
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
title_full Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
title_fullStr Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
title_full_unstemmed Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
title_sort Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
author Teixeira, Felipe
author_facet Teixeira, Felipe
author_role author
dc.contributor.none.fl_str_mv Teixeira, João Paulo
Biblioteca Digital do IPB
dc.contributor.author.fl_str_mv Teixeira, Felipe
dc.subject.por.fl_str_mv Machine learning
Deep learning
Patologias
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Machine learning
Deep learning
Patologias
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Este trabalho está relacionado com o estudo e utilização de um conjunto de ferramentas de machine learning, nomeadamente árvores de decisão, support vector machines (SVM’s), Deep-learning - Deep Neural Networks, com o prepósito de fazer a classificação entre fala patológica e fala normal, e identificar a patologia com estas ferramentas. As patologias utilizadas neste estudo são a laringite crónica, disfonia e paralisia das cordas vocais. Utilizou-se a base de dados Alemã Saarbrucken Voice Database (SVD), que se encontra disponível online de forma gratuita pelo Instituto de Fonética da Universidade de Saarland. Nesta base de dados é possível encontrar sinais de voz, entre saudáveis e patológicos de mais de 2000 sujeitos. Foram utilizados três grupos de parâmetros, o grupo I (a), contêm parâmetros como Jitter relativo, Shimmer relativo e Harmonic to Noise Ratio (HNR), determinados em segmentos de fala estacionária, onde se atingiu 80.7% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo I (b), contêm os parâmetros do grupo I(a), Noise to Harmonic Ratio (NHR) e Autocorrelação determinados em segmentos de fala estacionária, onde se atingiu 79.2% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo II é baseado em Mel Frequency Cepstral Coefficientes (MFCC’s), determinados nos segmentos de fala estacionários, onde se atingiu 83.3% de exatidão para distinguir saudáveis e laringite com SVM. O grupo III é formado por coeficientes MFCC’s extraídos de fala contínua onde se atingiu 71% de exatidão para distinguir saudáveis e patológicos com Redes Neuronais. Realizou-se uma análise estatística referente aos parâmetros do grupo I (b), com o propósito de identificar características únicas em determinados parâmetros, que permitissem diferenciar as patologias. No decorrer deste trabalho, embora não fosse objetivo inicial, deu-se início a elaboração de um “software” protótipo para fazer gravação de voz, extração de parâmetros e classificação da patologia.
publishDate 2018
dc.date.none.fl_str_mv 2018
2019
2019-01-01T00:00:00Z
2020-02-03T10:23:17Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10198/20525
TID:202400352
url http://hdl.handle.net/10198/20525
identifier_str_mv TID:202400352
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1817552825993920512