Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe

Teixeira, Felipe

Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe

Detalhes bibliográficos
Autor(a) principal:	Teixeira, Felipe
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10198/20525
Resumo:	Este trabalho está relacionado com o estudo e utilização de um conjunto de ferramentas de machine learning, nomeadamente árvores de decisão, support vector machines (SVM’s), Deep-learning - Deep Neural Networks, com o prepósito de fazer a classificação entre fala patológica e fala normal, e identificar a patologia com estas ferramentas. As patologias utilizadas neste estudo são a laringite crónica, disfonia e paralisia das cordas vocais. Utilizou-se a base de dados Alemã Saarbrucken Voice Database (SVD), que se encontra disponível online de forma gratuita pelo Instituto de Fonética da Universidade de Saarland. Nesta base de dados é possível encontrar sinais de voz, entre saudáveis e patológicos de mais de 2000 sujeitos. Foram utilizados três grupos de parâmetros, o grupo I (a), contêm parâmetros como Jitter relativo, Shimmer relativo e Harmonic to Noise Ratio (HNR), determinados em segmentos de fala estacionária, onde se atingiu 80.7% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo I (b), contêm os parâmetros do grupo I(a), Noise to Harmonic Ratio (NHR) e Autocorrelação determinados em segmentos de fala estacionária, onde se atingiu 79.2% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo II é baseado em Mel Frequency Cepstral Coefficientes (MFCC’s), determinados nos segmentos de fala estacionários, onde se atingiu 83.3% de exatidão para distinguir saudáveis e laringite com SVM. O grupo III é formado por coeficientes MFCC’s extraídos de fala contínua onde se atingiu 71% de exatidão para distinguir saudáveis e patológicos com Redes Neuronais. Realizou-se uma análise estatística referente aos parâmetros do grupo I (b), com o propósito de identificar características únicas em determinados parâmetros, que permitissem diferenciar as patologias. No decorrer deste trabalho, embora não fosse objetivo inicial, deu-se início a elaboração de um “software” protótipo para fazer gravação de voz, extração de parâmetros e classificação da patologia.

Metadados do item

id	RCAP_40231940d0e0df34fff68e09166453ce
oai_identifier_str	oai:bibliotecadigital.ipb.pt:10198/20525
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Utilização de ferramentas de machine learning no diagnóstico de patologias da laringeMachine learningDeep learningPatologiasDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaEste trabalho está relacionado com o estudo e utilização de um conjunto de ferramentas de machine learning, nomeadamente árvores de decisão, support vector machines (SVM’s), Deep-learning - Deep Neural Networks, com o prepósito de fazer a classificação entre fala patológica e fala normal, e identificar a patologia com estas ferramentas. As patologias utilizadas neste estudo são a laringite crónica, disfonia e paralisia das cordas vocais. Utilizou-se a base de dados Alemã Saarbrucken Voice Database (SVD), que se encontra disponível online de forma gratuita pelo Instituto de Fonética da Universidade de Saarland. Nesta base de dados é possível encontrar sinais de voz, entre saudáveis e patológicos de mais de 2000 sujeitos. Foram utilizados três grupos de parâmetros, o grupo I (a), contêm parâmetros como Jitter relativo, Shimmer relativo e Harmonic to Noise Ratio (HNR), determinados em segmentos de fala estacionária, onde se atingiu 80.7% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo I (b), contêm os parâmetros do grupo I(a), Noise to Harmonic Ratio (NHR) e Autocorrelação determinados em segmentos de fala estacionária, onde se atingiu 79.2% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo II é baseado em Mel Frequency Cepstral Coefficientes (MFCC’s), determinados nos segmentos de fala estacionários, onde se atingiu 83.3% de exatidão para distinguir saudáveis e laringite com SVM. O grupo III é formado por coeficientes MFCC’s extraídos de fala contínua onde se atingiu 71% de exatidão para distinguir saudáveis e patológicos com Redes Neuronais. Realizou-se uma análise estatística referente aos parâmetros do grupo I (b), com o propósito de identificar características únicas em determinados parâmetros, que permitissem diferenciar as patologias. No decorrer deste trabalho, embora não fosse objetivo inicial, deu-se início a elaboração de um “software” protótipo para fazer gravação de voz, extração de parâmetros e classificação da patologia.This work is related to the study and use of a set of machine learning tools, namely decision trees, Support Vector Machines (SVM's), Deep learning - Deep Neural Networks (neural networks), with the purpose of classifying speech pathological and normal speech, and to identify the pathology with these tools. The pathologies used in this study are chronic laryngitis, dysphonia and vocal cord paralysis. We use the database of the German Saarbrucken Voice Database (SVD), which is available online for free at the Institute of Phonetics at the University of Saarland. In this database it is possible to find voice signals between healthy and pathological of more than 2000 subjects. Three groups of parameters were used, the first one is the group I (a) contains parameters such as Relative Jitter, Relative Shimmer and Harmonic to Noise Ratio (HNR), determined in stationary speech segments, where 80.7% accuracy was achieved to distinguish healthy and pathologies. The group I (b), contain parameters like Relative Jitter, Relative Shimmer, HNR, Noise to Harmonic Ratio (NHR) and Autocorrelation determined in segments of stationary speech, where it obtained 79.2% accuracy to distinguish healthy and pathological patients with SVM. Group II is based on Mel Frequency Cepstral Coefficients (MFCC's), determined in stationary speech segments, where it obtained 83.3% accuracy to distinguish the healthy and laryngitis with SVM. Group III is formed by MFCC coefficients, extracted from continuous speech, where it reached 71% of accuracy to distinguish healthy and pathologies with Neuronal Networks. The statistical study concerning the parameters of group I (b) was performed, in which three 'a', 'i' and 'u' vowels were analyzed in three differents tones: high, low and normal. The statistical study was performed with the purpose of detecting unique characteristics in certain parameters, which allowed to distinguish the pathologies used in this dissertation. In the course of this work, although it was not an initial objective, Started the development of prototype software to make voice recording, parameter extraction and classification of the pathology.Este trabajo está relacionado con el estudio y utilización de un conjunto de herramientas de machine learning, dígase árboles de decisión, support vector machines, Deep learning- Deep Neural Networks (redes neuronales), con el propósito de hacer la clasificación entre habla patológica y habla normal e identificar la patología con estas herramientas. Las patologías utilizadas en este estudio son la laringitis crónica, disfonía y parálisis de las cuerdas vocales. Se ha utilizado la base de datos alemana Saarbrucken Voice Database (SVD), que se encuentra disponible online de forma gratuita por el Instituto de Fonética de la Universidad de Saarland. En esta base de datos es posible encontrar señales de voz, entre saludables y patológicos de más de 2000 sujetos. Se han analizado tres grupos de parámetros, el grupo I(a) contiene parámetros como Jitter relativo, Shimmer relativo, HNR, determinados en segmentos de habla estacionaria, alcanzaron una precisión del 80.7% para distinguir entre sano y patológico. El grupo I(b), contiene parámetros como Jitter relativo, Shimmer relativo, HNR, NHR y Autocorrelación, determinados en segmentos de habla estacionaria, donde se alcanzó una precisión del 79,2% para distinguir sanos y patológicos con la SVM. O grupo II está basado en coeficientes MFCC’s, determinados en segmentos de habla estacionaria, donde se logró una precisión del 83.3% para distinguir los sanos y la laringitis con SVM. El grupo III está formado por coeficientes MFCC extraídos del habla continua, que alcanzaron el 71% de precisión para distinguir los sanos y patológicas con Redes neuronales. Se ha realizado el estudio estadístico referente a los parámetros del grupo I(b), cuyas 3 vocales “a”, “i” y “u” en tres tonos disponibles alto, bajo y normal fueron analizadas. el estudio estadístico se ha realizado con el propósito de detectar características únicas en determinados parámetros, que permitieran diferenciar las patologías utilizadas en esta disertación. En el transcurso de este trabajo, aunque no fuera el objetivo inicial, se dió inicio a la elaboración de un “software” prototipo para hacer grabación de voz, extracción de parámetros y clasificación de la patología.Teixeira, João PauloBiblioteca Digital do IPBTeixeira, Felipe2020-02-03T10:23:17Z201920182019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10198/20525TID:202400352porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-06T01:20:33Zoai:bibliotecadigital.ipb.pt:10198/20525Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:11:22.448887Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
title	Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
spellingShingle	Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe Teixeira, Felipe Machine learning Deep learning Patologias Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short	Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
title_full	Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
title_fullStr	Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
title_full_unstemmed	Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
title_sort	Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe
author	Teixeira, Felipe
author_facet	Teixeira, Felipe
author_role	author
dc.contributor.none.fl_str_mv	Teixeira, João Paulo Biblioteca Digital do IPB
dc.contributor.author.fl_str_mv	Teixeira, Felipe
dc.subject.por.fl_str_mv	Machine learning Deep learning Patologias Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic	Machine learning Deep learning Patologias Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description	Este trabalho está relacionado com o estudo e utilização de um conjunto de ferramentas de machine learning, nomeadamente árvores de decisão, support vector machines (SVM’s), Deep-learning - Deep Neural Networks, com o prepósito de fazer a classificação entre fala patológica e fala normal, e identificar a patologia com estas ferramentas. As patologias utilizadas neste estudo são a laringite crónica, disfonia e paralisia das cordas vocais. Utilizou-se a base de dados Alemã Saarbrucken Voice Database (SVD), que se encontra disponível online de forma gratuita pelo Instituto de Fonética da Universidade de Saarland. Nesta base de dados é possível encontrar sinais de voz, entre saudáveis e patológicos de mais de 2000 sujeitos. Foram utilizados três grupos de parâmetros, o grupo I (a), contêm parâmetros como Jitter relativo, Shimmer relativo e Harmonic to Noise Ratio (HNR), determinados em segmentos de fala estacionária, onde se atingiu 80.7% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo I (b), contêm os parâmetros do grupo I(a), Noise to Harmonic Ratio (NHR) e Autocorrelação determinados em segmentos de fala estacionária, onde se atingiu 79.2% de exatidão para distinguir saudáveis e patológicos com SVM. O grupo II é baseado em Mel Frequency Cepstral Coefficientes (MFCC’s), determinados nos segmentos de fala estacionários, onde se atingiu 83.3% de exatidão para distinguir saudáveis e laringite com SVM. O grupo III é formado por coeficientes MFCC’s extraídos de fala contínua onde se atingiu 71% de exatidão para distinguir saudáveis e patológicos com Redes Neuronais. Realizou-se uma análise estatística referente aos parâmetros do grupo I (b), com o propósito de identificar características únicas em determinados parâmetros, que permitissem diferenciar as patologias. No decorrer deste trabalho, embora não fosse objetivo inicial, deu-se início a elaboração de um “software” protótipo para fazer gravação de voz, extração de parâmetros e classificação da patologia.
publishDate	2018
dc.date.none.fl_str_mv	2018 2019 2019-01-01T00:00:00Z 2020-02-03T10:23:17Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10198/20525 TID:202400352
url	http://hdl.handle.net/10198/20525
identifier_str_mv	TID:202400352
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1817552825993920512

Utilização de ferramentas de machine learning no diagnóstico de patologias da laringe

Registros relacionados