Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks

Detalhes bibliográficos
Autor(a) principal: Dias, Lucas
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional do IFPB
Texto Completo: http://repositorio.ifpb.edu.br/jspui/handle/177683/997
Resumo: A fala ? o principal mecanismo natural de comunica??o entre seres humanos.O sistema de forma??o e transmiss?o natural da voz, principal elemento da fala, ? comprometido pelo surgimento de patologias lar?ngeas. Esta pesquisa trata da aplica??o de classificadores baseados em redes neurais profundas (Deep Neural Networks - DNNs) na discrimina??o entre sinais de vozes saud?veis e de vozes afetadas pelas patologias lar?ngeas organofuncionais edema de Reinke, carcinoma, leocoplasia, p?lipos e a paralisia das pregas vocais, de origem neurol?gica. A metodologia proposta ? baseada na an?lise do comportamento din?mico do sinal de voz avaliado, dispensando medidas ou aplica??es de t?cnicas comumente usadas na extra??o de caracter?sticas. Foi investigado o uso de DNNs com 04,05 e 06 camadas com 200 neur?nios ocultos ativados pela fun??o unidade linear retificada (Rectified LinearUnit - ReLU),um neur?nio na camada de sa?da,ativado pela fun??o sigmoide e uma camada de entrada que recebe os 400 dados que comp?e cada segmento extra?do do sinal de voz avaliado. No total, 07 algoritmos de aprendizagem, utilizando como fun??o custo a entropia cruzada bin?ria (Binary Cross-entropy), foram avaliados individualmente para o treinamento de cada DNN. Os sinais de voz utilizados nesta pesquisa foram extra?dos da base de dados Saarbruecken Voice Database (SVD), desenvolvida na Alemanha. Da base, foram selecionados 640 sinais de voz da vogal sustentada /a/, sendo 320 sinais de vozes saud?veis e 320 afetados por patologias lar?ngeas. A discrimina??o foi realizada por classes,sendo: a classe saud?vel; a classe patologias, composta por todos os sinais patol?gicos selecionados da base SVD; a classe das vozes afetadas apenas por patologias lar?ngeas organofuncionais; e, por fim,a classe de sinais de voz afetados apenas por paralisia das pregas vocais, compondo a categoria de patologia lar?ngea de origem neurol?gica. Foram considerados 04 casos de classifica??o entre os sinais de voz selecionados, sendo eles: saud?vel x patologias, saud?vel x patologias organofuncionais, saud?vel x paralisia das pregas vocais e patologias organofuncionais x paralisia das pregas vocais. Para cada caso discriminativo, 28 classificadores foram implementados e avaliados por meio do F1 score e pelo coeficiente de correla??o de Mathews (CCM) (aplicado apenas na discrimina??o entre as classes patol?gicas), e pelas m?tricas acur?cia, sensibilidade e especificidade. Al?m disso, foram investigados os efeitos da inclus?o de taxas de sobreposi??o (0%,25%,50% e 75%) aplicadas durante a extra??o dos segmentos. A t?cnica de valida??o cruzada k- fold, com k = 10, foi implementada nesta pesquisa para sele??o dos conjuntos de dados de treino e teste. Os resultados indicam que o m?todo proposto possui o seu melhor desempenho na discrimina??o entre vozes saud?veis e afetadas por paralisia das pregas vocais, com base na detec??o de segmentos do sinal de voz sem taxa de sobreposi??o,utilizando o classificador com 4 camadas ocultas,treinado pelo algoritmo de aprendizagem Adadelta,no qual foram obtidos ap?s a valida??o cruzada 88,68 ?3,04% para acur?cia, 92,04 ? 5,82% para sensibilidade, 85,33 ? 6,53% para especificidade e F1 score igual 0,89. Conclui-se que ? poss?vel discriminar vozes saud?veis e afetadas por patologias lar?ngeas, com base na an?lise do comportamento din?mico de segmentos do sinal de voz utilizando DNNs.
id IFPB_38ab977b85d12caab0b8e426fa0e8554
oai_identifier_str oai:repositorio.ifpb.edu.br:177683/997
network_acronym_str IFPB
network_name_str Repositório Institucional do IFPB
repository_id_str
spelling Dias, Lucas2020-07-24T22:22:18Z2020-07-24T22:22:18Z2020-07-15http://repositorio.ifpb.edu.br/jspui/handle/177683/997A fala ? o principal mecanismo natural de comunica??o entre seres humanos.O sistema de forma??o e transmiss?o natural da voz, principal elemento da fala, ? comprometido pelo surgimento de patologias lar?ngeas. Esta pesquisa trata da aplica??o de classificadores baseados em redes neurais profundas (Deep Neural Networks - DNNs) na discrimina??o entre sinais de vozes saud?veis e de vozes afetadas pelas patologias lar?ngeas organofuncionais edema de Reinke, carcinoma, leocoplasia, p?lipos e a paralisia das pregas vocais, de origem neurol?gica. A metodologia proposta ? baseada na an?lise do comportamento din?mico do sinal de voz avaliado, dispensando medidas ou aplica??es de t?cnicas comumente usadas na extra??o de caracter?sticas. Foi investigado o uso de DNNs com 04,05 e 06 camadas com 200 neur?nios ocultos ativados pela fun??o unidade linear retificada (Rectified LinearUnit - ReLU),um neur?nio na camada de sa?da,ativado pela fun??o sigmoide e uma camada de entrada que recebe os 400 dados que comp?e cada segmento extra?do do sinal de voz avaliado. No total, 07 algoritmos de aprendizagem, utilizando como fun??o custo a entropia cruzada bin?ria (Binary Cross-entropy), foram avaliados individualmente para o treinamento de cada DNN. Os sinais de voz utilizados nesta pesquisa foram extra?dos da base de dados Saarbruecken Voice Database (SVD), desenvolvida na Alemanha. Da base, foram selecionados 640 sinais de voz da vogal sustentada /a/, sendo 320 sinais de vozes saud?veis e 320 afetados por patologias lar?ngeas. A discrimina??o foi realizada por classes,sendo: a classe saud?vel; a classe patologias, composta por todos os sinais patol?gicos selecionados da base SVD; a classe das vozes afetadas apenas por patologias lar?ngeas organofuncionais; e, por fim,a classe de sinais de voz afetados apenas por paralisia das pregas vocais, compondo a categoria de patologia lar?ngea de origem neurol?gica. Foram considerados 04 casos de classifica??o entre os sinais de voz selecionados, sendo eles: saud?vel x patologias, saud?vel x patologias organofuncionais, saud?vel x paralisia das pregas vocais e patologias organofuncionais x paralisia das pregas vocais. Para cada caso discriminativo, 28 classificadores foram implementados e avaliados por meio do F1 score e pelo coeficiente de correla??o de Mathews (CCM) (aplicado apenas na discrimina??o entre as classes patol?gicas), e pelas m?tricas acur?cia, sensibilidade e especificidade. Al?m disso, foram investigados os efeitos da inclus?o de taxas de sobreposi??o (0%,25%,50% e 75%) aplicadas durante a extra??o dos segmentos. A t?cnica de valida??o cruzada k- fold, com k = 10, foi implementada nesta pesquisa para sele??o dos conjuntos de dados de treino e teste. Os resultados indicam que o m?todo proposto possui o seu melhor desempenho na discrimina??o entre vozes saud?veis e afetadas por paralisia das pregas vocais, com base na detec??o de segmentos do sinal de voz sem taxa de sobreposi??o,utilizando o classificador com 4 camadas ocultas,treinado pelo algoritmo de aprendizagem Adadelta,no qual foram obtidos ap?s a valida??o cruzada 88,68 ?3,04% para acur?cia, 92,04 ? 5,82% para sensibilidade, 85,33 ? 6,53% para especificidade e F1 score igual 0,89. Conclui-se que ? poss?vel discriminar vozes saud?veis e afetadas por patologias lar?ngeas, com base na an?lise do comportamento din?mico de segmentos do sinal de voz utilizando DNNs.Submitted by Programa de P?s-Gradua??o Engenharia El?trica (ppgee@ifpb.edu.br) on 2020-07-24T22:17:28Z No. of bitstreams: 2 Dissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdf: 6690612 bytes, checksum: 3a871454b9f93789e439d0950c995e6c (MD5) Termo_repositorio_digital.pdf: 132875 bytes, checksum: 7bf2c6841e30fa97bae5d666244ef5e9 (MD5)Approved for entry into archive by Programa de P?s-Gradua??o Engenharia El?trica (ppgee@ifpb.edu.br) on 2020-07-24T22:22:18Z (GMT) No. of bitstreams: 2 Dissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdf: 6690612 bytes, checksum: 3a871454b9f93789e439d0950c995e6c (MD5) Termo_repositorio_digital.pdf: 132875 bytes, checksum: 7bf2c6841e30fa97bae5d666244ef5e9 (MD5)Made available in DSpace on 2020-07-24T22:22:18Z (GMT). No. of bitstreams: 2 Dissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdf: 6690612 bytes, checksum: 3a871454b9f93789e439d0950c995e6c (MD5) Termo_repositorio_digital.pdf: 132875 bytes, checksum: 7bf2c6841e30fa97bae5d666244ef5e9 (MD5) Previous issue date: 2020-07-15Instituto Federal da Para?baaprendizagem profundaprocessamento digital de sinais de vozpatologias lar?ngeasredes neurais artificiaisDetec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networksinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional do IFPBinstname:Instituto Federal da Paraíba (IFPB)instacron:IFPBinfo:eu-repo/semantics/openAccessDisserta??oInstituto Federal da Para?baJo?o PessoaORIGINALDissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdfDissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdfapplication/pdf6690612http://repositorio.ifpb.edu.br/jspui/bitstream/177683/997/1/Dissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdf3a871454b9f93789e439d0950c995e6cMD51Termo_repositorio_digital.pdfTermo_repositorio_digital.pdfapplication/pdf132875http://repositorio.ifpb.edu.br/jspui/bitstream/177683/997/2/Termo_repositorio_digital.pdf7bf2c6841e30fa97bae5d666244ef5e9MD52177683/9972020-07-24 19:27:29.889oai:repositorio.ifpb.edu.br:177683/997Repositório InstitucionalPUBhttp://repositorio.ifpb.edu.br/oai/requestrepositoriodigital@ifpb.edu.bropendoar:2020-07-24T22:27:29Repositório Institucional do IFPB - Instituto Federal da Paraíba (IFPB)false
dc.title.pt_BR.fl_str_mv Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks
title Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks
spellingShingle Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks
Dias, Lucas
aprendizagem profunda
processamento digital de sinais de voz
patologias lar?ngeas
redes neurais artificiais
title_short Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks
title_full Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks
title_fullStr Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks
title_full_unstemmed Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks
title_sort Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks
author Dias, Lucas
author_facet Dias, Lucas
author_role author
dc.contributor.author.fl_str_mv Dias, Lucas
dc.subject.por.fl_str_mv aprendizagem profunda
processamento digital de sinais de voz
patologias lar?ngeas
redes neurais artificiais
topic aprendizagem profunda
processamento digital de sinais de voz
patologias lar?ngeas
redes neurais artificiais
description A fala ? o principal mecanismo natural de comunica??o entre seres humanos.O sistema de forma??o e transmiss?o natural da voz, principal elemento da fala, ? comprometido pelo surgimento de patologias lar?ngeas. Esta pesquisa trata da aplica??o de classificadores baseados em redes neurais profundas (Deep Neural Networks - DNNs) na discrimina??o entre sinais de vozes saud?veis e de vozes afetadas pelas patologias lar?ngeas organofuncionais edema de Reinke, carcinoma, leocoplasia, p?lipos e a paralisia das pregas vocais, de origem neurol?gica. A metodologia proposta ? baseada na an?lise do comportamento din?mico do sinal de voz avaliado, dispensando medidas ou aplica??es de t?cnicas comumente usadas na extra??o de caracter?sticas. Foi investigado o uso de DNNs com 04,05 e 06 camadas com 200 neur?nios ocultos ativados pela fun??o unidade linear retificada (Rectified LinearUnit - ReLU),um neur?nio na camada de sa?da,ativado pela fun??o sigmoide e uma camada de entrada que recebe os 400 dados que comp?e cada segmento extra?do do sinal de voz avaliado. No total, 07 algoritmos de aprendizagem, utilizando como fun??o custo a entropia cruzada bin?ria (Binary Cross-entropy), foram avaliados individualmente para o treinamento de cada DNN. Os sinais de voz utilizados nesta pesquisa foram extra?dos da base de dados Saarbruecken Voice Database (SVD), desenvolvida na Alemanha. Da base, foram selecionados 640 sinais de voz da vogal sustentada /a/, sendo 320 sinais de vozes saud?veis e 320 afetados por patologias lar?ngeas. A discrimina??o foi realizada por classes,sendo: a classe saud?vel; a classe patologias, composta por todos os sinais patol?gicos selecionados da base SVD; a classe das vozes afetadas apenas por patologias lar?ngeas organofuncionais; e, por fim,a classe de sinais de voz afetados apenas por paralisia das pregas vocais, compondo a categoria de patologia lar?ngea de origem neurol?gica. Foram considerados 04 casos de classifica??o entre os sinais de voz selecionados, sendo eles: saud?vel x patologias, saud?vel x patologias organofuncionais, saud?vel x paralisia das pregas vocais e patologias organofuncionais x paralisia das pregas vocais. Para cada caso discriminativo, 28 classificadores foram implementados e avaliados por meio do F1 score e pelo coeficiente de correla??o de Mathews (CCM) (aplicado apenas na discrimina??o entre as classes patol?gicas), e pelas m?tricas acur?cia, sensibilidade e especificidade. Al?m disso, foram investigados os efeitos da inclus?o de taxas de sobreposi??o (0%,25%,50% e 75%) aplicadas durante a extra??o dos segmentos. A t?cnica de valida??o cruzada k- fold, com k = 10, foi implementada nesta pesquisa para sele??o dos conjuntos de dados de treino e teste. Os resultados indicam que o m?todo proposto possui o seu melhor desempenho na discrimina??o entre vozes saud?veis e afetadas por paralisia das pregas vocais, com base na detec??o de segmentos do sinal de voz sem taxa de sobreposi??o,utilizando o classificador com 4 camadas ocultas,treinado pelo algoritmo de aprendizagem Adadelta,no qual foram obtidos ap?s a valida??o cruzada 88,68 ?3,04% para acur?cia, 92,04 ? 5,82% para sensibilidade, 85,33 ? 6,53% para especificidade e F1 score igual 0,89. Conclui-se que ? poss?vel discriminar vozes saud?veis e afetadas por patologias lar?ngeas, com base na an?lise do comportamento din?mico de segmentos do sinal de voz utilizando DNNs.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-07-24T22:22:18Z
dc.date.available.fl_str_mv 2020-07-24T22:22:18Z
dc.date.issued.fl_str_mv 2020-07-15
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ifpb.edu.br/jspui/handle/177683/997
url http://repositorio.ifpb.edu.br/jspui/handle/177683/997
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional do IFPB
instname:Instituto Federal da Paraíba (IFPB)
instacron:IFPB
instname_str Instituto Federal da Paraíba (IFPB)
instacron_str IFPB
institution IFPB
reponame_str Repositório Institucional do IFPB
collection Repositório Institucional do IFPB
bitstream.url.fl_str_mv http://repositorio.ifpb.edu.br/jspui/bitstream/177683/997/1/Dissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdf
http://repositorio.ifpb.edu.br/jspui/bitstream/177683/997/2/Termo_repositorio_digital.pdf
bitstream.checksum.fl_str_mv 3a871454b9f93789e439d0950c995e6c
7bf2c6841e30fa97bae5d666244ef5e9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional do IFPB - Instituto Federal da Paraíba (IFPB)
repository.mail.fl_str_mv repositoriodigital@ifpb.edu.br
_version_ 1801660434199085056