Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional do IFPB |
Texto Completo: | http://repositorio.ifpb.edu.br/jspui/handle/177683/997 |
Resumo: | A fala ? o principal mecanismo natural de comunica??o entre seres humanos.O sistema de forma??o e transmiss?o natural da voz, principal elemento da fala, ? comprometido pelo surgimento de patologias lar?ngeas. Esta pesquisa trata da aplica??o de classificadores baseados em redes neurais profundas (Deep Neural Networks - DNNs) na discrimina??o entre sinais de vozes saud?veis e de vozes afetadas pelas patologias lar?ngeas organofuncionais edema de Reinke, carcinoma, leocoplasia, p?lipos e a paralisia das pregas vocais, de origem neurol?gica. A metodologia proposta ? baseada na an?lise do comportamento din?mico do sinal de voz avaliado, dispensando medidas ou aplica??es de t?cnicas comumente usadas na extra??o de caracter?sticas. Foi investigado o uso de DNNs com 04,05 e 06 camadas com 200 neur?nios ocultos ativados pela fun??o unidade linear retificada (Rectified LinearUnit - ReLU),um neur?nio na camada de sa?da,ativado pela fun??o sigmoide e uma camada de entrada que recebe os 400 dados que comp?e cada segmento extra?do do sinal de voz avaliado. No total, 07 algoritmos de aprendizagem, utilizando como fun??o custo a entropia cruzada bin?ria (Binary Cross-entropy), foram avaliados individualmente para o treinamento de cada DNN. Os sinais de voz utilizados nesta pesquisa foram extra?dos da base de dados Saarbruecken Voice Database (SVD), desenvolvida na Alemanha. Da base, foram selecionados 640 sinais de voz da vogal sustentada /a/, sendo 320 sinais de vozes saud?veis e 320 afetados por patologias lar?ngeas. A discrimina??o foi realizada por classes,sendo: a classe saud?vel; a classe patologias, composta por todos os sinais patol?gicos selecionados da base SVD; a classe das vozes afetadas apenas por patologias lar?ngeas organofuncionais; e, por fim,a classe de sinais de voz afetados apenas por paralisia das pregas vocais, compondo a categoria de patologia lar?ngea de origem neurol?gica. Foram considerados 04 casos de classifica??o entre os sinais de voz selecionados, sendo eles: saud?vel x patologias, saud?vel x patologias organofuncionais, saud?vel x paralisia das pregas vocais e patologias organofuncionais x paralisia das pregas vocais. Para cada caso discriminativo, 28 classificadores foram implementados e avaliados por meio do F1 score e pelo coeficiente de correla??o de Mathews (CCM) (aplicado apenas na discrimina??o entre as classes patol?gicas), e pelas m?tricas acur?cia, sensibilidade e especificidade. Al?m disso, foram investigados os efeitos da inclus?o de taxas de sobreposi??o (0%,25%,50% e 75%) aplicadas durante a extra??o dos segmentos. A t?cnica de valida??o cruzada k- fold, com k = 10, foi implementada nesta pesquisa para sele??o dos conjuntos de dados de treino e teste. Os resultados indicam que o m?todo proposto possui o seu melhor desempenho na discrimina??o entre vozes saud?veis e afetadas por paralisia das pregas vocais, com base na detec??o de segmentos do sinal de voz sem taxa de sobreposi??o,utilizando o classificador com 4 camadas ocultas,treinado pelo algoritmo de aprendizagem Adadelta,no qual foram obtidos ap?s a valida??o cruzada 88,68 ?3,04% para acur?cia, 92,04 ? 5,82% para sensibilidade, 85,33 ? 6,53% para especificidade e F1 score igual 0,89. Conclui-se que ? poss?vel discriminar vozes saud?veis e afetadas por patologias lar?ngeas, com base na an?lise do comportamento din?mico de segmentos do sinal de voz utilizando DNNs. |
id |
IFPB_38ab977b85d12caab0b8e426fa0e8554 |
---|---|
oai_identifier_str |
oai:repositorio.ifpb.edu.br:177683/997 |
network_acronym_str |
IFPB |
network_name_str |
Repositório Institucional do IFPB |
repository_id_str |
|
spelling |
Dias, Lucas2020-07-24T22:22:18Z2020-07-24T22:22:18Z2020-07-15http://repositorio.ifpb.edu.br/jspui/handle/177683/997A fala ? o principal mecanismo natural de comunica??o entre seres humanos.O sistema de forma??o e transmiss?o natural da voz, principal elemento da fala, ? comprometido pelo surgimento de patologias lar?ngeas. Esta pesquisa trata da aplica??o de classificadores baseados em redes neurais profundas (Deep Neural Networks - DNNs) na discrimina??o entre sinais de vozes saud?veis e de vozes afetadas pelas patologias lar?ngeas organofuncionais edema de Reinke, carcinoma, leocoplasia, p?lipos e a paralisia das pregas vocais, de origem neurol?gica. A metodologia proposta ? baseada na an?lise do comportamento din?mico do sinal de voz avaliado, dispensando medidas ou aplica??es de t?cnicas comumente usadas na extra??o de caracter?sticas. Foi investigado o uso de DNNs com 04,05 e 06 camadas com 200 neur?nios ocultos ativados pela fun??o unidade linear retificada (Rectified LinearUnit - ReLU),um neur?nio na camada de sa?da,ativado pela fun??o sigmoide e uma camada de entrada que recebe os 400 dados que comp?e cada segmento extra?do do sinal de voz avaliado. No total, 07 algoritmos de aprendizagem, utilizando como fun??o custo a entropia cruzada bin?ria (Binary Cross-entropy), foram avaliados individualmente para o treinamento de cada DNN. Os sinais de voz utilizados nesta pesquisa foram extra?dos da base de dados Saarbruecken Voice Database (SVD), desenvolvida na Alemanha. Da base, foram selecionados 640 sinais de voz da vogal sustentada /a/, sendo 320 sinais de vozes saud?veis e 320 afetados por patologias lar?ngeas. A discrimina??o foi realizada por classes,sendo: a classe saud?vel; a classe patologias, composta por todos os sinais patol?gicos selecionados da base SVD; a classe das vozes afetadas apenas por patologias lar?ngeas organofuncionais; e, por fim,a classe de sinais de voz afetados apenas por paralisia das pregas vocais, compondo a categoria de patologia lar?ngea de origem neurol?gica. Foram considerados 04 casos de classifica??o entre os sinais de voz selecionados, sendo eles: saud?vel x patologias, saud?vel x patologias organofuncionais, saud?vel x paralisia das pregas vocais e patologias organofuncionais x paralisia das pregas vocais. Para cada caso discriminativo, 28 classificadores foram implementados e avaliados por meio do F1 score e pelo coeficiente de correla??o de Mathews (CCM) (aplicado apenas na discrimina??o entre as classes patol?gicas), e pelas m?tricas acur?cia, sensibilidade e especificidade. Al?m disso, foram investigados os efeitos da inclus?o de taxas de sobreposi??o (0%,25%,50% e 75%) aplicadas durante a extra??o dos segmentos. A t?cnica de valida??o cruzada k- fold, com k = 10, foi implementada nesta pesquisa para sele??o dos conjuntos de dados de treino e teste. Os resultados indicam que o m?todo proposto possui o seu melhor desempenho na discrimina??o entre vozes saud?veis e afetadas por paralisia das pregas vocais, com base na detec??o de segmentos do sinal de voz sem taxa de sobreposi??o,utilizando o classificador com 4 camadas ocultas,treinado pelo algoritmo de aprendizagem Adadelta,no qual foram obtidos ap?s a valida??o cruzada 88,68 ?3,04% para acur?cia, 92,04 ? 5,82% para sensibilidade, 85,33 ? 6,53% para especificidade e F1 score igual 0,89. Conclui-se que ? poss?vel discriminar vozes saud?veis e afetadas por patologias lar?ngeas, com base na an?lise do comportamento din?mico de segmentos do sinal de voz utilizando DNNs.Submitted by Programa de P?s-Gradua??o Engenharia El?trica (ppgee@ifpb.edu.br) on 2020-07-24T22:17:28Z No. of bitstreams: 2 Dissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdf: 6690612 bytes, checksum: 3a871454b9f93789e439d0950c995e6c (MD5) Termo_repositorio_digital.pdf: 132875 bytes, checksum: 7bf2c6841e30fa97bae5d666244ef5e9 (MD5)Approved for entry into archive by Programa de P?s-Gradua??o Engenharia El?trica (ppgee@ifpb.edu.br) on 2020-07-24T22:22:18Z (GMT) No. of bitstreams: 2 Dissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdf: 6690612 bytes, checksum: 3a871454b9f93789e439d0950c995e6c (MD5) Termo_repositorio_digital.pdf: 132875 bytes, checksum: 7bf2c6841e30fa97bae5d666244ef5e9 (MD5)Made available in DSpace on 2020-07-24T22:22:18Z (GMT). No. of bitstreams: 2 Dissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdf: 6690612 bytes, checksum: 3a871454b9f93789e439d0950c995e6c (MD5) Termo_repositorio_digital.pdf: 132875 bytes, checksum: 7bf2c6841e30fa97bae5d666244ef5e9 (MD5) Previous issue date: 2020-07-15Instituto Federal da Para?baaprendizagem profundaprocessamento digital de sinais de vozpatologias lar?ngeasredes neurais artificiaisDetec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networksinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional do IFPBinstname:Instituto Federal da Paraíba (IFPB)instacron:IFPBinfo:eu-repo/semantics/openAccessDisserta??oInstituto Federal da Para?baJo?o PessoaORIGINALDissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdfDissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdfapplication/pdf6690612http://repositorio.ifpb.edu.br/jspui/bitstream/177683/997/1/Dissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdf3a871454b9f93789e439d0950c995e6cMD51Termo_repositorio_digital.pdfTermo_repositorio_digital.pdfapplication/pdf132875http://repositorio.ifpb.edu.br/jspui/bitstream/177683/997/2/Termo_repositorio_digital.pdf7bf2c6841e30fa97bae5d666244ef5e9MD52177683/9972020-07-24 19:27:29.889oai:repositorio.ifpb.edu.br:177683/997Repositório InstitucionalPUBhttp://repositorio.ifpb.edu.br/oai/requestrepositoriodigital@ifpb.edu.bropendoar:2020-07-24T22:27:29Repositório Institucional do IFPB - Instituto Federal da Paraíba (IFPB)false |
dc.title.pt_BR.fl_str_mv |
Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks |
title |
Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks |
spellingShingle |
Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks Dias, Lucas aprendizagem profunda processamento digital de sinais de voz patologias lar?ngeas redes neurais artificiais |
title_short |
Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks |
title_full |
Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks |
title_fullStr |
Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks |
title_full_unstemmed |
Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks |
title_sort |
Detec??o de patologias lar?ngeas por meio da an?lise de sinais de voz utilizando Deep Neural Networks |
author |
Dias, Lucas |
author_facet |
Dias, Lucas |
author_role |
author |
dc.contributor.author.fl_str_mv |
Dias, Lucas |
dc.subject.por.fl_str_mv |
aprendizagem profunda processamento digital de sinais de voz patologias lar?ngeas redes neurais artificiais |
topic |
aprendizagem profunda processamento digital de sinais de voz patologias lar?ngeas redes neurais artificiais |
description |
A fala ? o principal mecanismo natural de comunica??o entre seres humanos.O sistema de forma??o e transmiss?o natural da voz, principal elemento da fala, ? comprometido pelo surgimento de patologias lar?ngeas. Esta pesquisa trata da aplica??o de classificadores baseados em redes neurais profundas (Deep Neural Networks - DNNs) na discrimina??o entre sinais de vozes saud?veis e de vozes afetadas pelas patologias lar?ngeas organofuncionais edema de Reinke, carcinoma, leocoplasia, p?lipos e a paralisia das pregas vocais, de origem neurol?gica. A metodologia proposta ? baseada na an?lise do comportamento din?mico do sinal de voz avaliado, dispensando medidas ou aplica??es de t?cnicas comumente usadas na extra??o de caracter?sticas. Foi investigado o uso de DNNs com 04,05 e 06 camadas com 200 neur?nios ocultos ativados pela fun??o unidade linear retificada (Rectified LinearUnit - ReLU),um neur?nio na camada de sa?da,ativado pela fun??o sigmoide e uma camada de entrada que recebe os 400 dados que comp?e cada segmento extra?do do sinal de voz avaliado. No total, 07 algoritmos de aprendizagem, utilizando como fun??o custo a entropia cruzada bin?ria (Binary Cross-entropy), foram avaliados individualmente para o treinamento de cada DNN. Os sinais de voz utilizados nesta pesquisa foram extra?dos da base de dados Saarbruecken Voice Database (SVD), desenvolvida na Alemanha. Da base, foram selecionados 640 sinais de voz da vogal sustentada /a/, sendo 320 sinais de vozes saud?veis e 320 afetados por patologias lar?ngeas. A discrimina??o foi realizada por classes,sendo: a classe saud?vel; a classe patologias, composta por todos os sinais patol?gicos selecionados da base SVD; a classe das vozes afetadas apenas por patologias lar?ngeas organofuncionais; e, por fim,a classe de sinais de voz afetados apenas por paralisia das pregas vocais, compondo a categoria de patologia lar?ngea de origem neurol?gica. Foram considerados 04 casos de classifica??o entre os sinais de voz selecionados, sendo eles: saud?vel x patologias, saud?vel x patologias organofuncionais, saud?vel x paralisia das pregas vocais e patologias organofuncionais x paralisia das pregas vocais. Para cada caso discriminativo, 28 classificadores foram implementados e avaliados por meio do F1 score e pelo coeficiente de correla??o de Mathews (CCM) (aplicado apenas na discrimina??o entre as classes patol?gicas), e pelas m?tricas acur?cia, sensibilidade e especificidade. Al?m disso, foram investigados os efeitos da inclus?o de taxas de sobreposi??o (0%,25%,50% e 75%) aplicadas durante a extra??o dos segmentos. A t?cnica de valida??o cruzada k- fold, com k = 10, foi implementada nesta pesquisa para sele??o dos conjuntos de dados de treino e teste. Os resultados indicam que o m?todo proposto possui o seu melhor desempenho na discrimina??o entre vozes saud?veis e afetadas por paralisia das pregas vocais, com base na detec??o de segmentos do sinal de voz sem taxa de sobreposi??o,utilizando o classificador com 4 camadas ocultas,treinado pelo algoritmo de aprendizagem Adadelta,no qual foram obtidos ap?s a valida??o cruzada 88,68 ?3,04% para acur?cia, 92,04 ? 5,82% para sensibilidade, 85,33 ? 6,53% para especificidade e F1 score igual 0,89. Conclui-se que ? poss?vel discriminar vozes saud?veis e afetadas por patologias lar?ngeas, com base na an?lise do comportamento din?mico de segmentos do sinal de voz utilizando DNNs. |
publishDate |
2020 |
dc.date.accessioned.fl_str_mv |
2020-07-24T22:22:18Z |
dc.date.available.fl_str_mv |
2020-07-24T22:22:18Z |
dc.date.issued.fl_str_mv |
2020-07-15 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://repositorio.ifpb.edu.br/jspui/handle/177683/997 |
url |
http://repositorio.ifpb.edu.br/jspui/handle/177683/997 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional do IFPB instname:Instituto Federal da Paraíba (IFPB) instacron:IFPB |
instname_str |
Instituto Federal da Paraíba (IFPB) |
instacron_str |
IFPB |
institution |
IFPB |
reponame_str |
Repositório Institucional do IFPB |
collection |
Repositório Institucional do IFPB |
bitstream.url.fl_str_mv |
http://repositorio.ifpb.edu.br/jspui/bitstream/177683/997/1/Dissertacao_Lucas_Cardoso_PPGEE_2020_Final.pdf http://repositorio.ifpb.edu.br/jspui/bitstream/177683/997/2/Termo_repositorio_digital.pdf |
bitstream.checksum.fl_str_mv |
3a871454b9f93789e439d0950c995e6c 7bf2c6841e30fa97bae5d666244ef5e9 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional do IFPB - Instituto Federal da Paraíba (IFPB) |
repository.mail.fl_str_mv |
repositoriodigital@ifpb.edu.br |
_version_ |
1801660434199085056 |