Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificial

Pieritz, Vitor Oliveira

Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificial

Detalhes bibliográficos
Autor(a) principal:	Pieritz, Vitor Oliveira
Data de Publicação:	2023
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UNESP
Texto Completo:	http://hdl.handle.net/11449/238902
Resumo:	A voz é um instrumento fundamental para a comunicação dos seres humanos, sendo muitas vezes primordial para exercer algumas profissões, como por exemplo no caso de professores, atores, locutores de rádio e dubladores. Porém, nem sempre o cuidado do aparelho vocal recebe toda a atenção necessária, uma vez que para se obter um diagnóstico e tratamento adequados é necessário passar por processos invasivos e muitas vezes traumáticos, o que muitas vezes pode desestimular as pessoas a procurar tratamentos adequados. A computação e a inteligência artificial possibilitam a detecção de problemas vocais de maneira não invasiva, através de áudios e inteligência artificial, o que poderia estimular as pessoas a procurarem tratamento adequado uma vez que foi detectado uma possível patologia vocal. Dentre uma das várias patologias existentes, uma chama a atenção devido a não clareza de sintomas mas a facilidade de se obter caso não se tenha um domínio vocal adequado: A disfonia funcional vocal. Este trabalho desenvolveu e implementou um método computacional capaz de detectar a disfonia funcional vocal nos pacientes de forma não-invasiva, utilizando áudios da voz de pacientes sadios e não sadios, computação e inteligência artificial. As técnicas utilizadas para tal ato foram: Máquina de Vetores de Suporte (SVM)(do tipo kernel linear e RBF kernel) e K-Vizinhos Mais Próximos (KNN) para aprendizado de máquina, Coeficientes Cepstrais na Frequência de Mel (MFCC) e Operador de Energia de Teager (TEO) para pré-processamento de dados e extração de recursos úteis dos áudios dos pacientes e Matrizes de Confusão e Validação Cruzada para validação dos resultados obtidos. Como melhor resultado, foi encontrado a combinação de MFCC com SVM Linear resultando em uma acurácia média de 95%.

Metadados do item

id	UNSP_fd541f097b3f3c392dafbb57f0804d75
oai_identifier_str	oai:repositorio.unesp.br:11449/238902
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str	2946
spelling	Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificialNon-invasive acoustic identification of vocal dysphonia using artificial intelligenceCiência da computaçãoAprendizado do computadorInteligência artificialComputer scienceMachine learningArtificial intelligenceA voz é um instrumento fundamental para a comunicação dos seres humanos, sendo muitas vezes primordial para exercer algumas profissões, como por exemplo no caso de professores, atores, locutores de rádio e dubladores. Porém, nem sempre o cuidado do aparelho vocal recebe toda a atenção necessária, uma vez que para se obter um diagnóstico e tratamento adequados é necessário passar por processos invasivos e muitas vezes traumáticos, o que muitas vezes pode desestimular as pessoas a procurar tratamentos adequados. A computação e a inteligência artificial possibilitam a detecção de problemas vocais de maneira não invasiva, através de áudios e inteligência artificial, o que poderia estimular as pessoas a procurarem tratamento adequado uma vez que foi detectado uma possível patologia vocal. Dentre uma das várias patologias existentes, uma chama a atenção devido a não clareza de sintomas mas a facilidade de se obter caso não se tenha um domínio vocal adequado: A disfonia funcional vocal. Este trabalho desenvolveu e implementou um método computacional capaz de detectar a disfonia funcional vocal nos pacientes de forma não-invasiva, utilizando áudios da voz de pacientes sadios e não sadios, computação e inteligência artificial. As técnicas utilizadas para tal ato foram: Máquina de Vetores de Suporte (SVM)(do tipo kernel linear e RBF kernel) e K-Vizinhos Mais Próximos (KNN) para aprendizado de máquina, Coeficientes Cepstrais na Frequência de Mel (MFCC) e Operador de Energia de Teager (TEO) para pré-processamento de dados e extração de recursos úteis dos áudios dos pacientes e Matrizes de Confusão e Validação Cruzada para validação dos resultados obtidos. Como melhor resultado, foi encontrado a combinação de MFCC com SVM Linear resultando em uma acurácia média de 95%.The voice is a fundamental instrument for the communication of human beings, often primordial to exercise some professions, for example, in the case of teachers, actors, radio announcers and voice actors. However, the care of the vocal apparatus does not always receive all the necessary attention, since to obtain an adequate diagnosis and treatment it is necessary to undergo invasive and often traumatic processes, which can often discourage people from seeking appropriate treatments. Computing and artificial intelligence make it possible to detect vocal problems in a non-invasive way through audio and artificial intelligence, which could encourage people to seek adequate treatment once a possible vocal pathology has been detected. Among one of the several existing pathologies, one draws attention due to the lack of clarity of symptoms but the ease of attaining it if one does not have an adequate vocal domain: Vocal functional dysphonia. This work developed and implemented a computational method capable of detecting functional vocal dysphonia in patients in a non-invasive way, using voice audio from healthy and unhealthy patients, computing and artificial intelligence. The techniques used for this purpose were: Support Vector Machine (SVM) (linear kernel type and RBF kernel) and K-Nearest Neighbors (KNN) for machine learning, Cepstral Coefficients in the Honey Frequency (MFCC) and Operator Teager's Energy (TEO) for data pre-processing and extraction of valuable resources from the patients' audio and Confusion Matrices and Cross-Validation for validating the results obtained. As the best result, the combination of MFCC with Linear SVM was found, resulting in an average accuracy of 95%.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Guido, Rodrigo Capobianco [UNESP]Universidade Estadual Paulista (Unesp)Pieritz, Vitor Oliveira2023-01-23T18:33:30Z2023-01-23T18:33:30Z2023-01-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttp://hdl.handle.net/11449/238902porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-01-02T06:16:35Zoai:repositorio.unesp.br:11449/238902Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-01-02T06:16:35Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificial Non-invasive acoustic identification of vocal dysphonia using artificial intelligence
title	Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificial
spellingShingle	Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificial Pieritz, Vitor Oliveira Ciência da computação Aprendizado do computador Inteligência artificial Computer science Machine learning Artificial intelligence
title_short	Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificial
title_full	Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificial
title_fullStr	Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificial
title_full_unstemmed	Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificial
title_sort	Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificial
author	Pieritz, Vitor Oliveira
author_facet	Pieritz, Vitor Oliveira
author_role	author
dc.contributor.none.fl_str_mv	Guido, Rodrigo Capobianco [UNESP] Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv	Pieritz, Vitor Oliveira
dc.subject.por.fl_str_mv	Ciência da computação Aprendizado do computador Inteligência artificial Computer science Machine learning Artificial intelligence
topic	Ciência da computação Aprendizado do computador Inteligência artificial Computer science Machine learning Artificial intelligence
description	A voz é um instrumento fundamental para a comunicação dos seres humanos, sendo muitas vezes primordial para exercer algumas profissões, como por exemplo no caso de professores, atores, locutores de rádio e dubladores. Porém, nem sempre o cuidado do aparelho vocal recebe toda a atenção necessária, uma vez que para se obter um diagnóstico e tratamento adequados é necessário passar por processos invasivos e muitas vezes traumáticos, o que muitas vezes pode desestimular as pessoas a procurar tratamentos adequados. A computação e a inteligência artificial possibilitam a detecção de problemas vocais de maneira não invasiva, através de áudios e inteligência artificial, o que poderia estimular as pessoas a procurarem tratamento adequado uma vez que foi detectado uma possível patologia vocal. Dentre uma das várias patologias existentes, uma chama a atenção devido a não clareza de sintomas mas a facilidade de se obter caso não se tenha um domínio vocal adequado: A disfonia funcional vocal. Este trabalho desenvolveu e implementou um método computacional capaz de detectar a disfonia funcional vocal nos pacientes de forma não-invasiva, utilizando áudios da voz de pacientes sadios e não sadios, computação e inteligência artificial. As técnicas utilizadas para tal ato foram: Máquina de Vetores de Suporte (SVM)(do tipo kernel linear e RBF kernel) e K-Vizinhos Mais Próximos (KNN) para aprendizado de máquina, Coeficientes Cepstrais na Frequência de Mel (MFCC) e Operador de Energia de Teager (TEO) para pré-processamento de dados e extração de recursos úteis dos áudios dos pacientes e Matrizes de Confusão e Validação Cruzada para validação dos resultados obtidos. Como melhor resultado, foi encontrado a combinação de MFCC com SVM Linear resultando em uma acurácia média de 95%.
publishDate	2023
dc.date.none.fl_str_mv	2023-01-23T18:33:30Z 2023-01-23T18:33:30Z 2023-01-10
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/11449/238902
url	http://hdl.handle.net/11449/238902
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_	1803650145538015232

Identificação acústica não invasiva de disfonia vocal utilizando inteligência artificial

Registros relacionados