Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural

Rissato, Pedro Henrique D\'Almeida Giberti

Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural

Detalhes bibliográficos
Autor(a) principal:	Rissato, Pedro Henrique D\'Almeida Giberti
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da USP
Texto Completo:	https://www.teses.usp.br/teses/disponiveis/59/59143/tde-18082022-081459/
Resumo:	A capacidade de comunicar-se por meio da fala é essencial para qualquer ser humano. Contudo, pessoas com Transtorno de Fala (TF) decorridas de apraxia de fala na infância, desordem fonológica ou fonética necessitam de terapia fonoaudiológica. O profissional fonoaudiológico propõe uma série de exercícios para fortalecer os músculos orofaciais. Nesse contexto, os movimentos e sons não articulatórios como, por exemplo, sopro, estalo de língua ou beijo, exercitam e fortalecem boca, lábios, língua e bochechas que apoiam e sustentam a fala. Nesse sentido, o objetivo deste estudo consistiu em propor um método para o reconhecimento de beijo, estalo de língua e sopro na face humana utilizando pontos de marcação, denominados de landmarks. O método consiste em reconhecer o rosto humano, extrair a distância Euclidiana entre a análise combinatória de 20 landmarks da boca humana, para construir um vetor de distâncias. Esse vetor de distâncias foi utilizado para induzir modelos com os algoritmos de Árvore de Decisão, k-vizinhos mais próximos, Random Forest, Support Vector Machine e treinar uma rede neural do tipo Multilayer Perceptron. Por meio do método desenvolvido, o modelo induzido com Random Forest apresentou os melhores resultados e foi capaz de classificar entre as classes: (i) beijo e estalo; (ii) estalo e sopro e (iii) beijo e sopro, com uma acurácia de 93%, 93% e 65%, respectivamente. A separação entre os movimentos foi satisfatória e o modelo generalizado pode ser utilizado como apoio ao tratamento fonoaudiológico de pacientes com Transtornos de Fala.

Metadados do item

id	USP_05bd3e85279f0001bb62a69b760cf1ec
oai_identifier_str	oai:teses.usp.br:tde-18082022-081459
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neuralRecognition of non-verbal praxis in images of the human face using machine learning and neural networkComputer visionFace humanaHuman faceLandmarksLandmarksPattern recognitionReconhecimento de padrõesVisão computacionalA capacidade de comunicar-se por meio da fala é essencial para qualquer ser humano. Contudo, pessoas com Transtorno de Fala (TF) decorridas de apraxia de fala na infância, desordem fonológica ou fonética necessitam de terapia fonoaudiológica. O profissional fonoaudiológico propõe uma série de exercícios para fortalecer os músculos orofaciais. Nesse contexto, os movimentos e sons não articulatórios como, por exemplo, sopro, estalo de língua ou beijo, exercitam e fortalecem boca, lábios, língua e bochechas que apoiam e sustentam a fala. Nesse sentido, o objetivo deste estudo consistiu em propor um método para o reconhecimento de beijo, estalo de língua e sopro na face humana utilizando pontos de marcação, denominados de landmarks. O método consiste em reconhecer o rosto humano, extrair a distância Euclidiana entre a análise combinatória de 20 landmarks da boca humana, para construir um vetor de distâncias. Esse vetor de distâncias foi utilizado para induzir modelos com os algoritmos de Árvore de Decisão, k-vizinhos mais próximos, Random Forest, Support Vector Machine e treinar uma rede neural do tipo Multilayer Perceptron. Por meio do método desenvolvido, o modelo induzido com Random Forest apresentou os melhores resultados e foi capaz de classificar entre as classes: (i) beijo e estalo; (ii) estalo e sopro e (iii) beijo e sopro, com uma acurácia de 93%, 93% e 65%, respectivamente. A separação entre os movimentos foi satisfatória e o modelo generalizado pode ser utilizado como apoio ao tratamento fonoaudiológico de pacientes com Transtornos de Fala.The ability to communicate through speech is essential for any human being. However, people with Speech Disorder (SD) due to childhood speech apraxia, phonological disorder or phonetics need speech therapy. The speech therapist proposes a series of exercises to strengthen the orofacial muscles. In this context, non-articulatory movements and sounds (such as blow, tongue snap, or kiss) strengthen the mouth, lips, tongue, and cheeks to support and sustain speech. In this sense, our goal was to propose a method to recognize kisses, tongue snaps and blows on the human face using landmarks. This method consists of the following steps: recognize the human face, extract the Euclidean distance between the combinatorial analysis of twenty landmarks from the human mouth, and create a vector of distances. This distance vector induces models with the Decision Tree, k-nearest neighbours, Random Forest, Support Vector Machine algorithms. It also trains a Multilayer Perceptron neural network. By using the proposed method, the model induced with Random Forest presented the best results and was able to classify between the classes: (i) kiss and snap; (ii) snap and blow and (iii) kiss and blow, with an accuracy of 93%, 93% and 65%, respectively. The distinction between the movements was satisfactory, and the generalized model can be used to support the speech therapy treatment of patients with Speech Disorders.Biblioteca Digitais de Teses e Dissertações da USPMacedo, Alessandra AlanizRissato, Pedro Henrique D\'Almeida Giberti2022-03-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/59/59143/tde-18082022-081459/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-08-26T13:43:16Zoai:teses.usp.br:tde-18082022-081459Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212022-08-26T13:43:16Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural Recognition of non-verbal praxis in images of the human face using machine learning and neural network
title	Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural
spellingShingle	Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural Rissato, Pedro Henrique D\'Almeida Giberti Computer vision Face humana Human face Landmarks Landmarks Pattern recognition Reconhecimento de padrões Visão computacional
title_short	Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural
title_full	Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural
title_fullStr	Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural
title_full_unstemmed	Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural
title_sort	Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural
author	Rissato, Pedro Henrique D\'Almeida Giberti
author_facet	Rissato, Pedro Henrique D\'Almeida Giberti
author_role	author
dc.contributor.none.fl_str_mv	Macedo, Alessandra Alaniz
dc.contributor.author.fl_str_mv	Rissato, Pedro Henrique D\'Almeida Giberti
dc.subject.por.fl_str_mv	Computer vision Face humana Human face Landmarks Landmarks Pattern recognition Reconhecimento de padrões Visão computacional
topic	Computer vision Face humana Human face Landmarks Landmarks Pattern recognition Reconhecimento de padrões Visão computacional
description	A capacidade de comunicar-se por meio da fala é essencial para qualquer ser humano. Contudo, pessoas com Transtorno de Fala (TF) decorridas de apraxia de fala na infância, desordem fonológica ou fonética necessitam de terapia fonoaudiológica. O profissional fonoaudiológico propõe uma série de exercícios para fortalecer os músculos orofaciais. Nesse contexto, os movimentos e sons não articulatórios como, por exemplo, sopro, estalo de língua ou beijo, exercitam e fortalecem boca, lábios, língua e bochechas que apoiam e sustentam a fala. Nesse sentido, o objetivo deste estudo consistiu em propor um método para o reconhecimento de beijo, estalo de língua e sopro na face humana utilizando pontos de marcação, denominados de landmarks. O método consiste em reconhecer o rosto humano, extrair a distância Euclidiana entre a análise combinatória de 20 landmarks da boca humana, para construir um vetor de distâncias. Esse vetor de distâncias foi utilizado para induzir modelos com os algoritmos de Árvore de Decisão, k-vizinhos mais próximos, Random Forest, Support Vector Machine e treinar uma rede neural do tipo Multilayer Perceptron. Por meio do método desenvolvido, o modelo induzido com Random Forest apresentou os melhores resultados e foi capaz de classificar entre as classes: (i) beijo e estalo; (ii) estalo e sopro e (iii) beijo e sopro, com uma acurácia de 93%, 93% e 65%, respectivamente. A separação entre os movimentos foi satisfatória e o modelo generalizado pode ser utilizado como apoio ao tratamento fonoaudiológico de pacientes com Transtornos de Fala.
publishDate	2022
dc.date.none.fl_str_mv	2022-03-09
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/59/59143/tde-18082022-081459/
url	https://www.teses.usp.br/teses/disponiveis/59/59143/tde-18082022-081459/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1826318783881412608

Reconhecimento de praxia não verbal em imagens da face humana utilizando aprendizado de máquina e rede neural

Registros relacionados