Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Outros Autores: | |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFAM |
Texto Completo: | https://tede.ufam.edu.br/handle/tede/7320 |
Resumo: | Desenvolver a percepção emocional dos computadores é uma tendência tecnológica. O reconhecimento de emoção compõe sistemas cognitivos com aplicabilidade em diversas áreas. A expressão facial é uma maneira efetiva para reconhecer emoções, sobretudo por ser menos intrusiva na coleta de dados, quando comparada aos outros métodos, e pela facilidade de obter imagens da face diante da popularização das câmeras. Por meio das expressões faciais é possível classificar o grupo das emoções básicas (alegria, medo, surpresa, tristeza, desgosto e raiva) e neutralidade. Atualmente, as redes neurais de convolução (CNN) tem sido o estado da arte para classificação de imagens. Diante desse contexto, esta dissertação apresenta uma abordagem para reconhecer emoções por expressão facial utilizando CNN denominada como Single Shot Facial Expression Recognition (SSFER) e o seu uso em um estudo de caso. Inicialmente, um estudo experimental foi realizado para avaliar quatro detectores de faces em bases de expressões faciais e na VOC-2007. O método MMOD-CNN foi o melhor alcançando 91.89% de acurácia. Posteriormente, um outro estudo experimental foi conduzido a fim de comparar cinco arquiteturas de CNNs alternando quatro classificadores na última camada com intuito de classificar expressões faciais. As CNNs foram: VGGNet, InceptionResNetV2, InceptionV3, MobileNetV2 e ResidualNet, e os classificadores: Softmax, SVM, Random Forest e KNN. A ideia é que a CNN funcione como um extrator de características enviando um vetor unidimensional para o classificador definir a emoção. A melhor combinação foi a VGGNet com SVM alcançando 78.95% de acurácia. Desta forma, a abordagem proposta (SSFER) venceu com uma diferença de 9.74% de acurácia a API da Microsoft Cognitive Services em um comparação avaliando bases de expressões faciais. De um modo geral, as emoções alegria e surpresa foram as que tiveram maiores taxas de precisão. Em contrapartida, as emoções medo e raiva alcançaram as menores taxas de precisão. Um estudo de caso foi executado em um cenário real voltado para educação digital. Participaram vinte e sete estudantes do ensino médio com objetivo de responder um simulado do ENEM em uma plataforma digital. Durante a prova as expressões faciais dos estudantes foram coletadas, assim como, todas as interações com a plataforma. Após o simulado, as expressões faciais foram processadas para correlacionar com as interações de cliques e desempenho no teste. Análises de dados sugerem que a neutralidade pode estar relacionada ao estado de concentração e que estudantes passam a maior parte do tempo no estado de neutralidade. O estado de surpresa pode ser confundido aos bocejos possibilitando o reconhecimento de sonolência. E os estudantes que alcançaram as melhores notas no exame foram os que tiveram menor taxa de detecção de surpresa. Por fim, a abordagem proposta demostrou ser positiva para ser utilizada em aplicações gerais e, em particular, na educação digital. |
id |
UFAM_57c5088176abf964572da867830b0154 |
---|---|
oai_identifier_str |
oai:https://tede.ufam.edu.br/handle/:tede/7320 |
network_acronym_str |
UFAM |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
repository_id_str |
6592 |
spelling |
Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convoluçãoRedes neurais (Computação)Aprendizado do computadorReconhecimento de padrõesExpressão facialCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOReconhecimento de emoçãoExpressão facialRedes neurais de convoluçãoComputação afetivaDetecção de afetoDesenvolver a percepção emocional dos computadores é uma tendência tecnológica. O reconhecimento de emoção compõe sistemas cognitivos com aplicabilidade em diversas áreas. A expressão facial é uma maneira efetiva para reconhecer emoções, sobretudo por ser menos intrusiva na coleta de dados, quando comparada aos outros métodos, e pela facilidade de obter imagens da face diante da popularização das câmeras. Por meio das expressões faciais é possível classificar o grupo das emoções básicas (alegria, medo, surpresa, tristeza, desgosto e raiva) e neutralidade. Atualmente, as redes neurais de convolução (CNN) tem sido o estado da arte para classificação de imagens. Diante desse contexto, esta dissertação apresenta uma abordagem para reconhecer emoções por expressão facial utilizando CNN denominada como Single Shot Facial Expression Recognition (SSFER) e o seu uso em um estudo de caso. Inicialmente, um estudo experimental foi realizado para avaliar quatro detectores de faces em bases de expressões faciais e na VOC-2007. O método MMOD-CNN foi o melhor alcançando 91.89% de acurácia. Posteriormente, um outro estudo experimental foi conduzido a fim de comparar cinco arquiteturas de CNNs alternando quatro classificadores na última camada com intuito de classificar expressões faciais. As CNNs foram: VGGNet, InceptionResNetV2, InceptionV3, MobileNetV2 e ResidualNet, e os classificadores: Softmax, SVM, Random Forest e KNN. A ideia é que a CNN funcione como um extrator de características enviando um vetor unidimensional para o classificador definir a emoção. A melhor combinação foi a VGGNet com SVM alcançando 78.95% de acurácia. Desta forma, a abordagem proposta (SSFER) venceu com uma diferença de 9.74% de acurácia a API da Microsoft Cognitive Services em um comparação avaliando bases de expressões faciais. De um modo geral, as emoções alegria e surpresa foram as que tiveram maiores taxas de precisão. Em contrapartida, as emoções medo e raiva alcançaram as menores taxas de precisão. Um estudo de caso foi executado em um cenário real voltado para educação digital. Participaram vinte e sete estudantes do ensino médio com objetivo de responder um simulado do ENEM em uma plataforma digital. Durante a prova as expressões faciais dos estudantes foram coletadas, assim como, todas as interações com a plataforma. Após o simulado, as expressões faciais foram processadas para correlacionar com as interações de cliques e desempenho no teste. Análises de dados sugerem que a neutralidade pode estar relacionada ao estado de concentração e que estudantes passam a maior parte do tempo no estado de neutralidade. O estado de surpresa pode ser confundido aos bocejos possibilitando o reconhecimento de sonolência. E os estudantes que alcançaram as melhores notas no exame foram os que tiveram menor taxa de detecção de surpresa. Por fim, a abordagem proposta demostrou ser positiva para ser utilizada em aplicações gerais e, em particular, na educação digital.Developing the emotional perception of computers is a technological trend. Emotion recognition composes cognitive systems with applicability in several areas. Facial expression is an effective way to recognize emotions, especially because it is less intrusive in data collection when compared to other methods, and because it is easy to obtain facial images in view of the popularization of cameras. Through facial expressions it is possible to classify the group of basic emotions (joy, fear, surprise, sadness, disgust and anger) and neutrality. Currently, convolution neural networks (CNN) have been the state of the art for image classification. Given this context, this dissertation presents an approach to recognize facial expression emotions using CNN called Single Shot Facial Expression Recognition (SSFER) and its use in a case study. Initially, an experimental study was conducted to evaluate four face detectors in facial expression bases and in VOC-2007. The MMOD-CNN method was the best, reaching 91.89% accuracy. Subsequently, another experimental study was conducted to compare five CNN architectures by alternating four classifiers in the last layer to classify facial expressions. The CNNs were: VGGNet, InceptionResNetV2, InceptionV3, MobileNetV2 and ResidualNet, and the classifiers: Softmax, SVM, Random Forest and KNN. The idea is for CNN to function as a feature puller by sending a one-dimensional vector for the classifier to define emotion. The best combination was VGGNet with SVM reaching 78.95% accuracy. Thus, the proposed approach (SSFER) outperformed the Microsoft Cognitive Services API by 9.74% in a comparison by evaluating facial expression bases. Overall, the joy and surprise emotions had the highest accuracy rates. In contrast, the fear and anger emotions achieved the lowest accuracy rates. A case study was performed in a real scenario focused on digital education. Twenty-seven high school students participated in order to answer an ENEM mock on a digital platform. During the test the students' facial expressions were collected, as well as all interactions with the platform. After the simulated, facial expressions were processed to correlate with click interactions and test performance. Data analysis suggests that neutrality may be related to the state of concentration and that students spend most of their time in the state of neutrality. The state of surprise can be confused with yawning allowing the recognition of drowsiness. And the students who scored the highest on the exam had the lowest surprise detection rate. Finally, the proposed approach has been shown to be positive for use in general applications and in particular in digital education.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaBarreto, Raimundo da Silvahttp://lattes.cnpq.br/1132672107627968Oliveira, Elaine Harada Teixeira dehttp://lattes.cnpq.br/6553721651836761Silva, Daniel Lins dahttp://lattes.cnpq.br/6502450550040226Cruz, Anderson Araújo dahttp://lattes.cnpq.br/22893371009538062019-08-20T17:42:33Z2019-08-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCRUZ, Anderson Araújo da. Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução. 2019. 120 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2019.https://tede.ufam.edu.br/handle/tede/7320porhttp://creativecommons.org/licenses/by-sa/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2019-08-21T05:03:39Zoai:https://tede.ufam.edu.br/handle/:tede/7320Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922019-08-21T05:03:39Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false |
dc.title.none.fl_str_mv |
Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução |
title |
Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução |
spellingShingle |
Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução Cruz, Anderson Araújo da Redes neurais (Computação) Aprendizado do computador Reconhecimento de padrões Expressão facial CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Reconhecimento de emoção Expressão facial Redes neurais de convolução Computação afetiva Detecção de afeto |
title_short |
Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução |
title_full |
Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução |
title_fullStr |
Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução |
title_full_unstemmed |
Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução |
title_sort |
Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução |
author |
Cruz, Anderson Araújo da |
author_facet |
Cruz, Anderson Araújo da http://lattes.cnpq.br/2289337100953806 |
author_role |
author |
author2 |
http://lattes.cnpq.br/2289337100953806 |
author2_role |
author |
dc.contributor.none.fl_str_mv |
Barreto, Raimundo da Silva http://lattes.cnpq.br/1132672107627968 Oliveira, Elaine Harada Teixeira de http://lattes.cnpq.br/6553721651836761 Silva, Daniel Lins da http://lattes.cnpq.br/6502450550040226 |
dc.contributor.author.fl_str_mv |
Cruz, Anderson Araújo da http://lattes.cnpq.br/2289337100953806 |
dc.subject.por.fl_str_mv |
Redes neurais (Computação) Aprendizado do computador Reconhecimento de padrões Expressão facial CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Reconhecimento de emoção Expressão facial Redes neurais de convolução Computação afetiva Detecção de afeto |
topic |
Redes neurais (Computação) Aprendizado do computador Reconhecimento de padrões Expressão facial CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Reconhecimento de emoção Expressão facial Redes neurais de convolução Computação afetiva Detecção de afeto |
description |
Desenvolver a percepção emocional dos computadores é uma tendência tecnológica. O reconhecimento de emoção compõe sistemas cognitivos com aplicabilidade em diversas áreas. A expressão facial é uma maneira efetiva para reconhecer emoções, sobretudo por ser menos intrusiva na coleta de dados, quando comparada aos outros métodos, e pela facilidade de obter imagens da face diante da popularização das câmeras. Por meio das expressões faciais é possível classificar o grupo das emoções básicas (alegria, medo, surpresa, tristeza, desgosto e raiva) e neutralidade. Atualmente, as redes neurais de convolução (CNN) tem sido o estado da arte para classificação de imagens. Diante desse contexto, esta dissertação apresenta uma abordagem para reconhecer emoções por expressão facial utilizando CNN denominada como Single Shot Facial Expression Recognition (SSFER) e o seu uso em um estudo de caso. Inicialmente, um estudo experimental foi realizado para avaliar quatro detectores de faces em bases de expressões faciais e na VOC-2007. O método MMOD-CNN foi o melhor alcançando 91.89% de acurácia. Posteriormente, um outro estudo experimental foi conduzido a fim de comparar cinco arquiteturas de CNNs alternando quatro classificadores na última camada com intuito de classificar expressões faciais. As CNNs foram: VGGNet, InceptionResNetV2, InceptionV3, MobileNetV2 e ResidualNet, e os classificadores: Softmax, SVM, Random Forest e KNN. A ideia é que a CNN funcione como um extrator de características enviando um vetor unidimensional para o classificador definir a emoção. A melhor combinação foi a VGGNet com SVM alcançando 78.95% de acurácia. Desta forma, a abordagem proposta (SSFER) venceu com uma diferença de 9.74% de acurácia a API da Microsoft Cognitive Services em um comparação avaliando bases de expressões faciais. De um modo geral, as emoções alegria e surpresa foram as que tiveram maiores taxas de precisão. Em contrapartida, as emoções medo e raiva alcançaram as menores taxas de precisão. Um estudo de caso foi executado em um cenário real voltado para educação digital. Participaram vinte e sete estudantes do ensino médio com objetivo de responder um simulado do ENEM em uma plataforma digital. Durante a prova as expressões faciais dos estudantes foram coletadas, assim como, todas as interações com a plataforma. Após o simulado, as expressões faciais foram processadas para correlacionar com as interações de cliques e desempenho no teste. Análises de dados sugerem que a neutralidade pode estar relacionada ao estado de concentração e que estudantes passam a maior parte do tempo no estado de neutralidade. O estado de surpresa pode ser confundido aos bocejos possibilitando o reconhecimento de sonolência. E os estudantes que alcançaram as melhores notas no exame foram os que tiveram menor taxa de detecção de surpresa. Por fim, a abordagem proposta demostrou ser positiva para ser utilizada em aplicações gerais e, em particular, na educação digital. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-08-20T17:42:33Z 2019-08-02 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
CRUZ, Anderson Araújo da. Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução. 2019. 120 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2019. https://tede.ufam.edu.br/handle/tede/7320 |
identifier_str_mv |
CRUZ, Anderson Araújo da. Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução. 2019. 120 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2019. |
url |
https://tede.ufam.edu.br/handle/tede/7320 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-sa/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-sa/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM |
instname_str |
Universidade Federal do Amazonas (UFAM) |
instacron_str |
UFAM |
institution |
UFAM |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
collection |
Biblioteca Digital de Teses e Dissertações da UFAM |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM) |
repository.mail.fl_str_mv |
ddbc@ufam.edu.br||ddbc@ufam.edu.br |
_version_ |
1809732035490611200 |