Skeleton Fusion for Gestures Recognition in AugmentedReality Environments

Detalhes bibliográficos
Autor(a) principal: Diogo, Miguel António de Figueiredo Moura
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/97920
Resumo: Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
id RCAP_233e0f9783095774d07fd4874cf4f0cf
oai_identifier_str oai:estudogeral.uc.pt:10316/97920
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Skeleton Fusion for Gestures Recognition in AugmentedReality EnvironmentsFusão de Esqueletos e Reconhecimento de GestosCNNReconhecimento de gestos humanosFusão de informação RGB-DCNNHuman gesture recognitionRGB-D data fusionDissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e TecnologiaInteligência artificial (IA) é uma área da computação responsável por criar algoritmos capazes de realizar tarefas que requerem inteligência humana. Uma destas tarefas é reconhecimento de gestos humanos, que tem como objectivo analisar os movimentos do corpo humano ao longo do tempo por forma a discriminar/distinguir diferentes gestos. Reconhecimento de gestos implica capacidade de sentir a pose desse humano ao longo do tempo, o que geralmente é feito com câmaras e recorrendo outra área de IA chamada visão por computador.Esta dissertação propõe um pipeline que reconhece gestos humanos a partir de 4 câmaras Microsoft Kinect V2. O pipeline proposto pode ser divido em 3 partes: fusão de skeleton data gerada por 4 câmaras RGB-D, codificação numa imagem da informação fundida e reconhecimento de gestos a partir dessas imagens através de algoritmos de aprendizagem de máquina. De cada câmara é obtida uma série temporal de posições 3D de juntas. Para obter posições tridimensionais, duas das coordenadas são calculadas por OpenPose, e a restante provém da informação de profundidade lida pelas câmaras. As quatro séries temporais são fundidas com um filtro de Kalman. Na segunda parte do pipeline, a série temporal é codificada numa imagem. Dois métodos diferentes são testados para a codificação da série temporal numa imagem: gramian angular fields e recurrence plots. Por último uma rede neural convolucional (CNN) é usada para distinguir sequências de gestos codificadas nas imagens.O nosso pipeline consegui obter uma precisão de 87.8\% no nosso dataset usando a codificação recurrence plot. No entanto, o nosso algoritmo de codificação de skeleton data em imagens e alimentação de uma CNN com essas imagens foi testado não só com um dataset nosso, mas também com outros 2 públicos.Artificial Intelligence is a field of computer science responsible for creating algorithms capable of executing tasks that have traditionally required human intelligence. One of these tasks is \acrfull{har}, whose purpose is to analyze human body movements through time and differentiate between different actions. HAR algorithms rely on the capacity to sense a human body's pose through time, which is generally done with cameras through another field in AI called computer vision.This thesis proposes a pipeline that recognizes human actions from 4 cameras Microsoft Kinect V2. The proposed pipeline can be divided into three parts: the fusion of skeleton data attained from 4 RGB-D cameras, the conversion of the fused data into an image, and action recognition from those images through machine learning algorithms. A time series of 3D joints is extracted from each one of the four cameras. Two of the joint coordinates are computed by the OpenPose algorithm, and the remaining one comes from depth information measured by the cameras. The four time series are fused with a Kalman filter. On the second part of the pipeline, the time series is converted into an image. Two different methods are tested to convert a time series into an image: the gramian angular fields and recurrence plots. Finally, the image that encodes skeleton data is feed into a convolutional neuronal network to recognize the action sequence being performed.Our pipeline manages to attain an accuracy of 87.8\% on our dataset while recurrence plots to encode time series into an image. Nevertheless, our algorithm to convert time series into images and feed those images into a CNN was tested with our dataset and two other public datasets.2021-11-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/97920http://hdl.handle.net/10316/97920TID:202920518engDiogo, Miguel António de Figueiredo Mourainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T03:02:13Zoai:estudogeral.uc.pt:10316/97920Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:15:52.502868Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Skeleton Fusion for Gestures Recognition in AugmentedReality Environments
Fusão de Esqueletos e Reconhecimento de Gestos
title Skeleton Fusion for Gestures Recognition in AugmentedReality Environments
spellingShingle Skeleton Fusion for Gestures Recognition in AugmentedReality Environments
Diogo, Miguel António de Figueiredo Moura
CNN
Reconhecimento de gestos humanos
Fusão de informação RGB-D
CNN
Human gesture recognition
RGB-D data fusion
title_short Skeleton Fusion for Gestures Recognition in AugmentedReality Environments
title_full Skeleton Fusion for Gestures Recognition in AugmentedReality Environments
title_fullStr Skeleton Fusion for Gestures Recognition in AugmentedReality Environments
title_full_unstemmed Skeleton Fusion for Gestures Recognition in AugmentedReality Environments
title_sort Skeleton Fusion for Gestures Recognition in AugmentedReality Environments
author Diogo, Miguel António de Figueiredo Moura
author_facet Diogo, Miguel António de Figueiredo Moura
author_role author
dc.contributor.author.fl_str_mv Diogo, Miguel António de Figueiredo Moura
dc.subject.por.fl_str_mv CNN
Reconhecimento de gestos humanos
Fusão de informação RGB-D
CNN
Human gesture recognition
RGB-D data fusion
topic CNN
Reconhecimento de gestos humanos
Fusão de informação RGB-D
CNN
Human gesture recognition
RGB-D data fusion
description Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
publishDate 2021
dc.date.none.fl_str_mv 2021-11-18
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/97920
http://hdl.handle.net/10316/97920
TID:202920518
url http://hdl.handle.net/10316/97920
identifier_str_mv TID:202920518
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134055261798400