3D Pose and Shape Estimation from a Camera System

Detalhes bibliográficos
Autor(a) principal: Figueiredo, Lino Manuel Baptista
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/23871
Resumo: Neste trabalho, é abordada uma solução que procura estimar a posição articular 3D de várias pessoas em cenários reais, bem como a sua forma corporal e trajetória global a partir de um único vídeo RGB, gravado com uma câmara estática ou dinâmica. Em contraste com sistemas multi-view complexos, esta solução prioriza a simplicidade e adaptabilidade em diferentes aplicações. Face ao cenário desafiador, desenvolveu-se um sistema baseado em diferentes frameworks, individualmente otimizadas para o seu propósito. Como tal, o autor procurou estender o processo realizado num pose and shape estimator convencional, implementando, de forma robusta, a capacidade tracking de humanos e uma inferência com base em coerência temporal, capaz de lidar com oclusões completas em longos intervalos de tempo. Os humanos, presentes no cenário, são detetados e devidamente identificados ao longo do vídeo, a partir de um Multiple Person Tracking (MPT) (i.e., Deep OCSORT com YOLOv8x e Re-Identication (Re-ID) model). Esta informação, alimenta o Human Pose and Shape (HPS) estimator (i.e., HybrIK com backbone da rede HRNet-W48) capaz de gerar, a partir de uma combinação da representação volumétrica das articulações com a capacidade de extração de features das DCNNs, uma sequência que define o movimento do humano no sistema de coordenadas da câmara (i.e., root translations, root rotations, pose do corpo e os parâmetros do shape). Complementarmente, o movimento humano, localmente definido, é preenchido segundo um processo iterativo, dado pela integração do generative motion optimizer, por sua vez organizado numa arquitetura baseada em Transformers e apoiado pelas relações temporais presentes na informação das deteções visíveis. Para um conjunto de parâmetros descritivos do movimento corporal de cada humano é obtido a respetiva trajetória global, propriamente relacionadas, num processo baseado na variação posicional local (posição no plano e orientação) e numa otimização iterativa dos parâmetros da câmara consistente com as evidências do vídeo, e.g., 2D keypoints. Os resultados, obtidos no dataset 3DPW, demonstram que a abordagem proposta superar os métodos anteriores na reconstrução do movimento, com 68, 2 mm PAMPJPE em oclusões e 46, 4 mm PA-MPJPE em poses visíveis.
id RCAP_c353f7e7e9eb1a9569aa3a35970f8a87
oai_identifier_str oai:recipp.ipp.pt:10400.22/23871
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling 3D Pose and Shape Estimation from a Camera System3D Human pose and shape estimationCamera parameters optimizationDeep learningGlobal pose estimationMulti-person motion reconstructionMulti-person trackingOcclusion-aware pose estimationTransformer-basedCamera parameters optimizationNeste trabalho, é abordada uma solução que procura estimar a posição articular 3D de várias pessoas em cenários reais, bem como a sua forma corporal e trajetória global a partir de um único vídeo RGB, gravado com uma câmara estática ou dinâmica. Em contraste com sistemas multi-view complexos, esta solução prioriza a simplicidade e adaptabilidade em diferentes aplicações. Face ao cenário desafiador, desenvolveu-se um sistema baseado em diferentes frameworks, individualmente otimizadas para o seu propósito. Como tal, o autor procurou estender o processo realizado num pose and shape estimator convencional, implementando, de forma robusta, a capacidade tracking de humanos e uma inferência com base em coerência temporal, capaz de lidar com oclusões completas em longos intervalos de tempo. Os humanos, presentes no cenário, são detetados e devidamente identificados ao longo do vídeo, a partir de um Multiple Person Tracking (MPT) (i.e., Deep OCSORT com YOLOv8x e Re-Identication (Re-ID) model). Esta informação, alimenta o Human Pose and Shape (HPS) estimator (i.e., HybrIK com backbone da rede HRNet-W48) capaz de gerar, a partir de uma combinação da representação volumétrica das articulações com a capacidade de extração de features das DCNNs, uma sequência que define o movimento do humano no sistema de coordenadas da câmara (i.e., root translations, root rotations, pose do corpo e os parâmetros do shape). Complementarmente, o movimento humano, localmente definido, é preenchido segundo um processo iterativo, dado pela integração do generative motion optimizer, por sua vez organizado numa arquitetura baseada em Transformers e apoiado pelas relações temporais presentes na informação das deteções visíveis. Para um conjunto de parâmetros descritivos do movimento corporal de cada humano é obtido a respetiva trajetória global, propriamente relacionadas, num processo baseado na variação posicional local (posição no plano e orientação) e numa otimização iterativa dos parâmetros da câmara consistente com as evidências do vídeo, e.g., 2D keypoints. Os resultados, obtidos no dataset 3DPW, demonstram que a abordagem proposta superar os métodos anteriores na reconstrução do movimento, com 68, 2 mm PAMPJPE em oclusões e 46, 4 mm PA-MPJPE em poses visíveis.In this work, a solution is addressed that try to estimate the 3D joint position of several people in in-the-wild scenes, as well as their body shape and global trajectory from a single RGB video, recorded with a static or dynamic camera. In contrast to complex multi-view systems, this solution prioritizes simplicity and adaptability in different applications. Faced with the challenging scenario, a system was developed based on different frameworks, individually optimized for their purpose. As such, the author sought to extend the process carried out in a conventional pose and shape estimator, robustly implementing the tracking capability of humans and an inference based on temporal coherence, capable of dealing with complete occlusions over long time intervals. The humans, present in the scene, are detected and duly identified throughout the video using an Multiple Person Tracking (MPT) (i.e., Deep OC-SORT with YOLOv8x and Re-ID model). This information is fed into the HPS estimator (i.e., HybrIK with backbone from the HRNet-W48 network), which is able to generate, from a combination of the volumetric representation of the joints and the ability to extract features from the DCNNs, a sequence that defines the body motion of the human in the camera’s coordinate system (i.e., root translations, root rotations, body pose and shape parameters). In addition, the body motion, locally defined, is filled according to an iterative process, given by the integration of the generative motion optimizer, in turn organized in an architecture based on Transformers and supported by the temporal relationships present in the information of the visible detections. For a set of parameters describing the body motion of each human, the respective global trajectory is obtained, properly related, in a process based on local positional variation (position in the plane and orientation) and an iterative optimization of the camera parameters consistent with the video evidence, e.g., 2D keypoints. The results, obtained in the 3DPW dataset, show that the proposed approach outperforms previous methods in motion reconstruction, with 68.2 mm PA-MPJPE in occlusions and 46.4 mm PA-MPJPE in visible poses.Repositório Científico do Instituto Politécnico do PortoFigueiredo, Lino Manuel Baptista2023-11-09T10:39:12Z20232023-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/23871TID:203380266porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-15T01:47:48Zoai:recipp.ipp.pt:10400.22/23871Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:42:33.828124Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv 3D Pose and Shape Estimation from a Camera System
title 3D Pose and Shape Estimation from a Camera System
spellingShingle 3D Pose and Shape Estimation from a Camera System
Figueiredo, Lino Manuel Baptista
3D Human pose and shape estimation
Camera parameters optimization
Deep learning
Global pose estimation
Multi-person motion reconstruction
Multi-person tracking
Occlusion-aware pose estimation
Transformer-based
Camera parameters optimization
title_short 3D Pose and Shape Estimation from a Camera System
title_full 3D Pose and Shape Estimation from a Camera System
title_fullStr 3D Pose and Shape Estimation from a Camera System
title_full_unstemmed 3D Pose and Shape Estimation from a Camera System
title_sort 3D Pose and Shape Estimation from a Camera System
author Figueiredo, Lino Manuel Baptista
author_facet Figueiredo, Lino Manuel Baptista
author_role author
dc.contributor.none.fl_str_mv Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Figueiredo, Lino Manuel Baptista
dc.subject.por.fl_str_mv 3D Human pose and shape estimation
Camera parameters optimization
Deep learning
Global pose estimation
Multi-person motion reconstruction
Multi-person tracking
Occlusion-aware pose estimation
Transformer-based
Camera parameters optimization
topic 3D Human pose and shape estimation
Camera parameters optimization
Deep learning
Global pose estimation
Multi-person motion reconstruction
Multi-person tracking
Occlusion-aware pose estimation
Transformer-based
Camera parameters optimization
description Neste trabalho, é abordada uma solução que procura estimar a posição articular 3D de várias pessoas em cenários reais, bem como a sua forma corporal e trajetória global a partir de um único vídeo RGB, gravado com uma câmara estática ou dinâmica. Em contraste com sistemas multi-view complexos, esta solução prioriza a simplicidade e adaptabilidade em diferentes aplicações. Face ao cenário desafiador, desenvolveu-se um sistema baseado em diferentes frameworks, individualmente otimizadas para o seu propósito. Como tal, o autor procurou estender o processo realizado num pose and shape estimator convencional, implementando, de forma robusta, a capacidade tracking de humanos e uma inferência com base em coerência temporal, capaz de lidar com oclusões completas em longos intervalos de tempo. Os humanos, presentes no cenário, são detetados e devidamente identificados ao longo do vídeo, a partir de um Multiple Person Tracking (MPT) (i.e., Deep OCSORT com YOLOv8x e Re-Identication (Re-ID) model). Esta informação, alimenta o Human Pose and Shape (HPS) estimator (i.e., HybrIK com backbone da rede HRNet-W48) capaz de gerar, a partir de uma combinação da representação volumétrica das articulações com a capacidade de extração de features das DCNNs, uma sequência que define o movimento do humano no sistema de coordenadas da câmara (i.e., root translations, root rotations, pose do corpo e os parâmetros do shape). Complementarmente, o movimento humano, localmente definido, é preenchido segundo um processo iterativo, dado pela integração do generative motion optimizer, por sua vez organizado numa arquitetura baseada em Transformers e apoiado pelas relações temporais presentes na informação das deteções visíveis. Para um conjunto de parâmetros descritivos do movimento corporal de cada humano é obtido a respetiva trajetória global, propriamente relacionadas, num processo baseado na variação posicional local (posição no plano e orientação) e numa otimização iterativa dos parâmetros da câmara consistente com as evidências do vídeo, e.g., 2D keypoints. Os resultados, obtidos no dataset 3DPW, demonstram que a abordagem proposta superar os métodos anteriores na reconstrução do movimento, com 68, 2 mm PAMPJPE em oclusões e 46, 4 mm PA-MPJPE em poses visíveis.
publishDate 2023
dc.date.none.fl_str_mv 2023-11-09T10:39:12Z
2023
2023-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/23871
TID:203380266
url http://hdl.handle.net/10400.22/23871
identifier_str_mv TID:203380266
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134990813888512