3D Pose and Shape Estimation from a Camera System

Figueiredo, Lino Manuel Baptista

3D Pose and Shape Estimation from a Camera System

Detalhes bibliográficos
Autor(a) principal:	Figueiredo, Lino Manuel Baptista
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10400.22/23871
Resumo:	Neste trabalho, é abordada uma solução que procura estimar a posição articular 3D de várias pessoas em cenários reais, bem como a sua forma corporal e trajetória global a partir de um único vídeo RGB, gravado com uma câmara estática ou dinâmica. Em contraste com sistemas multi-view complexos, esta solução prioriza a simplicidade e adaptabilidade em diferentes aplicações. Face ao cenário desafiador, desenvolveu-se um sistema baseado em diferentes frameworks, individualmente otimizadas para o seu propósito. Como tal, o autor procurou estender o processo realizado num pose and shape estimator convencional, implementando, de forma robusta, a capacidade tracking de humanos e uma inferência com base em coerência temporal, capaz de lidar com oclusões completas em longos intervalos de tempo. Os humanos, presentes no cenário, são detetados e devidamente identificados ao longo do vídeo, a partir de um Multiple Person Tracking (MPT) (i.e., Deep OCSORT com YOLOv8x e Re-Identication (Re-ID) model). Esta informação, alimenta o Human Pose and Shape (HPS) estimator (i.e., HybrIK com backbone da rede HRNet-W48) capaz de gerar, a partir de uma combinação da representação volumétrica das articulações com a capacidade de extração de features das DCNNs, uma sequência que define o movimento do humano no sistema de coordenadas da câmara (i.e., root translations, root rotations, pose do corpo e os parâmetros do shape). Complementarmente, o movimento humano, localmente definido, é preenchido segundo um processo iterativo, dado pela integração do generative motion optimizer, por sua vez organizado numa arquitetura baseada em Transformers e apoiado pelas relações temporais presentes na informação das deteções visíveis. Para um conjunto de parâmetros descritivos do movimento corporal de cada humano é obtido a respetiva trajetória global, propriamente relacionadas, num processo baseado na variação posicional local (posição no plano e orientação) e numa otimização iterativa dos parâmetros da câmara consistente com as evidências do vídeo, e.g., 2D keypoints. Os resultados, obtidos no dataset 3DPW, demonstram que a abordagem proposta superar os métodos anteriores na reconstrução do movimento, com 68, 2 mm PAMPJPE em oclusões e 46, 4 mm PA-MPJPE em poses visíveis.

Metadados do item

id	RCAP_c353f7e7e9eb1a9569aa3a35970f8a87
oai_identifier_str	oai:recipp.ipp.pt:10400.22/23871
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	3D Pose and Shape Estimation from a Camera System3D Human pose and shape estimationCamera parameters optimizationDeep learningGlobal pose estimationMulti-person motion reconstructionMulti-person trackingOcclusion-aware pose estimationTransformer-basedCamera parameters optimizationNeste trabalho, é abordada uma solução que procura estimar a posição articular 3D de várias pessoas em cenários reais, bem como a sua forma corporal e trajetória global a partir de um único vídeo RGB, gravado com uma câmara estática ou dinâmica. Em contraste com sistemas multi-view complexos, esta solução prioriza a simplicidade e adaptabilidade em diferentes aplicações. Face ao cenário desafiador, desenvolveu-se um sistema baseado em diferentes frameworks, individualmente otimizadas para o seu propósito. Como tal, o autor procurou estender o processo realizado num pose and shape estimator convencional, implementando, de forma robusta, a capacidade tracking de humanos e uma inferência com base em coerência temporal, capaz de lidar com oclusões completas em longos intervalos de tempo. Os humanos, presentes no cenário, são detetados e devidamente identificados ao longo do vídeo, a partir de um Multiple Person Tracking (MPT) (i.e., Deep OCSORT com YOLOv8x e Re-Identication (Re-ID) model). Esta informação, alimenta o Human Pose and Shape (HPS) estimator (i.e., HybrIK com backbone da rede HRNet-W48) capaz de gerar, a partir de uma combinação da representação volumétrica das articulações com a capacidade de extração de features das DCNNs, uma sequência que define o movimento do humano no sistema de coordenadas da câmara (i.e., root translations, root rotations, pose do corpo e os parâmetros do shape). Complementarmente, o movimento humano, localmente definido, é preenchido segundo um processo iterativo, dado pela integração do generative motion optimizer, por sua vez organizado numa arquitetura baseada em Transformers e apoiado pelas relações temporais presentes na informação das deteções visíveis. Para um conjunto de parâmetros descritivos do movimento corporal de cada humano é obtido a respetiva trajetória global, propriamente relacionadas, num processo baseado na variação posicional local (posição no plano e orientação) e numa otimização iterativa dos parâmetros da câmara consistente com as evidências do vídeo, e.g., 2D keypoints. Os resultados, obtidos no dataset 3DPW, demonstram que a abordagem proposta superar os métodos anteriores na reconstrução do movimento, com 68, 2 mm PAMPJPE em oclusões e 46, 4 mm PA-MPJPE em poses visíveis.In this work, a solution is addressed that try to estimate the 3D joint position of several people in in-the-wild scenes, as well as their body shape and global trajectory from a single RGB video, recorded with a static or dynamic camera. In contrast to complex multi-view systems, this solution prioritizes simplicity and adaptability in different applications. Faced with the challenging scenario, a system was developed based on different frameworks, individually optimized for their purpose. As such, the author sought to extend the process carried out in a conventional pose and shape estimator, robustly implementing the tracking capability of humans and an inference based on temporal coherence, capable of dealing with complete occlusions over long time intervals. The humans, present in the scene, are detected and duly identified throughout the video using an Multiple Person Tracking (MPT) (i.e., Deep OC-SORT with YOLOv8x and Re-ID model). This information is fed into the HPS estimator (i.e., HybrIK with backbone from the HRNet-W48 network), which is able to generate, from a combination of the volumetric representation of the joints and the ability to extract features from the DCNNs, a sequence that defines the body motion of the human in the camera’s coordinate system (i.e., root translations, root rotations, body pose and shape parameters). In addition, the body motion, locally defined, is filled according to an iterative process, given by the integration of the generative motion optimizer, in turn organized in an architecture based on Transformers and supported by the temporal relationships present in the information of the visible detections. For a set of parameters describing the body motion of each human, the respective global trajectory is obtained, properly related, in a process based on local positional variation (position in the plane and orientation) and an iterative optimization of the camera parameters consistent with the video evidence, e.g., 2D keypoints. The results, obtained in the 3DPW dataset, show that the proposed approach outperforms previous methods in motion reconstruction, with 68.2 mm PA-MPJPE in occlusions and 46.4 mm PA-MPJPE in visible poses.Repositório Científico do Instituto Politécnico do PortoFigueiredo, Lino Manuel Baptista2023-11-09T10:39:12Z20232023-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/23871TID:203380266porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-15T01:47:48Zoai:recipp.ipp.pt:10400.22/23871Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:42:33.828124Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	3D Pose and Shape Estimation from a Camera System
title	3D Pose and Shape Estimation from a Camera System
spellingShingle	3D Pose and Shape Estimation from a Camera System Figueiredo, Lino Manuel Baptista 3D Human pose and shape estimation Camera parameters optimization Deep learning Global pose estimation Multi-person motion reconstruction Multi-person tracking Occlusion-aware pose estimation Transformer-based Camera parameters optimization
title_short	3D Pose and Shape Estimation from a Camera System
title_full	3D Pose and Shape Estimation from a Camera System
title_fullStr	3D Pose and Shape Estimation from a Camera System
title_full_unstemmed	3D Pose and Shape Estimation from a Camera System
title_sort	3D Pose and Shape Estimation from a Camera System
author	Figueiredo, Lino Manuel Baptista
author_facet	Figueiredo, Lino Manuel Baptista
author_role	author
dc.contributor.none.fl_str_mv	Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv	Figueiredo, Lino Manuel Baptista
dc.subject.por.fl_str_mv	3D Human pose and shape estimation Camera parameters optimization Deep learning Global pose estimation Multi-person motion reconstruction Multi-person tracking Occlusion-aware pose estimation Transformer-based Camera parameters optimization
topic	3D Human pose and shape estimation Camera parameters optimization Deep learning Global pose estimation Multi-person motion reconstruction Multi-person tracking Occlusion-aware pose estimation Transformer-based Camera parameters optimization
description	Neste trabalho, é abordada uma solução que procura estimar a posição articular 3D de várias pessoas em cenários reais, bem como a sua forma corporal e trajetória global a partir de um único vídeo RGB, gravado com uma câmara estática ou dinâmica. Em contraste com sistemas multi-view complexos, esta solução prioriza a simplicidade e adaptabilidade em diferentes aplicações. Face ao cenário desafiador, desenvolveu-se um sistema baseado em diferentes frameworks, individualmente otimizadas para o seu propósito. Como tal, o autor procurou estender o processo realizado num pose and shape estimator convencional, implementando, de forma robusta, a capacidade tracking de humanos e uma inferência com base em coerência temporal, capaz de lidar com oclusões completas em longos intervalos de tempo. Os humanos, presentes no cenário, são detetados e devidamente identificados ao longo do vídeo, a partir de um Multiple Person Tracking (MPT) (i.e., Deep OCSORT com YOLOv8x e Re-Identication (Re-ID) model). Esta informação, alimenta o Human Pose and Shape (HPS) estimator (i.e., HybrIK com backbone da rede HRNet-W48) capaz de gerar, a partir de uma combinação da representação volumétrica das articulações com a capacidade de extração de features das DCNNs, uma sequência que define o movimento do humano no sistema de coordenadas da câmara (i.e., root translations, root rotations, pose do corpo e os parâmetros do shape). Complementarmente, o movimento humano, localmente definido, é preenchido segundo um processo iterativo, dado pela integração do generative motion optimizer, por sua vez organizado numa arquitetura baseada em Transformers e apoiado pelas relações temporais presentes na informação das deteções visíveis. Para um conjunto de parâmetros descritivos do movimento corporal de cada humano é obtido a respetiva trajetória global, propriamente relacionadas, num processo baseado na variação posicional local (posição no plano e orientação) e numa otimização iterativa dos parâmetros da câmara consistente com as evidências do vídeo, e.g., 2D keypoints. Os resultados, obtidos no dataset 3DPW, demonstram que a abordagem proposta superar os métodos anteriores na reconstrução do movimento, com 68, 2 mm PAMPJPE em oclusões e 46, 4 mm PA-MPJPE em poses visíveis.
publishDate	2023
dc.date.none.fl_str_mv	2023-11-09T10:39:12Z 2023 2023-01-01T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.22/23871 TID:203380266
url	http://hdl.handle.net/10400.22/23871
identifier_str_mv	TID:203380266
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799134990813888512

3D Pose and Shape Estimation from a Camera System

Registros relacionados