[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING

Detalhes bibliográficos
Autor(a) principal: LUIS CARLOS PARRA CAMACHO
Data de Publicação: 2024
Tipo de documento: Outros
Idioma: eng
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@2
http://doi.org/10.17771/PUCRio.acad.67995
Resumo: [pt] A aprendizagem por reforço, uma técnica influente para treinar sistemas inteligentes, ganhou destaque na academia e na indústria devido à sua capacidade de resolver problemas complexos sem modelos pré-existentes. No entanto, sua aplicação a sistemas do mundo real é desafiadora devido à sua complexidade causada por altas não linearidades, amostras limitadas e restrições. Consequentemente, a pesquisa nessa área tem se concentrado principalmente em simulação, onde os modelos podem ser facilmente testados e refinados. Neste trabalho, foi proposta uma estratégia de aprendizagem por reforço para um robô bípede do mundo real aprender o comportamento de caminhada do zero. Também é apresentado um desenho de sistema focado na redução de estresse e simplicidade, garantindo um desempenho robusto, incluindo uma placa de circuito impresso personalizada para o manuseio eficiente dos componentes elétricos. O software do sistema é dividido entre a placa do sistema mestre e o sistema baseado em ROS, permitindo a comunicação entre os componentes e resolvendo o problema de perda de dados e atraso na comunicação. A simulação do modelo do robô é desenvolvida na plataforma Mujoco, incorporando propriedades físicas e parâmetros ambientais. Os algoritmos DDPG, TD3 e SAC foram utilizados para aprendizado e avaliação da técnica de destilação de política para transferência de conhecimento para uma rede mais eficiente. Finalmente, foi avaliada a transferência do aprendizado para o mundo real apresentando um experimento preliminar de aprendizado do zero no mundo real. Os resultados demonstram a eficácia do projeto do sistema robótico e dos algoritmos de aprendizado, alcançando uma caminhada estável na simulação e um máximo de catorze passos na vida real com a destilação de política do algoritmo SAC.
id PUC_RIO-1_580a1ea273b3b06cbc69624198e2f776
oai_identifier_str oai:MAXWELL.puc-rio.br:67995
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling [en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING [pt] UM ROBÔ AUTÔNOMO BÍPEDE PARA APRENDIZADO POR REFORÇO ON-LINE [pt] APRENDIZADO POR REFORCO NO MUNDO REAL[pt] DESTILACAO DA POLITICA[pt] ROBO BIPEDE[en] REAL WORLD REINFORCEMENT LEARNING[en] POLICY DESTILLATION[en] BIPEDAL ROBOT[pt] A aprendizagem por reforço, uma técnica influente para treinar sistemas inteligentes, ganhou destaque na academia e na indústria devido à sua capacidade de resolver problemas complexos sem modelos pré-existentes. No entanto, sua aplicação a sistemas do mundo real é desafiadora devido à sua complexidade causada por altas não linearidades, amostras limitadas e restrições. Consequentemente, a pesquisa nessa área tem se concentrado principalmente em simulação, onde os modelos podem ser facilmente testados e refinados. Neste trabalho, foi proposta uma estratégia de aprendizagem por reforço para um robô bípede do mundo real aprender o comportamento de caminhada do zero. Também é apresentado um desenho de sistema focado na redução de estresse e simplicidade, garantindo um desempenho robusto, incluindo uma placa de circuito impresso personalizada para o manuseio eficiente dos componentes elétricos. O software do sistema é dividido entre a placa do sistema mestre e o sistema baseado em ROS, permitindo a comunicação entre os componentes e resolvendo o problema de perda de dados e atraso na comunicação. A simulação do modelo do robô é desenvolvida na plataforma Mujoco, incorporando propriedades físicas e parâmetros ambientais. Os algoritmos DDPG, TD3 e SAC foram utilizados para aprendizado e avaliação da técnica de destilação de política para transferência de conhecimento para uma rede mais eficiente. Finalmente, foi avaliada a transferência do aprendizado para o mundo real apresentando um experimento preliminar de aprendizado do zero no mundo real. Os resultados demonstram a eficácia do projeto do sistema robótico e dos algoritmos de aprendizado, alcançando uma caminhada estável na simulação e um máximo de catorze passos na vida real com a destilação de política do algoritmo SAC.[en] Reinforcement learning, an influential technique for training intelligent systems, has gained prominence in academia and industry due to its ability to solve complex problems without pre-existing models. However, its application to real-world systems is challenging due to its complexity caused by high non-linearities, limited samples, and constraints. Consequently, research in this area has mainly focused on simulation, where models can be easily tested and refined. In this work, a reinforcement learning strategy towards a real-world bipedal robot to learn walking behavior from scratch was proposed. We present a robot system design focused on stress reduction and simplicity, ensuring robust performance, including a custom printed circuit board (PCB) for efficient handling of electrical components. The system s software is divided into the master system board and the ROS system, allowing communication between components and addressing data loss and communication delay issues. The robot model simulation is developed on the Mujoco platform, incorporating physical properties and environmental parameters. We utilize Deep Deterministic Policy Gradient (DDPG), Twin-Delayed Deep Deterministic Policy Gradient (TD3), and Soft Actor-Critic (SAC) algorithms for learning and evaluating the policy distillation technique for transferring knowledge to a more efficient network. Finally, we evaluate the transfer of learning to the real world and present a preliminary experiment of learning from scratch in the real world. Our results demonstrate the effectiveness of the robotic system design and the learning algorithms, achieving stable walking in simulation and a maximum of fourteen steps in real life with the policy distillation of the SAC algorithm. MAXWELLWOUTER CAARLSLUIS CARLOS PARRA CAMACHO2024-09-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@2http://doi.org/10.17771/PUCRio.acad.67995engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2024-09-13T00:00:00Zoai:MAXWELL.puc-rio.br:67995Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342024-09-13T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING
[pt] UM ROBÔ AUTÔNOMO BÍPEDE PARA APRENDIZADO POR REFORÇO ON-LINE
title [en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING
spellingShingle [en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING
LUIS CARLOS PARRA CAMACHO
[pt] APRENDIZADO POR REFORCO NO MUNDO REAL
[pt] DESTILACAO DA POLITICA
[pt] ROBO BIPEDE
[en] REAL WORLD REINFORCEMENT LEARNING
[en] POLICY DESTILLATION
[en] BIPEDAL ROBOT
title_short [en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING
title_full [en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING
title_fullStr [en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING
title_full_unstemmed [en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING
title_sort [en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING
author LUIS CARLOS PARRA CAMACHO
author_facet LUIS CARLOS PARRA CAMACHO
author_role author
dc.contributor.none.fl_str_mv WOUTER CAARLS
dc.contributor.author.fl_str_mv LUIS CARLOS PARRA CAMACHO
dc.subject.por.fl_str_mv [pt] APRENDIZADO POR REFORCO NO MUNDO REAL
[pt] DESTILACAO DA POLITICA
[pt] ROBO BIPEDE
[en] REAL WORLD REINFORCEMENT LEARNING
[en] POLICY DESTILLATION
[en] BIPEDAL ROBOT
topic [pt] APRENDIZADO POR REFORCO NO MUNDO REAL
[pt] DESTILACAO DA POLITICA
[pt] ROBO BIPEDE
[en] REAL WORLD REINFORCEMENT LEARNING
[en] POLICY DESTILLATION
[en] BIPEDAL ROBOT
description [pt] A aprendizagem por reforço, uma técnica influente para treinar sistemas inteligentes, ganhou destaque na academia e na indústria devido à sua capacidade de resolver problemas complexos sem modelos pré-existentes. No entanto, sua aplicação a sistemas do mundo real é desafiadora devido à sua complexidade causada por altas não linearidades, amostras limitadas e restrições. Consequentemente, a pesquisa nessa área tem se concentrado principalmente em simulação, onde os modelos podem ser facilmente testados e refinados. Neste trabalho, foi proposta uma estratégia de aprendizagem por reforço para um robô bípede do mundo real aprender o comportamento de caminhada do zero. Também é apresentado um desenho de sistema focado na redução de estresse e simplicidade, garantindo um desempenho robusto, incluindo uma placa de circuito impresso personalizada para o manuseio eficiente dos componentes elétricos. O software do sistema é dividido entre a placa do sistema mestre e o sistema baseado em ROS, permitindo a comunicação entre os componentes e resolvendo o problema de perda de dados e atraso na comunicação. A simulação do modelo do robô é desenvolvida na plataforma Mujoco, incorporando propriedades físicas e parâmetros ambientais. Os algoritmos DDPG, TD3 e SAC foram utilizados para aprendizado e avaliação da técnica de destilação de política para transferência de conhecimento para uma rede mais eficiente. Finalmente, foi avaliada a transferência do aprendizado para o mundo real apresentando um experimento preliminar de aprendizado do zero no mundo real. Os resultados demonstram a eficácia do projeto do sistema robótico e dos algoritmos de aprendizado, alcançando uma caminhada estável na simulação e um máximo de catorze passos na vida real com a destilação de política do algoritmo SAC.
publishDate 2024
dc.date.none.fl_str_mv 2024-09-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/other
format other
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@2
http://doi.org/10.17771/PUCRio.acad.67995
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@2
http://doi.org/10.17771/PUCRio.acad.67995
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1814822647192616960