[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Outros |
Idioma: | eng |
Título da fonte: | Repositório Institucional da PUC-RIO (Projeto Maxwell) |
Texto Completo: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@2 http://doi.org/10.17771/PUCRio.acad.67995 |
Resumo: | [pt] A aprendizagem por reforço, uma técnica influente para treinar sistemas inteligentes, ganhou destaque na academia e na indústria devido à sua capacidade de resolver problemas complexos sem modelos pré-existentes. No entanto, sua aplicação a sistemas do mundo real é desafiadora devido à sua complexidade causada por altas não linearidades, amostras limitadas e restrições. Consequentemente, a pesquisa nessa área tem se concentrado principalmente em simulação, onde os modelos podem ser facilmente testados e refinados. Neste trabalho, foi proposta uma estratégia de aprendizagem por reforço para um robô bípede do mundo real aprender o comportamento de caminhada do zero. Também é apresentado um desenho de sistema focado na redução de estresse e simplicidade, garantindo um desempenho robusto, incluindo uma placa de circuito impresso personalizada para o manuseio eficiente dos componentes elétricos. O software do sistema é dividido entre a placa do sistema mestre e o sistema baseado em ROS, permitindo a comunicação entre os componentes e resolvendo o problema de perda de dados e atraso na comunicação. A simulação do modelo do robô é desenvolvida na plataforma Mujoco, incorporando propriedades físicas e parâmetros ambientais. Os algoritmos DDPG, TD3 e SAC foram utilizados para aprendizado e avaliação da técnica de destilação de política para transferência de conhecimento para uma rede mais eficiente. Finalmente, foi avaliada a transferência do aprendizado para o mundo real apresentando um experimento preliminar de aprendizado do zero no mundo real. Os resultados demonstram a eficácia do projeto do sistema robótico e dos algoritmos de aprendizado, alcançando uma caminhada estável na simulação e um máximo de catorze passos na vida real com a destilação de política do algoritmo SAC. |
id |
PUC_RIO-1_580a1ea273b3b06cbc69624198e2f776 |
---|---|
oai_identifier_str |
oai:MAXWELL.puc-rio.br:67995 |
network_acronym_str |
PUC_RIO-1 |
network_name_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository_id_str |
534 |
spelling |
[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING [pt] UM ROBÔ AUTÔNOMO BÍPEDE PARA APRENDIZADO POR REFORÇO ON-LINE [pt] APRENDIZADO POR REFORCO NO MUNDO REAL[pt] DESTILACAO DA POLITICA[pt] ROBO BIPEDE[en] REAL WORLD REINFORCEMENT LEARNING[en] POLICY DESTILLATION[en] BIPEDAL ROBOT[pt] A aprendizagem por reforço, uma técnica influente para treinar sistemas inteligentes, ganhou destaque na academia e na indústria devido à sua capacidade de resolver problemas complexos sem modelos pré-existentes. No entanto, sua aplicação a sistemas do mundo real é desafiadora devido à sua complexidade causada por altas não linearidades, amostras limitadas e restrições. Consequentemente, a pesquisa nessa área tem se concentrado principalmente em simulação, onde os modelos podem ser facilmente testados e refinados. Neste trabalho, foi proposta uma estratégia de aprendizagem por reforço para um robô bípede do mundo real aprender o comportamento de caminhada do zero. Também é apresentado um desenho de sistema focado na redução de estresse e simplicidade, garantindo um desempenho robusto, incluindo uma placa de circuito impresso personalizada para o manuseio eficiente dos componentes elétricos. O software do sistema é dividido entre a placa do sistema mestre e o sistema baseado em ROS, permitindo a comunicação entre os componentes e resolvendo o problema de perda de dados e atraso na comunicação. A simulação do modelo do robô é desenvolvida na plataforma Mujoco, incorporando propriedades físicas e parâmetros ambientais. Os algoritmos DDPG, TD3 e SAC foram utilizados para aprendizado e avaliação da técnica de destilação de política para transferência de conhecimento para uma rede mais eficiente. Finalmente, foi avaliada a transferência do aprendizado para o mundo real apresentando um experimento preliminar de aprendizado do zero no mundo real. Os resultados demonstram a eficácia do projeto do sistema robótico e dos algoritmos de aprendizado, alcançando uma caminhada estável na simulação e um máximo de catorze passos na vida real com a destilação de política do algoritmo SAC.[en] Reinforcement learning, an influential technique for training intelligent systems, has gained prominence in academia and industry due to its ability to solve complex problems without pre-existing models. However, its application to real-world systems is challenging due to its complexity caused by high non-linearities, limited samples, and constraints. Consequently, research in this area has mainly focused on simulation, where models can be easily tested and refined. In this work, a reinforcement learning strategy towards a real-world bipedal robot to learn walking behavior from scratch was proposed. We present a robot system design focused on stress reduction and simplicity, ensuring robust performance, including a custom printed circuit board (PCB) for efficient handling of electrical components. The system s software is divided into the master system board and the ROS system, allowing communication between components and addressing data loss and communication delay issues. The robot model simulation is developed on the Mujoco platform, incorporating physical properties and environmental parameters. We utilize Deep Deterministic Policy Gradient (DDPG), Twin-Delayed Deep Deterministic Policy Gradient (TD3), and Soft Actor-Critic (SAC) algorithms for learning and evaluating the policy distillation technique for transferring knowledge to a more efficient network. Finally, we evaluate the transfer of learning to the real world and present a preliminary experiment of learning from scratch in the real world. Our results demonstrate the effectiveness of the robotic system design and the learning algorithms, achieving stable walking in simulation and a maximum of fourteen steps in real life with the policy distillation of the SAC algorithm. MAXWELLWOUTER CAARLSLUIS CARLOS PARRA CAMACHO2024-09-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@2http://doi.org/10.17771/PUCRio.acad.67995engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2024-09-13T00:00:00Zoai:MAXWELL.puc-rio.br:67995Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342024-09-13T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false |
dc.title.none.fl_str_mv |
[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING [pt] UM ROBÔ AUTÔNOMO BÍPEDE PARA APRENDIZADO POR REFORÇO ON-LINE |
title |
[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING |
spellingShingle |
[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING LUIS CARLOS PARRA CAMACHO [pt] APRENDIZADO POR REFORCO NO MUNDO REAL [pt] DESTILACAO DA POLITICA [pt] ROBO BIPEDE [en] REAL WORLD REINFORCEMENT LEARNING [en] POLICY DESTILLATION [en] BIPEDAL ROBOT |
title_short |
[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING |
title_full |
[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING |
title_fullStr |
[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING |
title_full_unstemmed |
[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING |
title_sort |
[en] AN AUTONOMOUS BIPEDAL WALKING ROBOT FOR ONLINE REINFORCEMENT LEARNING |
author |
LUIS CARLOS PARRA CAMACHO |
author_facet |
LUIS CARLOS PARRA CAMACHO |
author_role |
author |
dc.contributor.none.fl_str_mv |
WOUTER CAARLS |
dc.contributor.author.fl_str_mv |
LUIS CARLOS PARRA CAMACHO |
dc.subject.por.fl_str_mv |
[pt] APRENDIZADO POR REFORCO NO MUNDO REAL [pt] DESTILACAO DA POLITICA [pt] ROBO BIPEDE [en] REAL WORLD REINFORCEMENT LEARNING [en] POLICY DESTILLATION [en] BIPEDAL ROBOT |
topic |
[pt] APRENDIZADO POR REFORCO NO MUNDO REAL [pt] DESTILACAO DA POLITICA [pt] ROBO BIPEDE [en] REAL WORLD REINFORCEMENT LEARNING [en] POLICY DESTILLATION [en] BIPEDAL ROBOT |
description |
[pt] A aprendizagem por reforço, uma técnica influente para treinar sistemas inteligentes, ganhou destaque na academia e na indústria devido à sua capacidade de resolver problemas complexos sem modelos pré-existentes. No entanto, sua aplicação a sistemas do mundo real é desafiadora devido à sua complexidade causada por altas não linearidades, amostras limitadas e restrições. Consequentemente, a pesquisa nessa área tem se concentrado principalmente em simulação, onde os modelos podem ser facilmente testados e refinados. Neste trabalho, foi proposta uma estratégia de aprendizagem por reforço para um robô bípede do mundo real aprender o comportamento de caminhada do zero. Também é apresentado um desenho de sistema focado na redução de estresse e simplicidade, garantindo um desempenho robusto, incluindo uma placa de circuito impresso personalizada para o manuseio eficiente dos componentes elétricos. O software do sistema é dividido entre a placa do sistema mestre e o sistema baseado em ROS, permitindo a comunicação entre os componentes e resolvendo o problema de perda de dados e atraso na comunicação. A simulação do modelo do robô é desenvolvida na plataforma Mujoco, incorporando propriedades físicas e parâmetros ambientais. Os algoritmos DDPG, TD3 e SAC foram utilizados para aprendizado e avaliação da técnica de destilação de política para transferência de conhecimento para uma rede mais eficiente. Finalmente, foi avaliada a transferência do aprendizado para o mundo real apresentando um experimento preliminar de aprendizado do zero no mundo real. Os resultados demonstram a eficácia do projeto do sistema robótico e dos algoritmos de aprendizado, alcançando uma caminhada estável na simulação e um máximo de catorze passos na vida real com a destilação de política do algoritmo SAC. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-09-12 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/other |
format |
other |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@2 http://doi.org/10.17771/PUCRio.acad.67995 |
url |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67995@2 http://doi.org/10.17771/PUCRio.acad.67995 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
MAXWELL |
publisher.none.fl_str_mv |
MAXWELL |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO |
instname_str |
Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
instacron_str |
PUC_RIO |
institution |
PUC_RIO |
reponame_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
collection |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository.name.fl_str_mv |
Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
repository.mail.fl_str_mv |
|
_version_ |
1814822647192616960 |