[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Outros |
Idioma: | eng |
Título da fonte: | Repositório Institucional da PUC-RIO (Projeto Maxwell) |
Texto Completo: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@2 http://doi.org/10.17771/PUCRio.acad.50379 |
Resumo: | [pt] Os últimos anos mostraram um interesse crescente no uso do controle háptico compartilhado (HSC) em sistemas teleoperados. No HSC, a aplicação de forças orientadoras virtuais, diminui o esforço de controle do usuário e melhora o tempo de execução em várias tarefas, apresentando uma boa alternativa em comparação com a teleoperação direta. O HSC, apesar de demonstrar bom desempenho, abre uma nova lacuna: como disenhar as forças orientadoras. Por esse motivo, o verdadeiro desafio está no desenvolvimento de controladores para fornecer as forças orientadoras virtuais, capazes de lidar com novas situações que aparecem enquanto uma tarefa está sendo executada. Este trabalho aborda esse desafio, projetando um controlador baseado no algoritmo Deep Deterministic Policy Gradient (DDPG) para fornecer assistência, e uma rede neural convolucional (CNN) para executar a detecção da tarefa. O agente aprende a minimizar o tempo que o ser humano leva para executar a tarefa desejada, minimizando simultaneamente sua resistência ao feedback fornecido. Essa resistência fornece ao algoritmo de aprendizado informações sobre a direção que o humano está tentando seguir, neste caso na tarefa pick-and-place. Diversos resultados demonstram a aplicação bem-sucedida da abordagem proposta, aprendendo políticas personalizadas para cada usuário que foi solicitado a testar o sistema. Ele exibe convergência estável e ajuda o usuário a concluir a tarefa com o menor número possível de etapas. |
id |
PUC_RIO-1_5cde797662245bd4df02c7ded1744688 |
---|---|
oai_identifier_str |
oai:MAXWELL.puc-rio.br:50379 |
network_acronym_str |
PUC_RIO-1 |
network_name_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository_id_str |
534 |
spelling |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS [en] DEEP REINFORCEMENT LEARNING FOR HAPTIC SHARED CONTROL IN UNKNOWN TASKS [pt] APRENDIZADO POR REFORCO[pt] TELEOPERACAO[pt] CONTROLE COMPARTILHADO[en] REINFORCEMENT LEARNING[en] TELEOPERATION[en] SHARED CONTROL[pt] Os últimos anos mostraram um interesse crescente no uso do controle háptico compartilhado (HSC) em sistemas teleoperados. No HSC, a aplicação de forças orientadoras virtuais, diminui o esforço de controle do usuário e melhora o tempo de execução em várias tarefas, apresentando uma boa alternativa em comparação com a teleoperação direta. O HSC, apesar de demonstrar bom desempenho, abre uma nova lacuna: como disenhar as forças orientadoras. Por esse motivo, o verdadeiro desafio está no desenvolvimento de controladores para fornecer as forças orientadoras virtuais, capazes de lidar com novas situações que aparecem enquanto uma tarefa está sendo executada. Este trabalho aborda esse desafio, projetando um controlador baseado no algoritmo Deep Deterministic Policy Gradient (DDPG) para fornecer assistência, e uma rede neural convolucional (CNN) para executar a detecção da tarefa. O agente aprende a minimizar o tempo que o ser humano leva para executar a tarefa desejada, minimizando simultaneamente sua resistência ao feedback fornecido. Essa resistência fornece ao algoritmo de aprendizado informações sobre a direção que o humano está tentando seguir, neste caso na tarefa pick-and-place. Diversos resultados demonstram a aplicação bem-sucedida da abordagem proposta, aprendendo políticas personalizadas para cada usuário que foi solicitado a testar o sistema. Ele exibe convergência estável e ajuda o usuário a concluir a tarefa com o menor número possível de etapas.[en] Recent years have shown a growing interest in using haptic share control (HSC) in teleoperated systems. In HSC, the application of virtual guiding forces decreases the user’s control effort and improves execution time in various tasks, presenting a good alternative in comparison with direct teleoperation. HSC, despite demonstrating good performance, opens a new gap: how to design the guiding forces. For this reason, the real challenge lies in developing controllers to provide the virtual guiding forces, able to deal with new situations that appear while a task is being performed. This work addresses this challenge by designing a controller based on the deep deterministic policy gradient (DDPG) algorithm to provide the assistance, and a convolutional neural network (CNN) to perform the task detection. The agent learns to minimize the time it takes the human to execute the desired task, while simultaneously minimizing their resistance to the provided feedback. This resistance thus provides the learning algorithm with information about which direction the human is trying to follow, in this case, the pick-and-place task. Diverse results demonstrate the successful application of the proposed approach by learning custom policies for each user who was asked to test the system. It exhibits stable convergence and aids the user in completing the task with the least amount of steps possible.MAXWELLWOUTER CAARLSFRANKLIN CARDENOSO FERNANDEZ2020-11-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@2http://doi.org/10.17771/PUCRio.acad.50379engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-08-10T00:00:00Zoai:MAXWELL.puc-rio.br:50379Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342022-08-10T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false |
dc.title.none.fl_str_mv |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS [en] DEEP REINFORCEMENT LEARNING FOR HAPTIC SHARED CONTROL IN UNKNOWN TASKS |
title |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS |
spellingShingle |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS FRANKLIN CARDENOSO FERNANDEZ [pt] APRENDIZADO POR REFORCO [pt] TELEOPERACAO [pt] CONTROLE COMPARTILHADO [en] REINFORCEMENT LEARNING [en] TELEOPERATION [en] SHARED CONTROL |
title_short |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS |
title_full |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS |
title_fullStr |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS |
title_full_unstemmed |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS |
title_sort |
[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS |
author |
FRANKLIN CARDENOSO FERNANDEZ |
author_facet |
FRANKLIN CARDENOSO FERNANDEZ |
author_role |
author |
dc.contributor.none.fl_str_mv |
WOUTER CAARLS |
dc.contributor.author.fl_str_mv |
FRANKLIN CARDENOSO FERNANDEZ |
dc.subject.por.fl_str_mv |
[pt] APRENDIZADO POR REFORCO [pt] TELEOPERACAO [pt] CONTROLE COMPARTILHADO [en] REINFORCEMENT LEARNING [en] TELEOPERATION [en] SHARED CONTROL |
topic |
[pt] APRENDIZADO POR REFORCO [pt] TELEOPERACAO [pt] CONTROLE COMPARTILHADO [en] REINFORCEMENT LEARNING [en] TELEOPERATION [en] SHARED CONTROL |
description |
[pt] Os últimos anos mostraram um interesse crescente no uso do controle háptico compartilhado (HSC) em sistemas teleoperados. No HSC, a aplicação de forças orientadoras virtuais, diminui o esforço de controle do usuário e melhora o tempo de execução em várias tarefas, apresentando uma boa alternativa em comparação com a teleoperação direta. O HSC, apesar de demonstrar bom desempenho, abre uma nova lacuna: como disenhar as forças orientadoras. Por esse motivo, o verdadeiro desafio está no desenvolvimento de controladores para fornecer as forças orientadoras virtuais, capazes de lidar com novas situações que aparecem enquanto uma tarefa está sendo executada. Este trabalho aborda esse desafio, projetando um controlador baseado no algoritmo Deep Deterministic Policy Gradient (DDPG) para fornecer assistência, e uma rede neural convolucional (CNN) para executar a detecção da tarefa. O agente aprende a minimizar o tempo que o ser humano leva para executar a tarefa desejada, minimizando simultaneamente sua resistência ao feedback fornecido. Essa resistência fornece ao algoritmo de aprendizado informações sobre a direção que o humano está tentando seguir, neste caso na tarefa pick-and-place. Diversos resultados demonstram a aplicação bem-sucedida da abordagem proposta, aprendendo políticas personalizadas para cada usuário que foi solicitado a testar o sistema. Ele exibe convergência estável e ajuda o usuário a concluir a tarefa com o menor número possível de etapas. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-11-19 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/other |
format |
other |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@2 http://doi.org/10.17771/PUCRio.acad.50379 |
url |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@2 http://doi.org/10.17771/PUCRio.acad.50379 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
MAXWELL |
publisher.none.fl_str_mv |
MAXWELL |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO |
instname_str |
Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
instacron_str |
PUC_RIO |
institution |
PUC_RIO |
reponame_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
collection |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository.name.fl_str_mv |
Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
repository.mail.fl_str_mv |
|
_version_ |
1814822624579026944 |