[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS

FRANKLIN CARDENOSO FERNANDEZ

[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS

Detalhes bibliográficos
Autor(a) principal:	FRANKLIN CARDENOSO FERNANDEZ
Data de Publicação:	2020
Tipo de documento:	Outros
Idioma:	eng
Título da fonte:	Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@2 http://doi.org/10.17771/PUCRio.acad.50379
Resumo:	[pt] Os últimos anos mostraram um interesse crescente no uso do controle háptico compartilhado (HSC) em sistemas teleoperados. No HSC, a aplicação de forças orientadoras virtuais, diminui o esforço de controle do usuário e melhora o tempo de execução em várias tarefas, apresentando uma boa alternativa em comparação com a teleoperação direta. O HSC, apesar de demonstrar bom desempenho, abre uma nova lacuna: como disenhar as forças orientadoras. Por esse motivo, o verdadeiro desafio está no desenvolvimento de controladores para fornecer as forças orientadoras virtuais, capazes de lidar com novas situações que aparecem enquanto uma tarefa está sendo executada. Este trabalho aborda esse desafio, projetando um controlador baseado no algoritmo Deep Deterministic Policy Gradient (DDPG) para fornecer assistência, e uma rede neural convolucional (CNN) para executar a detecção da tarefa. O agente aprende a minimizar o tempo que o ser humano leva para executar a tarefa desejada, minimizando simultaneamente sua resistência ao feedback fornecido. Essa resistência fornece ao algoritmo de aprendizado informações sobre a direção que o humano está tentando seguir, neste caso na tarefa pick-and-place. Diversos resultados demonstram a aplicação bem-sucedida da abordagem proposta, aprendendo políticas personalizadas para cada usuário que foi solicitado a testar o sistema. Ele exibe convergência estável e ajuda o usuário a concluir a tarefa com o menor número possível de etapas.

Metadados do item

id	PUC_RIO-1_5cde797662245bd4df02c7ded1744688
oai_identifier_str	oai:MAXWELL.puc-rio.br:50379
network_acronym_str	PUC_RIO-1
network_name_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str	534
spelling	[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS [en] DEEP REINFORCEMENT LEARNING FOR HAPTIC SHARED CONTROL IN UNKNOWN TASKS [pt] APRENDIZADO POR REFORCO[pt] TELEOPERACAO[pt] CONTROLE COMPARTILHADO[en] REINFORCEMENT LEARNING[en] TELEOPERATION[en] SHARED CONTROL[pt] Os últimos anos mostraram um interesse crescente no uso do controle háptico compartilhado (HSC) em sistemas teleoperados. No HSC, a aplicação de forças orientadoras virtuais, diminui o esforço de controle do usuário e melhora o tempo de execução em várias tarefas, apresentando uma boa alternativa em comparação com a teleoperação direta. O HSC, apesar de demonstrar bom desempenho, abre uma nova lacuna: como disenhar as forças orientadoras. Por esse motivo, o verdadeiro desafio está no desenvolvimento de controladores para fornecer as forças orientadoras virtuais, capazes de lidar com novas situações que aparecem enquanto uma tarefa está sendo executada. Este trabalho aborda esse desafio, projetando um controlador baseado no algoritmo Deep Deterministic Policy Gradient (DDPG) para fornecer assistência, e uma rede neural convolucional (CNN) para executar a detecção da tarefa. O agente aprende a minimizar o tempo que o ser humano leva para executar a tarefa desejada, minimizando simultaneamente sua resistência ao feedback fornecido. Essa resistência fornece ao algoritmo de aprendizado informações sobre a direção que o humano está tentando seguir, neste caso na tarefa pick-and-place. Diversos resultados demonstram a aplicação bem-sucedida da abordagem proposta, aprendendo políticas personalizadas para cada usuário que foi solicitado a testar o sistema. Ele exibe convergência estável e ajuda o usuário a concluir a tarefa com o menor número possível de etapas.[en] Recent years have shown a growing interest in using haptic share control (HSC) in teleoperated systems. In HSC, the application of virtual guiding forces decreases the user’s control effort and improves execution time in various tasks, presenting a good alternative in comparison with direct teleoperation. HSC, despite demonstrating good performance, opens a new gap: how to design the guiding forces. For this reason, the real challenge lies in developing controllers to provide the virtual guiding forces, able to deal with new situations that appear while a task is being performed. This work addresses this challenge by designing a controller based on the deep deterministic policy gradient (DDPG) algorithm to provide the assistance, and a convolutional neural network (CNN) to perform the task detection. The agent learns to minimize the time it takes the human to execute the desired task, while simultaneously minimizing their resistance to the provided feedback. This resistance thus provides the learning algorithm with information about which direction the human is trying to follow, in this case, the pick-and-place task. Diverse results demonstrate the successful application of the proposed approach by learning custom policies for each user who was asked to test the system. It exhibits stable convergence and aids the user in completing the task with the least amount of steps possible.MAXWELLWOUTER CAARLSFRANKLIN CARDENOSO FERNANDEZ2020-11-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@2http://doi.org/10.17771/PUCRio.acad.50379engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-08-10T00:00:00Zoai:MAXWELL.puc-rio.br:50379Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342022-08-10T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv	[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS [en] DEEP REINFORCEMENT LEARNING FOR HAPTIC SHARED CONTROL IN UNKNOWN TASKS
title	[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS
spellingShingle	[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS FRANKLIN CARDENOSO FERNANDEZ [pt] APRENDIZADO POR REFORCO [pt] TELEOPERACAO [pt] CONTROLE COMPARTILHADO [en] REINFORCEMENT LEARNING [en] TELEOPERATION [en] SHARED CONTROL
title_short	[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS
title_full	[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS
title_fullStr	[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS
title_full_unstemmed	[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS
title_sort	[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS
author	FRANKLIN CARDENOSO FERNANDEZ
author_facet	FRANKLIN CARDENOSO FERNANDEZ
author_role	author
dc.contributor.none.fl_str_mv	WOUTER CAARLS
dc.contributor.author.fl_str_mv	FRANKLIN CARDENOSO FERNANDEZ
dc.subject.por.fl_str_mv	[pt] APRENDIZADO POR REFORCO [pt] TELEOPERACAO [pt] CONTROLE COMPARTILHADO [en] REINFORCEMENT LEARNING [en] TELEOPERATION [en] SHARED CONTROL
topic	[pt] APRENDIZADO POR REFORCO [pt] TELEOPERACAO [pt] CONTROLE COMPARTILHADO [en] REINFORCEMENT LEARNING [en] TELEOPERATION [en] SHARED CONTROL
description	[pt] Os últimos anos mostraram um interesse crescente no uso do controle háptico compartilhado (HSC) em sistemas teleoperados. No HSC, a aplicação de forças orientadoras virtuais, diminui o esforço de controle do usuário e melhora o tempo de execução em várias tarefas, apresentando uma boa alternativa em comparação com a teleoperação direta. O HSC, apesar de demonstrar bom desempenho, abre uma nova lacuna: como disenhar as forças orientadoras. Por esse motivo, o verdadeiro desafio está no desenvolvimento de controladores para fornecer as forças orientadoras virtuais, capazes de lidar com novas situações que aparecem enquanto uma tarefa está sendo executada. Este trabalho aborda esse desafio, projetando um controlador baseado no algoritmo Deep Deterministic Policy Gradient (DDPG) para fornecer assistência, e uma rede neural convolucional (CNN) para executar a detecção da tarefa. O agente aprende a minimizar o tempo que o ser humano leva para executar a tarefa desejada, minimizando simultaneamente sua resistência ao feedback fornecido. Essa resistência fornece ao algoritmo de aprendizado informações sobre a direção que o humano está tentando seguir, neste caso na tarefa pick-and-place. Diversos resultados demonstram a aplicação bem-sucedida da abordagem proposta, aprendendo políticas personalizadas para cada usuário que foi solicitado a testar o sistema. Ele exibe convergência estável e ajuda o usuário a concluir a tarefa com o menor número possível de etapas.
publishDate	2020
dc.date.none.fl_str_mv	2020-11-19
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/other
format	other
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@2 http://doi.org/10.17771/PUCRio.acad.50379
url	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=50379@2 http://doi.org/10.17771/PUCRio.acad.50379
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	MAXWELL
publisher.none.fl_str_mv	MAXWELL
dc.source.none.fl_str_mv	reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO
instname_str	Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str	PUC_RIO
institution	PUC_RIO
reponame_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv	Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_	1814822624579026944

[pt] APRENDIZADO POR REFORÇO PROFUNDO PARA CONTROLE HÁPTICO COMPARTILHADO EM TAREFAS DESCONHECIDAS

Registros relacionados