Deep reinforcement learning for robot navigation systems
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/1822/64866 |
Resumo: | Dissertação de mestrado integrado em Engenharia Eletrónica Industrial e Computadores |
id |
RCAP_73ba791db30540bae6c9b785504520d7 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/64866 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Deep reinforcement learning for robot navigation systemsAprendizagem profunda por reforço em sistemas de navegação robóticosMachine LearningReinforcement learningDeep learningRoboticsNavigations systemsAprendizagem máquinaAprendizagem por reforçoAprendizagem profundaRobóticaSistemas de navegaçãoEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado integrado em Engenharia Eletrónica Industrial e ComputadoresReinforcement Learning in robotics has been a challenging topic for the past few years. The ability to equip a robot with a tool powerful enough to allow an autonomous discovery of optimal behaviour through trial-and-error interactions with the environment, has been a motive for numerous in-depth research projects. This dissertation presents a thorough theoretical foundation that supports different reinforcement learning algorithms. Three different algorithms namely Q-Learning, Monte Carlo Policy Gradient and Deep Deterministic Policy Gradient were selected and implemented on OpenAI Gym control environments. The selected environments were MountainCar, CartPole and Pendulum. These granted a wide variety of applicable algorithms for different action-space and state-space. For each implemented algorithm, a detailed hyperparameter configuration is analysed and compared. A simulated agent was also created in V-REP and configured via ROS and a Python control node. The agent is a Bot’n Roll ONE A robot, which is a differential robot with embedded distance sensors. The goal of the robot/agent is to surpass three levels of increasing complexity mazes using its distance sensors. Tests with different sensor topologies using the embedded distance sensors and additional Time-of-Flight sensors were carried out. Q-Learning and Monte Carlo Policy Gradient algorithms were implemented in the simulated robot. Q-Learning allowed a comparison between two different methods regarding different action selection timings. One of the methods was able to solve the three mazes using the embedded discrete distance sensors. With the Monte Carlo Policy Gradient algorithm, a thorough analysis of how reward functions influence the robot learned policies is presented. The Deep Deterministic Policy Gradient, even though not implemented on the simulated robot, demonstrated a significant potential with several essential advantages such as the stochastic behaviour policy associated with a deterministic target policy, the Actor-Critic method and continuous control.A aprendizagem por reforço na robótica tem sido um tema desafiante dos últimos anos. A capacidade de equipar um robô com uma ferramenta tão poderosa, como permitir a descoberta, de forma autónoma, de um comportamento optimizador a partir de tentativa-erro, tem gerado inúmeros projetos de investigação. Esta dissertação apresenta os fundamentos teóricos de diferentes algoritmos de aprendizagem por reforço. Destes, três algoritmos distintos, nomeadamente Q-Learning, Monte Carlo Policy Gradient e Deep Deterministic Policy Gradient foram implementados em ambientes de controlo do OpenAI Gym. Os ambientes selecionados são MountainCar, CartPole e Pendulum, que garantem uma variedade de algoritmos implementáveis para diferentes espaços de estados e espaços de ações. De seguida, um agente simulado foi criado no V-REP e configurado via ROS e um nó de controlo em Python. O agente, Bot’n Roll ONE A, é um robô diferencial com sensores de distância embebidos. O objetivo do robô/agente é resolver três labirintos que aumentam de dificuldade utilizando os sensores de distância. Foram desenvolvidos testes com diferentes posições e orientações dos sensores e adicionados sensores Time-of-Flight. Dois algoritmos, Q-Learning e Monte Carlo Policy Gradient foram implementados no robô simulado. O Q-Learning permitiu a comparação entre dois métodos distintos no que toca a tempos de seleção das ações, em que um dos métodos conseguiu resolver os três labirintos utilizando os sensores embebidos. O método Monte Carlo Policy Gradient permitiu uma análise detalhada de como o sistema de recompensas influencia a política de ações aprendida. O Deep Deterministic Policy Gradient, ainda que não implementado no robô simulado, demonstrou um enorme potencial e vantagens essenciais, tais como a política de comportamento estocástica aliada a uma política alvo determinística, o método Actor-Crítico e a controlo de ações continuo.Lopes, GilUniversidade do MinhoRibeiro, Tiago Alcântara20192019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/64866eng202448614info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:41:07Zoai:repositorium.sdum.uminho.pt:1822/64866Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:38:01.699736Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Deep reinforcement learning for robot navigation systems Aprendizagem profunda por reforço em sistemas de navegação robóticos |
title |
Deep reinforcement learning for robot navigation systems |
spellingShingle |
Deep reinforcement learning for robot navigation systems Ribeiro, Tiago Alcântara Machine Learning Reinforcement learning Deep learning Robotics Navigations systems Aprendizagem máquina Aprendizagem por reforço Aprendizagem profunda Robótica Sistemas de navegação Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Deep reinforcement learning for robot navigation systems |
title_full |
Deep reinforcement learning for robot navigation systems |
title_fullStr |
Deep reinforcement learning for robot navigation systems |
title_full_unstemmed |
Deep reinforcement learning for robot navigation systems |
title_sort |
Deep reinforcement learning for robot navigation systems |
author |
Ribeiro, Tiago Alcântara |
author_facet |
Ribeiro, Tiago Alcântara |
author_role |
author |
dc.contributor.none.fl_str_mv |
Lopes, Gil Universidade do Minho |
dc.contributor.author.fl_str_mv |
Ribeiro, Tiago Alcântara |
dc.subject.por.fl_str_mv |
Machine Learning Reinforcement learning Deep learning Robotics Navigations systems Aprendizagem máquina Aprendizagem por reforço Aprendizagem profunda Robótica Sistemas de navegação Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Machine Learning Reinforcement learning Deep learning Robotics Navigations systems Aprendizagem máquina Aprendizagem por reforço Aprendizagem profunda Robótica Sistemas de navegação Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Dissertação de mestrado integrado em Engenharia Eletrónica Industrial e Computadores |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019 2019-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1822/64866 |
url |
http://hdl.handle.net/1822/64866 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
202448614 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132916050034688 |