Aprendizado por reforço profundo para navegação visual semântica com memória

Detalhes bibliográficos
Autor(a) principal: Santos, Iury Batista de Andrade
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16122020-164714/
Resumo: A navegação de robôs móveis é um tema amplamente estudado ao longo de décadas, sendo esta uma atividade crucial para a inserção de robôs em diversos cenários. Contudo, ambientes complexos e mutáveis, como interiores de residências, ainda apresentam desafios a serem superados, sendo objetos de estudo em diversos trabalhos que adotam abordagens com visão computacional sem usar mapas topológicos ou métricos. Este trabalho propõe uma arquitetura para navegação de robôs móveis visando a busca objeto-direcionada em ambientes internos de residências, utilizando métodos de visão computacional e informações semânticas com memória. A arquitetura proposta tem capacidade de generalizar por meio de conhecimento a priori dos objetos detectados em cenas e também reforçar relacionamentos por meio de experiências passadas, em uma abordagem de navegação baseada em aprendizado. Para tanto, são adotados os seguintes modelos de aprendizado de máquina: redes neurais convolucionais, redes neurais de grafos, redes neurais recorrentes e aprendizado por reforço profundo, em uma abordagem objeto-direcionada. Esta arquitetura foi treinada em diversos ambientes domésticos, adotando-se um ambiente simulado fotorrealista. Esta arquitetura foi avaliada por meio de análise qualitativa, com execuções de episódios do agente no ambiente simulado de maneira visual, e análise quantitativa, usando medidas como taxas de sucesso e taxas de sucesso ponderadas pela trajetória. Políticas aprendidas por meio da arquitetura proposta foram comparadas com agentes de política randômica, com agentes utilizando apenas aprendizado por reforço e, por fim, com agentes com políticas de navegação semântica sem memória. Os experimentos realizados mostraram um comportamento mais exploratório da arquitetura proposta em relação a outros sem memória, obtendo maiores taxas de êxito nas tarefas em ambas as métricas. Quando exposto a cenários mais restritos, e por conseguinte de maior dificuldade, as políticas aprendidas por estes modelos apresentaram os melhores resultados, com menor queda no desempenho quando comparados as execuções menos restritivas e com os demais modelos. Desta forma, o modelo proposto apresentou resultados consistentes de melhoria nas políticas aprendidas pelos agentes, resultando em comportamentos bem sucedidos para tarefas de busca objeto-direcionada em ambientes internos de residências.
id USP_835fee2ff8c47fb59aafeeca00f727a8
oai_identifier_str oai:teses.usp.br:tde-16122020-164714
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Aprendizado por reforço profundo para navegação visual semântica com memóriaDeep reinforcement learning for visual semantic navigation with memoryAprendizado por reforço profundoAprendizagem profundaDeep learningDeep reinforcement learningNavegação semânticaNavegação visualRobóticaRoboticsSemantic navigationVisual navigationA navegação de robôs móveis é um tema amplamente estudado ao longo de décadas, sendo esta uma atividade crucial para a inserção de robôs em diversos cenários. Contudo, ambientes complexos e mutáveis, como interiores de residências, ainda apresentam desafios a serem superados, sendo objetos de estudo em diversos trabalhos que adotam abordagens com visão computacional sem usar mapas topológicos ou métricos. Este trabalho propõe uma arquitetura para navegação de robôs móveis visando a busca objeto-direcionada em ambientes internos de residências, utilizando métodos de visão computacional e informações semânticas com memória. A arquitetura proposta tem capacidade de generalizar por meio de conhecimento a priori dos objetos detectados em cenas e também reforçar relacionamentos por meio de experiências passadas, em uma abordagem de navegação baseada em aprendizado. Para tanto, são adotados os seguintes modelos de aprendizado de máquina: redes neurais convolucionais, redes neurais de grafos, redes neurais recorrentes e aprendizado por reforço profundo, em uma abordagem objeto-direcionada. Esta arquitetura foi treinada em diversos ambientes domésticos, adotando-se um ambiente simulado fotorrealista. Esta arquitetura foi avaliada por meio de análise qualitativa, com execuções de episódios do agente no ambiente simulado de maneira visual, e análise quantitativa, usando medidas como taxas de sucesso e taxas de sucesso ponderadas pela trajetória. Políticas aprendidas por meio da arquitetura proposta foram comparadas com agentes de política randômica, com agentes utilizando apenas aprendizado por reforço e, por fim, com agentes com políticas de navegação semântica sem memória. Os experimentos realizados mostraram um comportamento mais exploratório da arquitetura proposta em relação a outros sem memória, obtendo maiores taxas de êxito nas tarefas em ambas as métricas. Quando exposto a cenários mais restritos, e por conseguinte de maior dificuldade, as políticas aprendidas por estes modelos apresentaram os melhores resultados, com menor queda no desempenho quando comparados as execuções menos restritivas e com os demais modelos. Desta forma, o modelo proposto apresentou resultados consistentes de melhoria nas políticas aprendidas pelos agentes, resultando em comportamentos bem sucedidos para tarefas de busca objeto-direcionada em ambientes internos de residências.The navigation of mobile robots is a subject vastly studied in the last decades, being a crucial task for the insertion of robots in diverse scenarios. However, complex and changeable environments, as indoors of houses, still shows challengers to be transpassed, being an object of study in several works that adopts approaches as computer vision without topological or metric maps. This work proposes an architecture for the navigation of mobile robots aiming target-object search in indoor ambiances of houses, using computer vision methods and semantic information with memory. The proposed architecture can generalize through a priori acknowledgment of detect objects in scenes and reinforce relationships over experiences of the past, in a learning-based navigation approach. Therefore, the following models of machine learning will be adopted: neural convolutional netwoks, graph neural networks, recorrent neural networks and deep reinforcement learning, in a targetobject approach. This architecture has trained in several domestic ambiances, adopting a photo-realistic simulated environment. The architecture was evaluated through qualitative analysis, executing episodes of the agent in the simulated environment with visual insight, and quantitative analysis, adopting metrics like success rate and success rate weighted by path length. Policies learn by the proposed architecture were compared with agents using random policies, agents using only reinforcement learning, and, finally, agents with navigation semantic policies without memory. The experiments performed showed a more exploratory behavior of the proposed architecture when compared with the nonmemory approaches. reaching better success rates in the tasks for both metrics. When exposed to restrict scenarios, consequently being of greater difficulty, the policies learn by such models demonstrated better results, with a lower decrease in its performance when compared with less restrictive executions and other models. Thus, the proposed model presented consistent results with better policies learn by the agents, resulting in behaviors more successful in the task of target-object search in indoor-home environments.Biblioteca Digitais de Teses e Dissertações da USPRomero, Roseli Aparecida FrancelinSantos, Iury Batista de Andrade2020-11-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-16122020-164714/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-12-17T23:15:27Zoai:teses.usp.br:tde-16122020-164714Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-12-17T23:15:27Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Aprendizado por reforço profundo para navegação visual semântica com memória
Deep reinforcement learning for visual semantic navigation with memory
title Aprendizado por reforço profundo para navegação visual semântica com memória
spellingShingle Aprendizado por reforço profundo para navegação visual semântica com memória
Santos, Iury Batista de Andrade
Aprendizado por reforço profundo
Aprendizagem profunda
Deep learning
Deep reinforcement learning
Navegação semântica
Navegação visual
Robótica
Robotics
Semantic navigation
Visual navigation
title_short Aprendizado por reforço profundo para navegação visual semântica com memória
title_full Aprendizado por reforço profundo para navegação visual semântica com memória
title_fullStr Aprendizado por reforço profundo para navegação visual semântica com memória
title_full_unstemmed Aprendizado por reforço profundo para navegação visual semântica com memória
title_sort Aprendizado por reforço profundo para navegação visual semântica com memória
author Santos, Iury Batista de Andrade
author_facet Santos, Iury Batista de Andrade
author_role author
dc.contributor.none.fl_str_mv Romero, Roseli Aparecida Francelin
dc.contributor.author.fl_str_mv Santos, Iury Batista de Andrade
dc.subject.por.fl_str_mv Aprendizado por reforço profundo
Aprendizagem profunda
Deep learning
Deep reinforcement learning
Navegação semântica
Navegação visual
Robótica
Robotics
Semantic navigation
Visual navigation
topic Aprendizado por reforço profundo
Aprendizagem profunda
Deep learning
Deep reinforcement learning
Navegação semântica
Navegação visual
Robótica
Robotics
Semantic navigation
Visual navigation
description A navegação de robôs móveis é um tema amplamente estudado ao longo de décadas, sendo esta uma atividade crucial para a inserção de robôs em diversos cenários. Contudo, ambientes complexos e mutáveis, como interiores de residências, ainda apresentam desafios a serem superados, sendo objetos de estudo em diversos trabalhos que adotam abordagens com visão computacional sem usar mapas topológicos ou métricos. Este trabalho propõe uma arquitetura para navegação de robôs móveis visando a busca objeto-direcionada em ambientes internos de residências, utilizando métodos de visão computacional e informações semânticas com memória. A arquitetura proposta tem capacidade de generalizar por meio de conhecimento a priori dos objetos detectados em cenas e também reforçar relacionamentos por meio de experiências passadas, em uma abordagem de navegação baseada em aprendizado. Para tanto, são adotados os seguintes modelos de aprendizado de máquina: redes neurais convolucionais, redes neurais de grafos, redes neurais recorrentes e aprendizado por reforço profundo, em uma abordagem objeto-direcionada. Esta arquitetura foi treinada em diversos ambientes domésticos, adotando-se um ambiente simulado fotorrealista. Esta arquitetura foi avaliada por meio de análise qualitativa, com execuções de episódios do agente no ambiente simulado de maneira visual, e análise quantitativa, usando medidas como taxas de sucesso e taxas de sucesso ponderadas pela trajetória. Políticas aprendidas por meio da arquitetura proposta foram comparadas com agentes de política randômica, com agentes utilizando apenas aprendizado por reforço e, por fim, com agentes com políticas de navegação semântica sem memória. Os experimentos realizados mostraram um comportamento mais exploratório da arquitetura proposta em relação a outros sem memória, obtendo maiores taxas de êxito nas tarefas em ambas as métricas. Quando exposto a cenários mais restritos, e por conseguinte de maior dificuldade, as políticas aprendidas por estes modelos apresentaram os melhores resultados, com menor queda no desempenho quando comparados as execuções menos restritivas e com os demais modelos. Desta forma, o modelo proposto apresentou resultados consistentes de melhoria nas políticas aprendidas pelos agentes, resultando em comportamentos bem sucedidos para tarefas de busca objeto-direcionada em ambientes internos de residências.
publishDate 2020
dc.date.none.fl_str_mv 2020-11-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16122020-164714/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16122020-164714/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090786587836416