Agente topológico de aprendizado por reforço

Detalhes bibliográficos
Autor(a) principal: Braga, Arthur Plínio de Souza
Data de Publicação: 2004
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/18/18133/tde-21102011-081848/
Resumo: Os métodos de Aprendizagem por Reforço (AR) se mostram adequados para problemas de tomadas de decisões em diversos domínios por sua estrutura flexível e adaptável. Apesar de promissores, os métodos AR frequentemente tem seu campo de atuação prático restrito a problemas com espaço de estados de pequeno ou médio porte devido em muito à forma com que realizam a estimativa da função de avaliação. Nesta tese, uma nova abordagem de AR, denominada de Agente Topológico de Aprendizagem por Reforço (ATAR), inspirada em aprendizagem latente, é proposta para acelerar a aprendizagem por reforço através de um mecanismo alternativo de seleção dos pares estado-ação para atualização da estimativa da função de avaliação. A aprendizagem latente refere-se à aprendizagem animal que ocorre na ausência de reforço e que não é aparente até que um sinal de reforço seja percebido pelo agente. Este aprendizado faz com que um agente aprenda parcialmente uma tarefa mesmo antes que este receba qualquer sinal de reforço. Mapas Cognitivos são usualmente empregados para codificar a informação do ambiente em que o agente está imerso. Desta forma, o ATAR usa um mapa topológico, baseado em Mapas Auto-Organizáveis, para realizar as funções do mapa cognitivo e permitir um mecanismo simples de propagação das atualizações. O ATAR foi testado, em simulação, para planejamento de navegação de um robô móvel em ambientes inicialmente desconhecidos e não-estruturados. Comparações com outros seis algoritmos AR avaliaram comparativamente o desempenho do agente proposto na navegação. Os resultados obtidos são promissores e comparáveis com os algoritmos AR mais rápidos testados, alcançando em alguns ensaios desempenho superior aos dos demais algoritmos - principalmente nas simulações que consideram situações observadas em ambientes não-estruturados. Três características do ATAR original foram alteradas para tornar ainda mais viável sua aplicação prática: (i) mudanças no mapa topológico para reduzir o número de vértices, (ii) mudança na heurística usada na seleção das ações do agente e (iii) variações na estratégia de exploração do ATAR. Do ponto (i), foi proposto e implementado um novo mapa topológico, o Mapa Topológico Incremental Classificador MTIC, que a partir da classificação dos estados do ambiente gera os vértices de uma triangularização de Watson. O ponto (ii) criou um método aplicável a outros problemas de planejamento de trajetória em grafos denominado de Melhoria das trajetórias por detecção de ponto interior. O terceiro estudou estratégias direcionadas de exploração como uma opção para acelerar o aprendizado do ATAR.
id USP_c6750f8703d50e0dd13d2a9cf643b1d8
oai_identifier_str oai:teses.usp.br:tde-21102011-081848
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Agente topológico de aprendizado por reforçoTopological reinforcement learning agentAprendizagem latenteAprendizagem por reforçoLatent learningMapas auto-organizáveisMobile robot navigationNavegação de robô móvelReinforcement learningSelf-organizing mapsOs métodos de Aprendizagem por Reforço (AR) se mostram adequados para problemas de tomadas de decisões em diversos domínios por sua estrutura flexível e adaptável. Apesar de promissores, os métodos AR frequentemente tem seu campo de atuação prático restrito a problemas com espaço de estados de pequeno ou médio porte devido em muito à forma com que realizam a estimativa da função de avaliação. Nesta tese, uma nova abordagem de AR, denominada de Agente Topológico de Aprendizagem por Reforço (ATAR), inspirada em aprendizagem latente, é proposta para acelerar a aprendizagem por reforço através de um mecanismo alternativo de seleção dos pares estado-ação para atualização da estimativa da função de avaliação. A aprendizagem latente refere-se à aprendizagem animal que ocorre na ausência de reforço e que não é aparente até que um sinal de reforço seja percebido pelo agente. Este aprendizado faz com que um agente aprenda parcialmente uma tarefa mesmo antes que este receba qualquer sinal de reforço. Mapas Cognitivos são usualmente empregados para codificar a informação do ambiente em que o agente está imerso. Desta forma, o ATAR usa um mapa topológico, baseado em Mapas Auto-Organizáveis, para realizar as funções do mapa cognitivo e permitir um mecanismo simples de propagação das atualizações. O ATAR foi testado, em simulação, para planejamento de navegação de um robô móvel em ambientes inicialmente desconhecidos e não-estruturados. Comparações com outros seis algoritmos AR avaliaram comparativamente o desempenho do agente proposto na navegação. Os resultados obtidos são promissores e comparáveis com os algoritmos AR mais rápidos testados, alcançando em alguns ensaios desempenho superior aos dos demais algoritmos - principalmente nas simulações que consideram situações observadas em ambientes não-estruturados. Três características do ATAR original foram alteradas para tornar ainda mais viável sua aplicação prática: (i) mudanças no mapa topológico para reduzir o número de vértices, (ii) mudança na heurística usada na seleção das ações do agente e (iii) variações na estratégia de exploração do ATAR. Do ponto (i), foi proposto e implementado um novo mapa topológico, o Mapa Topológico Incremental Classificador MTIC, que a partir da classificação dos estados do ambiente gera os vértices de uma triangularização de Watson. O ponto (ii) criou um método aplicável a outros problemas de planejamento de trajetória em grafos denominado de Melhoria das trajetórias por detecção de ponto interior. O terceiro estudou estratégias direcionadas de exploração como uma opção para acelerar o aprendizado do ATAR.Reinforcement Learning (RL) methods have shown to be a good choice for decision-making problems due to their flexible and adaptive characteristics. Despite such promising features, RL methods often have their practical application restricted to small or medium size (at state, or state-action, space) problems mainly because of their standard strategies for value function estimation. In this thesis, a new RL approach, called \"Topological Reinforcement Learning Agent\" - TRLA, is proposed to accelerate learning through an alternative mechanism to update the state-action value function. TRLA is inspired in latent learning, which refers to animal learning that occurs in the absence of reinforcements and that is not visible until an environmental reinforcement is perceived. This concept considers that part of a task can be learned even before the agent receives any indication of how to perform such a task. Cognitive Maps are usually used to encode information about the environment where the agent is immersed. Thus, the TRLA uses a topological map, based on Self-Organized Maps, to implement cognitive map functions and permit a new simple mechanism to execute the propagation of state-action updates. The chosen problem to test TRLA is the simulation of a mobile robot navigation in some initially unknown and unstructured environments. Performance comparisons of the TRLA with six other RL algorithms were carried out to the execution of the navigation task. The obtained results are very promising and comparable with some of faster RL algorithms simulated. In some experiments, the TRLA\'s performance overcomes the others especially in simulations with unstructured environments. Three characteristics of the original TRLA were modified to make it more suitable for real implementations: (i) changes in the topological map construction to reduce the vertices number, (ii) changes in the agents heuristic for action selection, and (iii) variations on the TRLAs strategy for exploration of the state-action space. In (i), a new procedure to construct topological maps was proposed and implemented, the Incremental Classifier Topological Map ICTM, which generates the vertices for a Watsons triangulation from the classification of the input states. In (ii), it was proposed a method to optimize trajectory planning problems based on graphs, denoted \"trajectory improvement from inner point detection\". The third point considers directed exploration strategies as an option for TRLA\'s learning acceleration.Biblioteca Digitais de Teses e Dissertações da USPAraujo, Aluizio Fausto RibeiroBraga, Arthur Plínio de Souza2004-04-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/18/18133/tde-21102011-081848/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:10:30Zoai:teses.usp.br:tde-21102011-081848Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:10:30Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Agente topológico de aprendizado por reforço
Topological reinforcement learning agent
title Agente topológico de aprendizado por reforço
spellingShingle Agente topológico de aprendizado por reforço
Braga, Arthur Plínio de Souza
Aprendizagem latente
Aprendizagem por reforço
Latent learning
Mapas auto-organizáveis
Mobile robot navigation
Navegação de robô móvel
Reinforcement learning
Self-organizing maps
title_short Agente topológico de aprendizado por reforço
title_full Agente topológico de aprendizado por reforço
title_fullStr Agente topológico de aprendizado por reforço
title_full_unstemmed Agente topológico de aprendizado por reforço
title_sort Agente topológico de aprendizado por reforço
author Braga, Arthur Plínio de Souza
author_facet Braga, Arthur Plínio de Souza
author_role author
dc.contributor.none.fl_str_mv Araujo, Aluizio Fausto Ribeiro
dc.contributor.author.fl_str_mv Braga, Arthur Plínio de Souza
dc.subject.por.fl_str_mv Aprendizagem latente
Aprendizagem por reforço
Latent learning
Mapas auto-organizáveis
Mobile robot navigation
Navegação de robô móvel
Reinforcement learning
Self-organizing maps
topic Aprendizagem latente
Aprendizagem por reforço
Latent learning
Mapas auto-organizáveis
Mobile robot navigation
Navegação de robô móvel
Reinforcement learning
Self-organizing maps
description Os métodos de Aprendizagem por Reforço (AR) se mostram adequados para problemas de tomadas de decisões em diversos domínios por sua estrutura flexível e adaptável. Apesar de promissores, os métodos AR frequentemente tem seu campo de atuação prático restrito a problemas com espaço de estados de pequeno ou médio porte devido em muito à forma com que realizam a estimativa da função de avaliação. Nesta tese, uma nova abordagem de AR, denominada de Agente Topológico de Aprendizagem por Reforço (ATAR), inspirada em aprendizagem latente, é proposta para acelerar a aprendizagem por reforço através de um mecanismo alternativo de seleção dos pares estado-ação para atualização da estimativa da função de avaliação. A aprendizagem latente refere-se à aprendizagem animal que ocorre na ausência de reforço e que não é aparente até que um sinal de reforço seja percebido pelo agente. Este aprendizado faz com que um agente aprenda parcialmente uma tarefa mesmo antes que este receba qualquer sinal de reforço. Mapas Cognitivos são usualmente empregados para codificar a informação do ambiente em que o agente está imerso. Desta forma, o ATAR usa um mapa topológico, baseado em Mapas Auto-Organizáveis, para realizar as funções do mapa cognitivo e permitir um mecanismo simples de propagação das atualizações. O ATAR foi testado, em simulação, para planejamento de navegação de um robô móvel em ambientes inicialmente desconhecidos e não-estruturados. Comparações com outros seis algoritmos AR avaliaram comparativamente o desempenho do agente proposto na navegação. Os resultados obtidos são promissores e comparáveis com os algoritmos AR mais rápidos testados, alcançando em alguns ensaios desempenho superior aos dos demais algoritmos - principalmente nas simulações que consideram situações observadas em ambientes não-estruturados. Três características do ATAR original foram alteradas para tornar ainda mais viável sua aplicação prática: (i) mudanças no mapa topológico para reduzir o número de vértices, (ii) mudança na heurística usada na seleção das ações do agente e (iii) variações na estratégia de exploração do ATAR. Do ponto (i), foi proposto e implementado um novo mapa topológico, o Mapa Topológico Incremental Classificador MTIC, que a partir da classificação dos estados do ambiente gera os vértices de uma triangularização de Watson. O ponto (ii) criou um método aplicável a outros problemas de planejamento de trajetória em grafos denominado de Melhoria das trajetórias por detecção de ponto interior. O terceiro estudou estratégias direcionadas de exploração como uma opção para acelerar o aprendizado do ATAR.
publishDate 2004
dc.date.none.fl_str_mv 2004-04-07
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/18/18133/tde-21102011-081848/
url http://www.teses.usp.br/teses/disponiveis/18/18133/tde-21102011-081848/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090968390991872