Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente

Detalhes bibliográficos
Autor(a) principal: Aranibar, Dennis Barrios
Data de Publicação: 2009
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/jspui/handle/123456789/15140
Resumo: We propose a new paradigm for collective learning in multi-agent systems (MAS) as a solution to the problem in which several agents acting over the same environment must learn how to perform tasks, simultaneously, based on feedbacks given by each one of the other agents. We introduce the proposed paradigm in the form of a reinforcement learning algorithm, nominating it as reinforcement learning with influence values. While learning by rewards, each agent evaluates the relation between the current state and/or action executed at this state (actual believe) together with the reward obtained after all agents that are interacting perform their actions. The reward is a result of the interference of others. The agent considers the opinions of all its colleagues in order to attempt to change the values of its states and/or actions. The idea is that the system, as a whole, must reach an equilibrium, where all agents get satisfied with the obtained results. This means that the values of the state/actions pairs match the reward obtained by each agent. This dynamical way of setting the values for states and/or actions makes this new reinforcement learning paradigm the first to include, naturally, the fact that the presence of other agents in the environment turns it a dynamical model. As a direct result, we implicitly include the internal state, the actions and the rewards obtained by all the other agents in the internal state of each agent. This makes our proposal the first complete solution to the conceptual problem that rises when applying reinforcement learning in multi-agent systems, which is caused by the difference existent between the environment and agent models. With basis on the proposed model, we create the IVQ-learning algorithm that is exhaustive tested in repetitive games with two, three and four agents and in stochastic games that need cooperation and in games that need collaboration. This algorithm shows to be a good option for obtaining solutions that guarantee convergence to the Nash optimum equilibrium in cooperative problems. Experiments performed clear shows that the proposed paradigm is theoretical and experimentally superior to the traditional approaches. Yet, with the creation of this new paradigm the set of reinforcement learning applications in MAS grows up. That is, besides the possibility of applying the algorithm in traditional learning problems in MAS, as for example coordination of tasks in multi-robot systems, it is possible to apply reinforcement learning in problems that are essentially collaborative
id UFRN_ca4461a1c6b9e9fe21364d7535c9611f
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/15140
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Aranibar, Dennis Barrioshttp://lattes.cnpq.br/1340147563162195http://lattes.cnpq.br/1562357566810393Melo, Jorge Dantas dehttp://lattes.cnpq.br/7325007451912598Canuto, Anne Magaly de Paulahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790093J8Farias, Ricardo Cordeiro dehttp://lattes.cnpq.br/9063837162469343Simôes, Alexandre da Silvahttp://lattes.cnpq.br/1368002066043197Gonçalves, Luiz Marcos Garcia2014-12-17T14:54:54Z2010-07-082014-12-17T14:54:54Z2009-03-19ARANIBAR, Dennis Barrios. Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente. 2009. 168 f. Tese (Doutorado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2009.https://repositorio.ufrn.br/jspui/handle/123456789/15140We propose a new paradigm for collective learning in multi-agent systems (MAS) as a solution to the problem in which several agents acting over the same environment must learn how to perform tasks, simultaneously, based on feedbacks given by each one of the other agents. We introduce the proposed paradigm in the form of a reinforcement learning algorithm, nominating it as reinforcement learning with influence values. While learning by rewards, each agent evaluates the relation between the current state and/or action executed at this state (actual believe) together with the reward obtained after all agents that are interacting perform their actions. The reward is a result of the interference of others. The agent considers the opinions of all its colleagues in order to attempt to change the values of its states and/or actions. The idea is that the system, as a whole, must reach an equilibrium, where all agents get satisfied with the obtained results. This means that the values of the state/actions pairs match the reward obtained by each agent. This dynamical way of setting the values for states and/or actions makes this new reinforcement learning paradigm the first to include, naturally, the fact that the presence of other agents in the environment turns it a dynamical model. As a direct result, we implicitly include the internal state, the actions and the rewards obtained by all the other agents in the internal state of each agent. This makes our proposal the first complete solution to the conceptual problem that rises when applying reinforcement learning in multi-agent systems, which is caused by the difference existent between the environment and agent models. With basis on the proposed model, we create the IVQ-learning algorithm that is exhaustive tested in repetitive games with two, three and four agents and in stochastic games that need cooperation and in games that need collaboration. This algorithm shows to be a good option for obtaining solutions that guarantee convergence to the Nash optimum equilibrium in cooperative problems. Experiments performed clear shows that the proposed paradigm is theoretical and experimentally superior to the traditional approaches. Yet, with the creation of this new paradigm the set of reinforcement learning applications in MAS grows up. That is, besides the possibility of applying the algorithm in traditional learning problems in MAS, as for example coordination of tasks in multi-robot systems, it is possible to apply reinforcement learning in problems that are essentially collaborativePropomos um novo paradigma de aprendizado coletivo em sistemas multi-agentes (SMA) como uma solução para o problema em que vários agentes devem aprender como realizar tarefas agindo sobre um mesmo ambiente, simultaneamente, baseando-se em retornos fornecidos por cada um dos outros agentes. Introduzimos o paradigma proposto na forma do algoritmo de aprendizado por reforço, denominando-o de aprendizado por reforço com valores de influência. Cada agente aprendendo por reforço avalia a relação existente entre o valor do seu estado atual e/ou a ação executada no estado (crenças atuais) junto com a recompensa obtida após todos os agentes que estão interagindo executarem suas ações (resultado da interferência dos outros). O agente pondera as opiniões de todos os seus colegas na tentativa de mudar os valores dos seus estados e/ou ações. A idéia é que o sistema como um todo deve chegar a um equilíbrio, onde todos os agentes se sentem satisfeitos com os resultados obtidos, significando que os valores dos estados ou pares estado/ação casam-se com a recompensa obtida por cada agente. Esta forma dinâmica de atualizar o valor dos estados e/ou ações faz deste novo paradigma de aprendizado por reforço o primeiro a incluir, naturalmente, o fato de que a presença de outros agentes no ambiente o torna dinâmico. Como resultado direto, incluímos implicitamente o estado interno, as ações e a recompensa obtida por todos os outros agentes dentro do estado interno de cada agente. Isso faz de nossa proposta a primeira solução completa para o problema conceitual que surge ao aplicar aprendizado por reforço em sistemas multi-agente, causado pela diferença existente entre o modelo do ambiente e o modelo do agente. Com base no modelo proposto, criamos o algoritmo IVQ-Learning, testado exaustivamente em jogos repetitivos com dois, três e quatro agentes e em jogos estocásticos que exijam cooperação e em jogos que exijam colaboração. Este algoritmo mostra-se como uma boa opção na tentativa de obter soluções que garantam a convergência para o equilíbrio de Nash ótimo em problemas cooperativos. Os experimentos realizados deixam claro que o paradigma proposto é teórica e experimentalmente superior aos paradigmas tradicionais. Ainda, com a criação deste novo paradigma, o conjunto de aplicações de aprendizado por reforço em SMA foi ampliado. Ou seja, além da possibilidade de aplicar os algoritmos nos problemas tradicionais de aprendizado em SMA, como por exemplo coordenação de tarefas em sistemas multi-robô, é possível aplicar aprendizado por reforço nos problemas essencialmente colaborativosConselho Nacional de Desenvolvimento Científico e Tecnológicoapplication/pdfporUniversidade Federal do Rio Grande do NortePrograma de Pós-Graduação em Engenharia ElétricaUFRNBRAutomação e Sistemas; Engenharia de Computação; TelecomunicaçõesSistemas Multi-AgenteCoordenaçãoColaboraçãoAprendizado por reforçoAuto-OrganizaçãoMulti agent systemsCoordinationCollaborationReinforcement learningSelf-organizationCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAAprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agenteinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALDennisBA_TESE.pdfapplication/pdf1043376https://repositorio.ufrn.br/bitstream/123456789/15140/1/DennisBA_TESE.pdf6b47eea8aa7b8a53ea716b636db4663bMD51TEXTDennisBA_TESE.pdf.txtDennisBA_TESE.pdf.txtExtracted texttext/plain250402https://repositorio.ufrn.br/bitstream/123456789/15140/6/DennisBA_TESE.pdf.txt8be7aeb63fa506428560dffc05b12b46MD56THUMBNAILDennisBA_TESE.pdf.jpgDennisBA_TESE.pdf.jpgIM Thumbnailimage/jpeg6111https://repositorio.ufrn.br/bitstream/123456789/15140/7/DennisBA_TESE.pdf.jpgb0fce46d892dde40c145c6b3b9fc6c83MD57123456789/151402017-11-02 05:36:55.208oai:https://repositorio.ufrn.br:123456789/15140Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2017-11-02T08:36:55Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.por.fl_str_mv Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente
title Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente
spellingShingle Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente
Aranibar, Dennis Barrios
Sistemas Multi-Agente
Coordenação
Colaboração
Aprendizado por reforço
Auto-Organização
Multi agent systems
Coordination
Collaboration
Reinforcement learning
Self-organization
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
title_short Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente
title_full Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente
title_fullStr Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente
title_full_unstemmed Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente
title_sort Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente
author Aranibar, Dennis Barrios
author_facet Aranibar, Dennis Barrios
author_role author
dc.contributor.authorID.por.fl_str_mv
dc.contributor.authorLattes.por.fl_str_mv http://lattes.cnpq.br/1340147563162195
dc.contributor.advisorID.por.fl_str_mv
dc.contributor.advisorLattes.por.fl_str_mv http://lattes.cnpq.br/1562357566810393
dc.contributor.referees1.pt_BR.fl_str_mv Melo, Jorge Dantas de
dc.contributor.referees1ID.por.fl_str_mv
dc.contributor.referees1Lattes.por.fl_str_mv http://lattes.cnpq.br/7325007451912598
dc.contributor.referees2.pt_BR.fl_str_mv Canuto, Anne Magaly de Paula
dc.contributor.referees2ID.por.fl_str_mv
dc.contributor.referees2Lattes.por.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790093J8
dc.contributor.referees3.pt_BR.fl_str_mv Farias, Ricardo Cordeiro de
dc.contributor.referees3ID.por.fl_str_mv
dc.contributor.referees3Lattes.por.fl_str_mv http://lattes.cnpq.br/9063837162469343
dc.contributor.referees4.pt_BR.fl_str_mv Simôes, Alexandre da Silva
dc.contributor.referees4ID.por.fl_str_mv
dc.contributor.referees4Lattes.por.fl_str_mv http://lattes.cnpq.br/1368002066043197
dc.contributor.author.fl_str_mv Aranibar, Dennis Barrios
dc.contributor.advisor1.fl_str_mv Gonçalves, Luiz Marcos Garcia
contributor_str_mv Gonçalves, Luiz Marcos Garcia
dc.subject.por.fl_str_mv Sistemas Multi-Agente
Coordenação
Colaboração
Aprendizado por reforço
Auto-Organização
topic Sistemas Multi-Agente
Coordenação
Colaboração
Aprendizado por reforço
Auto-Organização
Multi agent systems
Coordination
Collaboration
Reinforcement learning
Self-organization
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
dc.subject.eng.fl_str_mv Multi agent systems
Coordination
Collaboration
Reinforcement learning
Self-organization
dc.subject.cnpq.fl_str_mv CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
description We propose a new paradigm for collective learning in multi-agent systems (MAS) as a solution to the problem in which several agents acting over the same environment must learn how to perform tasks, simultaneously, based on feedbacks given by each one of the other agents. We introduce the proposed paradigm in the form of a reinforcement learning algorithm, nominating it as reinforcement learning with influence values. While learning by rewards, each agent evaluates the relation between the current state and/or action executed at this state (actual believe) together with the reward obtained after all agents that are interacting perform their actions. The reward is a result of the interference of others. The agent considers the opinions of all its colleagues in order to attempt to change the values of its states and/or actions. The idea is that the system, as a whole, must reach an equilibrium, where all agents get satisfied with the obtained results. This means that the values of the state/actions pairs match the reward obtained by each agent. This dynamical way of setting the values for states and/or actions makes this new reinforcement learning paradigm the first to include, naturally, the fact that the presence of other agents in the environment turns it a dynamical model. As a direct result, we implicitly include the internal state, the actions and the rewards obtained by all the other agents in the internal state of each agent. This makes our proposal the first complete solution to the conceptual problem that rises when applying reinforcement learning in multi-agent systems, which is caused by the difference existent between the environment and agent models. With basis on the proposed model, we create the IVQ-learning algorithm that is exhaustive tested in repetitive games with two, three and four agents and in stochastic games that need cooperation and in games that need collaboration. This algorithm shows to be a good option for obtaining solutions that guarantee convergence to the Nash optimum equilibrium in cooperative problems. Experiments performed clear shows that the proposed paradigm is theoretical and experimentally superior to the traditional approaches. Yet, with the creation of this new paradigm the set of reinforcement learning applications in MAS grows up. That is, besides the possibility of applying the algorithm in traditional learning problems in MAS, as for example coordination of tasks in multi-robot systems, it is possible to apply reinforcement learning in problems that are essentially collaborative
publishDate 2009
dc.date.issued.fl_str_mv 2009-03-19
dc.date.available.fl_str_mv 2010-07-08
2014-12-17T14:54:54Z
dc.date.accessioned.fl_str_mv 2014-12-17T14:54:54Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ARANIBAR, Dennis Barrios. Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente. 2009. 168 f. Tese (Doutorado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2009.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/jspui/handle/123456789/15140
identifier_str_mv ARANIBAR, Dennis Barrios. Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente. 2009. 168 f. Tese (Doutorado em Automação e Sistemas; Engenharia de Computação; Telecomunicações) - Universidade Federal do Rio Grande do Norte, Natal, 2009.
url https://repositorio.ufrn.br/jspui/handle/123456789/15140
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Automação e Sistemas; Engenharia de Computação; Telecomunicações
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/15140/1/DennisBA_TESE.pdf
https://repositorio.ufrn.br/bitstream/123456789/15140/6/DennisBA_TESE.pdf.txt
https://repositorio.ufrn.br/bitstream/123456789/15140/7/DennisBA_TESE.pdf.jpg
bitstream.checksum.fl_str_mv 6b47eea8aa7b8a53ea716b636db4663b
8be7aeb63fa506428560dffc05b12b46
b0fce46d892dde40c145c6b3b9fc6c83
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1814832879003238400