A flexible approach for optimal rewards in multi-agent reinforcement learning problems

Grunitzki, Ricardo

A flexible approach for optimal rewards in multi-agent reinforcement learning problems

Detalhes bibliográficos
Autor(a) principal:	Grunitzki, Ricardo
Data de Publicação:	2018
Tipo de documento:	Tese
Idioma:	eng
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/188230
Resumo:	Definir uma função de recompensa que, quando otimizada, resulta em uma rápida aquisição de política ótima é uma das tarefas mais desafiadoras envolvendo o uso de algoritmos de aprendizado por reforço. O comportamento aprendido pelos agentes está diretamente relacionado à função de recompensa que eles estão utilizando. Trabalhos existentes sobre o Optimal Reward Problem (ORP) propõem mecanismos para projetar funções de recompensa. Entretanto, a aplicação de tais métodos é limitada à algumas subclasses específicas de problemas de aprendizado por reforço mono ou multiagente. Além do mais, os métodos em questão apenas identificam “o quanto” que um agente deve ser recompensado em cada situação, mas não “quais os” aspectos do estado ou ambiente que devem ser utilizados na estrutura da função de recompensa. Nesta tese, nós propomos melhorias no ORP tradicional, definindo uma versão estendida do optimal reward problem (EORP) que: i) pode identificar tanto as características do estado/ambiente quanto os sinais de recompensa que compõem a função de recompensa; ii) é geral o suficiente para lidar com problemas de aprendizado por reforço mono e multiagente; iii) é escalável para problemas onde existem grandes quantidades de agentes aprendendo simultaneamente; iv) incorpora uma métrica de esforço de aprendizagem na avaliação das funções de recompensa, permitindo a descoberta de funções de recompensa que resultam em um aprendizado mais rápido. Para demonstrar a eficácia do nosso método em projetar funções de recompensa efetivas, nós o avaliamos em dois cenários, onde os resultados são comparados com outras duas funções de recompensa: uma definida manualmente por um especialista de domínio e uma função do tipo difference rewards. Os resultados mostram que a nossa abordagem consegue identificar funções de recompensa que aprendem políticas de maior performance e que resultam em menor tempo de aprendizagem.

Metadados do item

id	URGS_0e5105d3dc01e1e4285e58dc36998d85
oai_identifier_str	oai:www.lume.ufrgs.br:10183/188230
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Grunitzki, RicardoBazzan, Ana Lucia Cetertich2019-01-26T02:35:22Z2018http://hdl.handle.net/10183/188230001085029Definir uma função de recompensa que, quando otimizada, resulta em uma rápida aquisição de política ótima é uma das tarefas mais desafiadoras envolvendo o uso de algoritmos de aprendizado por reforço. O comportamento aprendido pelos agentes está diretamente relacionado à função de recompensa que eles estão utilizando. Trabalhos existentes sobre o Optimal Reward Problem (ORP) propõem mecanismos para projetar funções de recompensa. Entretanto, a aplicação de tais métodos é limitada à algumas subclasses específicas de problemas de aprendizado por reforço mono ou multiagente. Além do mais, os métodos em questão apenas identificam “o quanto” que um agente deve ser recompensado em cada situação, mas não “quais os” aspectos do estado ou ambiente que devem ser utilizados na estrutura da função de recompensa. Nesta tese, nós propomos melhorias no ORP tradicional, definindo uma versão estendida do optimal reward problem (EORP) que: i) pode identificar tanto as características do estado/ambiente quanto os sinais de recompensa que compõem a função de recompensa; ii) é geral o suficiente para lidar com problemas de aprendizado por reforço mono e multiagente; iii) é escalável para problemas onde existem grandes quantidades de agentes aprendendo simultaneamente; iv) incorpora uma métrica de esforço de aprendizagem na avaliação das funções de recompensa, permitindo a descoberta de funções de recompensa que resultam em um aprendizado mais rápido. Para demonstrar a eficácia do nosso método em projetar funções de recompensa efetivas, nós o avaliamos em dois cenários, onde os resultados são comparados com outras duas funções de recompensa: uma definida manualmente por um especialista de domínio e uma função do tipo difference rewards. Os resultados mostram que a nossa abordagem consegue identificar funções de recompensa que aprendem políticas de maior performance e que resultam em menor tempo de aprendizagem.Defining a reward function that, when optimized, results in rapid acquisition of an optimal policy, is one of the most challenging tasks involved in applying reinforcement learning algorithms. The behavior learned by agents is directly related to the reward function they are using. Existing work on the Optimal Reward Problem (ORP) propose mechanisms to design reward functions. However, their application is limited to specific sub-classes of single or multi-agent reinforcement learning problems. Moreover, these methods identify which rewards should be given in which situation, but not which aspects of the state or environment should be used when defining the reward function. This thesis proposes an extended version of the optimal reward problem (EORP) that: i) can identify both features and reward signals that should compose the reward function; ii) is general enough to deal with single and multi-agent reinforcement learning problems; iii) is scalable to problems with large number of agents learning simultaneously; iv) incorporates a learning effort metric in the evaluation of reward functions, allowing the discovery of reward functions that result in faster learning. The method is evaluated on gridworld and traffic assignment problems to demonstrate its efficacy in designing effective reward functions. The results obtained by the proposed approach are compared to reward functions designed by a domain specialist and to a wellknown new design technique for multi-agent rewards called difference rewards. Results show that EORP can identify reward functions that outperform these two types of reward functions in the evaluated problems.application/pdfengInteligência artificialSistemas multiagentesAprendizado : máquinaOptimal reward problemMulti-agent reinforcement learningReward function designA flexible approach for optimal rewards in multi-agent reinforcement learning problemsUma abordagem flexível para recompensas ótimas em problemas de aprendizado por reforço multiagente info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2018doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001085029.pdf.txt001085029.pdf.txtExtracted Texttext/plain192511http://www.lume.ufrgs.br/bitstream/10183/188230/2/001085029.pdf.txt8478faa48d78868e9803537c67e40645MD52ORIGINAL001085029.pdfTexto completo (inglês)application/pdf744418http://www.lume.ufrgs.br/bitstream/10183/188230/1/001085029.pdf0721c66015a12d23e7ae86c99b81c875MD5110183/1882302021-05-26 04:35:17.805516oai:www.lume.ufrgs.br:10183/188230Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532021-05-26T07:35:17Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	A flexible approach for optimal rewards in multi-agent reinforcement learning problems
dc.title.alternative.en.fl_str_mv	Uma abordagem flexível para recompensas ótimas em problemas de aprendizado por reforço multiagente
title	A flexible approach for optimal rewards in multi-agent reinforcement learning problems
spellingShingle	A flexible approach for optimal rewards in multi-agent reinforcement learning problems Grunitzki, Ricardo Inteligência artificial Sistemas multiagentes Aprendizado : máquina Optimal reward problem Multi-agent reinforcement learning Reward function design
title_short	A flexible approach for optimal rewards in multi-agent reinforcement learning problems
title_full	A flexible approach for optimal rewards in multi-agent reinforcement learning problems
title_fullStr	A flexible approach for optimal rewards in multi-agent reinforcement learning problems
title_full_unstemmed	A flexible approach for optimal rewards in multi-agent reinforcement learning problems
title_sort	A flexible approach for optimal rewards in multi-agent reinforcement learning problems
author	Grunitzki, Ricardo
author_facet	Grunitzki, Ricardo
author_role	author
dc.contributor.author.fl_str_mv	Grunitzki, Ricardo
dc.contributor.advisor1.fl_str_mv	Bazzan, Ana Lucia Cetertich
contributor_str_mv	Bazzan, Ana Lucia Cetertich
dc.subject.por.fl_str_mv	Inteligência artificial Sistemas multiagentes Aprendizado : máquina
topic	Inteligência artificial Sistemas multiagentes Aprendizado : máquina Optimal reward problem Multi-agent reinforcement learning Reward function design
dc.subject.eng.fl_str_mv	Optimal reward problem Multi-agent reinforcement learning Reward function design
description	Definir uma função de recompensa que, quando otimizada, resulta em uma rápida aquisição de política ótima é uma das tarefas mais desafiadoras envolvendo o uso de algoritmos de aprendizado por reforço. O comportamento aprendido pelos agentes está diretamente relacionado à função de recompensa que eles estão utilizando. Trabalhos existentes sobre o Optimal Reward Problem (ORP) propõem mecanismos para projetar funções de recompensa. Entretanto, a aplicação de tais métodos é limitada à algumas subclasses específicas de problemas de aprendizado por reforço mono ou multiagente. Além do mais, os métodos em questão apenas identificam “o quanto” que um agente deve ser recompensado em cada situação, mas não “quais os” aspectos do estado ou ambiente que devem ser utilizados na estrutura da função de recompensa. Nesta tese, nós propomos melhorias no ORP tradicional, definindo uma versão estendida do optimal reward problem (EORP) que: i) pode identificar tanto as características do estado/ambiente quanto os sinais de recompensa que compõem a função de recompensa; ii) é geral o suficiente para lidar com problemas de aprendizado por reforço mono e multiagente; iii) é escalável para problemas onde existem grandes quantidades de agentes aprendendo simultaneamente; iv) incorpora uma métrica de esforço de aprendizagem na avaliação das funções de recompensa, permitindo a descoberta de funções de recompensa que resultam em um aprendizado mais rápido. Para demonstrar a eficácia do nosso método em projetar funções de recompensa efetivas, nós o avaliamos em dois cenários, onde os resultados são comparados com outras duas funções de recompensa: uma definida manualmente por um especialista de domínio e uma função do tipo difference rewards. Os resultados mostram que a nossa abordagem consegue identificar funções de recompensa que aprendem políticas de maior performance e que resultam em menor tempo de aprendizagem.
publishDate	2018
dc.date.issued.fl_str_mv	2018
dc.date.accessioned.fl_str_mv	2019-01-26T02:35:22Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/188230
dc.identifier.nrb.pt_BR.fl_str_mv	001085029
url	http://hdl.handle.net/10183/188230
identifier_str_mv	001085029
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/188230/2/001085029.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/188230/1/001085029.pdf
bitstream.checksum.fl_str_mv	8478faa48d78868e9803537c67e40645 0721c66015a12d23e7ae86c99b81c875
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1800309137284792320

A flexible approach for optimal rewards in multi-agent reinforcement learning problems

Registros relacionados