Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement

Almeida, Vicente Nejar de

Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement

Detalhes bibliográficos
Autor(a) principal:	Almeida, Vicente Nejar de
Data de Publicação:	2022
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	eng
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/254921
Resumo:	Embora muitos problemas do mundo real sejam inerentemente distribuídos e multiobjeti vos, a maior parte da literatura de aprendizado por reforço (RL) lida com agentes únicos e objetivos únicos. Dito isto, alguns desses problemas podem ser resolvidos usando uma solução de RL com apenas um agente e um objetivo, centralizando o aprendizado e a tomada de decisão e especificando uma preferência sobre os objetivos antes de treinar o agente. No entanto, grande parte desses problemas não podem ser centralizados devido a questões de robustez, como a necessidade de evitar um ponto central de falha e possí veis falhas de comunicação. Além disso, em muitos casos, as preferências de um agente podem mudar ao longo do tempo, ou seu comportamento para várias preferências dife rentes sobre os objetivos pode precisar ser analisado para entender melhor as vantagens e desvantagens entre os objetivos. Portanto, surge a necessidade de uma maneira de treinar vários agentes (de modo a lidar com a estrutura distribuída de algumas tarefas) para que eles possam ter um bom desempenho para quaisquer preferências em relação aos seus objetivos. Para atender a essa necessidade, este trabalho propõe um método de aprendi zado por reforço multiobjetivo multiagente (MOMARL) no qual os agentes constroem descentralizadamente um conjunto compartilhado de políticas durante o treinamento e, em seguida, combinam essas políticas usando uma generalização de policy improvement e policy evaluation (operações fundamentais de algoritmos de RL) para gerar compor tamentos eficazes para quaisquer preferências possíveis sobre seus objetivos, sem exigir nenhum treinamento adicional. Este método é aplicado a dois ambientes diferentes: uma extensão multiagente de um domínio comumente utilizado na literatura relacionada, e um problema complexo, inerentemente distribuído e multiobjetivo (controle semafórico em um cenário com carros e pedestres). Os resultados mostram que a abordagem é capaz de eficazmente e eficientemente gerar novos comportamentos para os agentes, dada qualquer preferência entre objetivos.

Metadados do item

id	UFRGS-2_f4676f1438bfc4321d3cd42adc5c73a0
oai_identifier_str	oai:www.lume.ufrgs.br:10183/254921
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Almeida, Vicente Nejar deBazzan, Ana Lucia CetertichAlegre, Lucas Nunes2023-02-18T03:29:01Z2022http://hdl.handle.net/10183/254921001162674Embora muitos problemas do mundo real sejam inerentemente distribuídos e multiobjeti vos, a maior parte da literatura de aprendizado por reforço (RL) lida com agentes únicos e objetivos únicos. Dito isto, alguns desses problemas podem ser resolvidos usando uma solução de RL com apenas um agente e um objetivo, centralizando o aprendizado e a tomada de decisão e especificando uma preferência sobre os objetivos antes de treinar o agente. No entanto, grande parte desses problemas não podem ser centralizados devido a questões de robustez, como a necessidade de evitar um ponto central de falha e possí veis falhas de comunicação. Além disso, em muitos casos, as preferências de um agente podem mudar ao longo do tempo, ou seu comportamento para várias preferências dife rentes sobre os objetivos pode precisar ser analisado para entender melhor as vantagens e desvantagens entre os objetivos. Portanto, surge a necessidade de uma maneira de treinar vários agentes (de modo a lidar com a estrutura distribuída de algumas tarefas) para que eles possam ter um bom desempenho para quaisquer preferências em relação aos seus objetivos. Para atender a essa necessidade, este trabalho propõe um método de aprendi zado por reforço multiobjetivo multiagente (MOMARL) no qual os agentes constroem descentralizadamente um conjunto compartilhado de políticas durante o treinamento e, em seguida, combinam essas políticas usando uma generalização de policy improvement e policy evaluation (operações fundamentais de algoritmos de RL) para gerar compor tamentos eficazes para quaisquer preferências possíveis sobre seus objetivos, sem exigir nenhum treinamento adicional. Este método é aplicado a dois ambientes diferentes: uma extensão multiagente de um domínio comumente utilizado na literatura relacionada, e um problema complexo, inerentemente distribuído e multiobjetivo (controle semafórico em um cenário com carros e pedestres). Os resultados mostram que a abordagem é capaz de eficazmente e eficientemente gerar novos comportamentos para os agentes, dada qualquer preferência entre objetivos.Even though many real-world problems are inherently distributed and multi-objective, most of the reinforcement learning (RL) literature deals with single agents and single objectives. That being said, some of these problems can be solved using a single-agent single-objective RL solution, by centralizing the learning and decision making, and spec ifying a preference over objectives before training the agent. However, most of these problems cannot be centralized due to robustness issues, such as the need to avoid a cen tral point of failure and possible communication failures. Also, in many cases, an agent’s preferences might change over time, or it’s behavior for several different preferences over objectives might have to be analyzed to better understand tradeoffs among objectives. Therefore, a need arises for a way to train multiple agents (so as to tackle the distributed structure of some tasks) so that they can perform well for any given preferences with re spect to their objectives. To address this need, this work proposes a multi-objective multi agent reinforcement learning (MOMARL) method in which agents decentrally build a shared set of policies during training, and then combine these policies using a general ization of policy improvement and policy evaluation (fundamental operations of RL algo rithms) to generate effective behaviors for any possible preferences over their objectives, without requiring any additional training. This method is applied to two different envi ronments: a multi-agent extension of a domain commonly used in the related literature, and a complex, inherently distributed and multi-objective problem (traffic signal control in a scenario with both vehicles and pedestrians). The results show that the approach is able to effectively and efficiently generate behaviors for the agents, given any preference among objectives.application/pdfengAprendizado por reforçoSistemas multiagentesSimulação de tráfegoMulti-objective decision makingGeneralized policy improvementKnowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvementinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2022Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001162674.pdf.txt001162674.pdf.txtExtracted Texttext/plain92001http://www.lume.ufrgs.br/bitstream/10183/254921/2/001162674.pdf.txte599e9c970f46bc7eb43e748015ddd9dMD52ORIGINAL001162674.pdfTexto completo (inglês)application/pdf943852http://www.lume.ufrgs.br/bitstream/10183/254921/1/001162674.pdfd15786d8ed0a64c3e365ae1b5833600bMD5110183/2549212024-02-21 04:59:06.113345oai:www.lume.ufrgs.br:10183/254921Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2024-02-21T07:59:06Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement
title	Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement
spellingShingle	Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement Almeida, Vicente Nejar de Aprendizado por reforço Sistemas multiagentes Simulação de tráfego Multi-objective decision making Generalized policy improvement
title_short	Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement
title_full	Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement
title_fullStr	Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement
title_full_unstemmed	Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement
title_sort	Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement
author	Almeida, Vicente Nejar de
author_facet	Almeida, Vicente Nejar de
author_role	author
dc.contributor.author.fl_str_mv	Almeida, Vicente Nejar de
dc.contributor.advisor1.fl_str_mv	Bazzan, Ana Lucia Cetertich
dc.contributor.advisor-co1.fl_str_mv	Alegre, Lucas Nunes
contributor_str_mv	Bazzan, Ana Lucia Cetertich Alegre, Lucas Nunes
dc.subject.por.fl_str_mv	Aprendizado por reforço Sistemas multiagentes Simulação de tráfego
topic	Aprendizado por reforço Sistemas multiagentes Simulação de tráfego Multi-objective decision making Generalized policy improvement
dc.subject.eng.fl_str_mv	Multi-objective decision making Generalized policy improvement
description	Embora muitos problemas do mundo real sejam inerentemente distribuídos e multiobjeti vos, a maior parte da literatura de aprendizado por reforço (RL) lida com agentes únicos e objetivos únicos. Dito isto, alguns desses problemas podem ser resolvidos usando uma solução de RL com apenas um agente e um objetivo, centralizando o aprendizado e a tomada de decisão e especificando uma preferência sobre os objetivos antes de treinar o agente. No entanto, grande parte desses problemas não podem ser centralizados devido a questões de robustez, como a necessidade de evitar um ponto central de falha e possí veis falhas de comunicação. Além disso, em muitos casos, as preferências de um agente podem mudar ao longo do tempo, ou seu comportamento para várias preferências dife rentes sobre os objetivos pode precisar ser analisado para entender melhor as vantagens e desvantagens entre os objetivos. Portanto, surge a necessidade de uma maneira de treinar vários agentes (de modo a lidar com a estrutura distribuída de algumas tarefas) para que eles possam ter um bom desempenho para quaisquer preferências em relação aos seus objetivos. Para atender a essa necessidade, este trabalho propõe um método de aprendi zado por reforço multiobjetivo multiagente (MOMARL) no qual os agentes constroem descentralizadamente um conjunto compartilhado de políticas durante o treinamento e, em seguida, combinam essas políticas usando uma generalização de policy improvement e policy evaluation (operações fundamentais de algoritmos de RL) para gerar compor tamentos eficazes para quaisquer preferências possíveis sobre seus objetivos, sem exigir nenhum treinamento adicional. Este método é aplicado a dois ambientes diferentes: uma extensão multiagente de um domínio comumente utilizado na literatura relacionada, e um problema complexo, inerentemente distribuído e multiobjetivo (controle semafórico em um cenário com carros e pedestres). Os resultados mostram que a abordagem é capaz de eficazmente e eficientemente gerar novos comportamentos para os agentes, dada qualquer preferência entre objetivos.
publishDate	2022
dc.date.issued.fl_str_mv	2022
dc.date.accessioned.fl_str_mv	2023-02-18T03:29:01Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/254921
dc.identifier.nrb.pt_BR.fl_str_mv	001162674
url	http://hdl.handle.net/10183/254921
identifier_str_mv	001162674
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/254921/2/001162674.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/254921/1/001162674.pdf
bitstream.checksum.fl_str_mv	e599e9c970f46bc7eb43e748015ddd9d d15786d8ed0a64c3e365ae1b5833600b
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1815447331302014976

Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement

Registros relacionados