Organização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafórico

Detalhes bibliográficos
Autor(a) principal: Antes, Taylor de Oliveira
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/223664
Resumo: Controle semafórico é uma possível solução para o sério problema de aumento de congestionamento nas áreas urbanas. Técnicas de aprendizado por reforço multiagente (MARL) têm mostrado resultados significativos na otimização de controladores semafóricos, visto que distribuem o controle global do tráfego entre agentes locais responsáveis pelos controladores. Assim, cada agente local tem uma visão parcial do ambiente e otimiza sua política baseado em suas observações. Contudo, o tráfego que passa por uma interseção não depende apenas de influências locais, mas de informações da rede de transporte como um todo. Do ponto de vista computacional, realizar o controle semafórico de uma rede de transporte de forma centralizada é uma tarefa de difícil execução devido à grande quantidade de variáveis envolvidas; enquanto de forma descentralizada, é possível não atingir o melhor desempenho do sistema, visto que os agentes buscam melhorar individualmente. O método proposto nesta dissertação baseia-se em utilizar uma organização hierárquica para aumentar a visão dos agentes locais e coordená-los com o objetivo de melhorar o desempenho do sistema. O método é inspirado em algumas técnicas de aprendizado por reforço que utilizam uma organização hierárquica. Contudo, diferencia-se dessas técnicas por apresentar uma metodologia hierárquica mais flexível em relação às interações entre os agentes de diferentes níveis. Na metodologia proposta, uma organização hierárquica com um número arbitrário de níveis é apresentada. Agentes supervisores, de nível l, são responsáveis por um conjunto de agentes subordinados, de nível l 1. Os subordinados transmitem uma abstração de suas observações do ambiente para seus supervisores. Os supervisores utilizam essas abstrações para aprender uma recomendação de alto nível a qual guiará o aprendizado dos seus subordinados para um melhor desempenho coletivo. Na aplicação para controle semafórico, a rede de transporte é dividida em regiões de diferentes níveis hierárquicos, cada região sendo controlada por um agente. Logo, quanto mais alto o nível hierárquico do agente região, mais ampla é sua visão do tráfego na rede de transporte. Na base da hierarquia se encontram os agentes dos controladores semafóricos, localizados em cada interseção. Os resultados dos experimentos, realizados em uma rede sintética em grid, mostram que a metodologia proposta de aprendizado por reforço com organização hierárquica tem melhor desempenho quando comparada a um método de tempo fixo e a um método com aprendizado por reforço sem organização hierárquica.
id URGS_5d68108d7452ddb8e9dbb02665df95aa
oai_identifier_str oai:www.lume.ufrgs.br:10183/223664
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Antes, Taylor de OliveiraBazzan, Ana Lucia CetertichTavares, Anderson Rocha2021-07-13T04:38:06Z2021http://hdl.handle.net/10183/223664001128141Controle semafórico é uma possível solução para o sério problema de aumento de congestionamento nas áreas urbanas. Técnicas de aprendizado por reforço multiagente (MARL) têm mostrado resultados significativos na otimização de controladores semafóricos, visto que distribuem o controle global do tráfego entre agentes locais responsáveis pelos controladores. Assim, cada agente local tem uma visão parcial do ambiente e otimiza sua política baseado em suas observações. Contudo, o tráfego que passa por uma interseção não depende apenas de influências locais, mas de informações da rede de transporte como um todo. Do ponto de vista computacional, realizar o controle semafórico de uma rede de transporte de forma centralizada é uma tarefa de difícil execução devido à grande quantidade de variáveis envolvidas; enquanto de forma descentralizada, é possível não atingir o melhor desempenho do sistema, visto que os agentes buscam melhorar individualmente. O método proposto nesta dissertação baseia-se em utilizar uma organização hierárquica para aumentar a visão dos agentes locais e coordená-los com o objetivo de melhorar o desempenho do sistema. O método é inspirado em algumas técnicas de aprendizado por reforço que utilizam uma organização hierárquica. Contudo, diferencia-se dessas técnicas por apresentar uma metodologia hierárquica mais flexível em relação às interações entre os agentes de diferentes níveis. Na metodologia proposta, uma organização hierárquica com um número arbitrário de níveis é apresentada. Agentes supervisores, de nível l, são responsáveis por um conjunto de agentes subordinados, de nível l 1. Os subordinados transmitem uma abstração de suas observações do ambiente para seus supervisores. Os supervisores utilizam essas abstrações para aprender uma recomendação de alto nível a qual guiará o aprendizado dos seus subordinados para um melhor desempenho coletivo. Na aplicação para controle semafórico, a rede de transporte é dividida em regiões de diferentes níveis hierárquicos, cada região sendo controlada por um agente. Logo, quanto mais alto o nível hierárquico do agente região, mais ampla é sua visão do tráfego na rede de transporte. Na base da hierarquia se encontram os agentes dos controladores semafóricos, localizados em cada interseção. Os resultados dos experimentos, realizados em uma rede sintética em grid, mostram que a metodologia proposta de aprendizado por reforço com organização hierárquica tem melhor desempenho quando comparada a um método de tempo fixo e a um método com aprendizado por reforço sem organização hierárquica.Traffic signal control is a possible solution to the serious problem of congestion increase in urban areas. Multi-agent reinforcement learning (MARL) techniques have shown significant results in the traffic signal controllers’ optimization, since they distribute the global traffic control among local agents responsible for the controllers. Thus, each local agent has a partial view of the environment and optimizes its policy based on its observations. However, traffic passing through an intersection does not depend only on local influences, but on information from the transport network as a whole. From a computational point of view, carrying out the traffic control of a transport network in a centralized way is difficult task due to the large number of variables involved; while in a decentralized way, it is possible not to achieve the best performance of the system, since the agents seek to improve individually. The method proposed in this dissertation uses a hierarchical organization to increase the local agents’ vision and coordinate them in order to improve the performance of the system. The method is inspired by reinforcement learning techniques that use a hierarchical organization. However, it differs from these techniques in that it presents a more flexible hierarchical methodology in relation to the interactions between agents at different levels. In the proposed methodology, a hierarchical organization with an arbitrary number of levels is presented. Supervisor agents, of level l, are responsible for a set of subordinate agents, of level l 1. The subordinates transmit an abstraction of their environment’ observations to their supervisors. The supervisors use these abstractions to learn a high-level recommendation that will guide their subordinates’ learning to a better collective performance. In the traffic control application, the transportation network is divided into regions of different hierarchical levels, each region being controlled by an agent. Therefore, the higher the hierarchical level of the region agent, the broader his view of traffic on the transport network. At the bottom of the hierarchy are the traffic signal controller agents, located at each intersection. The results of the experiments, carried out in a synthetic grid network, show that the proposed reinforcement learning approach with hierarchical organization outperforms a fixed time method and a reinforcement learning method without hierarchical organization.application/pdfporControle semafóricoAprendizado por reforçoHierarchical Organization.Traffic Signal ControlOrganização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafóricoHierarchical organization with state aggregation in multiagent learning: an application in traffic signal control info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2021mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001128141.pdf.txt001128141.pdf.txtExtracted Texttext/plain150105http://www.lume.ufrgs.br/bitstream/10183/223664/2/001128141.pdf.txtb7bd0826c6c012a09389648c31b766e3MD52ORIGINAL001128141.pdfTexto completoapplication/pdf8873997http://www.lume.ufrgs.br/bitstream/10183/223664/1/001128141.pdf097f55a469ec498fb0a99b3356ea84a7MD5110183/2236642021-08-18 04:29:19.438722oai:www.lume.ufrgs.br:10183/223664Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-08-18T07:29:19Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Organização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafórico
dc.title.alternative.en.fl_str_mv Hierarchical organization with state aggregation in multiagent learning: an application in traffic signal control
title Organização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafórico
spellingShingle Organização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafórico
Antes, Taylor de Oliveira
Controle semafórico
Aprendizado por reforço
Hierarchical Organization.
Traffic Signal Control
title_short Organização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafórico
title_full Organização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafórico
title_fullStr Organização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafórico
title_full_unstemmed Organização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafórico
title_sort Organização hierárquica com agregação de estados em aprendizado multiagente: uma aplicação em controle semafórico
author Antes, Taylor de Oliveira
author_facet Antes, Taylor de Oliveira
author_role author
dc.contributor.author.fl_str_mv Antes, Taylor de Oliveira
dc.contributor.advisor1.fl_str_mv Bazzan, Ana Lucia Cetertich
dc.contributor.advisor-co1.fl_str_mv Tavares, Anderson Rocha
contributor_str_mv Bazzan, Ana Lucia Cetertich
Tavares, Anderson Rocha
dc.subject.por.fl_str_mv Controle semafórico
Aprendizado por reforço
topic Controle semafórico
Aprendizado por reforço
Hierarchical Organization.
Traffic Signal Control
dc.subject.eng.fl_str_mv Hierarchical Organization.
Traffic Signal Control
description Controle semafórico é uma possível solução para o sério problema de aumento de congestionamento nas áreas urbanas. Técnicas de aprendizado por reforço multiagente (MARL) têm mostrado resultados significativos na otimização de controladores semafóricos, visto que distribuem o controle global do tráfego entre agentes locais responsáveis pelos controladores. Assim, cada agente local tem uma visão parcial do ambiente e otimiza sua política baseado em suas observações. Contudo, o tráfego que passa por uma interseção não depende apenas de influências locais, mas de informações da rede de transporte como um todo. Do ponto de vista computacional, realizar o controle semafórico de uma rede de transporte de forma centralizada é uma tarefa de difícil execução devido à grande quantidade de variáveis envolvidas; enquanto de forma descentralizada, é possível não atingir o melhor desempenho do sistema, visto que os agentes buscam melhorar individualmente. O método proposto nesta dissertação baseia-se em utilizar uma organização hierárquica para aumentar a visão dos agentes locais e coordená-los com o objetivo de melhorar o desempenho do sistema. O método é inspirado em algumas técnicas de aprendizado por reforço que utilizam uma organização hierárquica. Contudo, diferencia-se dessas técnicas por apresentar uma metodologia hierárquica mais flexível em relação às interações entre os agentes de diferentes níveis. Na metodologia proposta, uma organização hierárquica com um número arbitrário de níveis é apresentada. Agentes supervisores, de nível l, são responsáveis por um conjunto de agentes subordinados, de nível l 1. Os subordinados transmitem uma abstração de suas observações do ambiente para seus supervisores. Os supervisores utilizam essas abstrações para aprender uma recomendação de alto nível a qual guiará o aprendizado dos seus subordinados para um melhor desempenho coletivo. Na aplicação para controle semafórico, a rede de transporte é dividida em regiões de diferentes níveis hierárquicos, cada região sendo controlada por um agente. Logo, quanto mais alto o nível hierárquico do agente região, mais ampla é sua visão do tráfego na rede de transporte. Na base da hierarquia se encontram os agentes dos controladores semafóricos, localizados em cada interseção. Os resultados dos experimentos, realizados em uma rede sintética em grid, mostram que a metodologia proposta de aprendizado por reforço com organização hierárquica tem melhor desempenho quando comparada a um método de tempo fixo e a um método com aprendizado por reforço sem organização hierárquica.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-07-13T04:38:06Z
dc.date.issued.fl_str_mv 2021
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/223664
dc.identifier.nrb.pt_BR.fl_str_mv 001128141
url http://hdl.handle.net/10183/223664
identifier_str_mv 001128141
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/223664/2/001128141.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/223664/1/001128141.pdf
bitstream.checksum.fl_str_mv b7bd0826c6c012a09389648c31b766e3
097f55a469ec498fb0a99b3356ea84a7
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085558135816192