Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework

BORGES, Dimitrius Guilherme Ferreira

Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework

Detalhes bibliográficos
Autor(a) principal:	BORGES, Dimitrius Guilherme Ferreira
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UNIFEI (RIUNIFEI)
Texto Completo:	https://repositorio.unifei.edu.br/jspui/handle/123456789/2275
Resumo:	O número de veículos nas ruas de todo o mundo tem crescido rapidamente ao longo da última década, impactando diretamente em como o tráfego urbano é gerenciado. O controle de cruzamentos sinalizados é um problema largamente conhecido e estudado e que, embora cada vez mais tecnologias sejam exploradas e aplicadas, ainda se encontram desafios e oportunidades ao tratar o problema, principalmente quando confronta-se a ineficiência dos já bem difundidos semáforos de tempos fixos, incapazes de lidar com eventos dinâmicos. O objetivo deste trabalho é aplicar Hierarchical Reiforcement Learning (HRL) ao controle de um cruzamento veicular semaforizado e, a partir dos resultados obtidos, compará-lo a um semáforo de tempos fixos dimensionado pelo Método de Webster. HRL é uma variação de Reinforcement Learning (RL), em que objetivos secundários, representados por sub-políticas, são propostos e organizados em um modelo hierárquico e gerenciados por uma política macro, responsável por selecioná-las quando se espera rendimento máximo das mesmas, sendo que tanto as sub-políticas quanto a principal são regidas pelo framework Q-learning. Herarchical Reinforcement Learning foi escolhido por aliar a capacidade de aprendizado e tomada de decisão feitos de acordo com observações do ambiente em tempo real, característicos do Reinforcement Learning, com um modelo similar ao Dividir para Conquistar, que desmembra o problema principal em sub-problemas. Isso traz ao modelo uma maior dinâmica e poder de adaptabilidade a um problema que exibe, por vezes, variações imprevisíveis, impossíveis de serem levadas em conta em abordagens determinísticas, como o Método de Webster. Os cenários de testes, formados por diversos tipos de fluxo de veículos, aplicados a um cruzamento de duas vias simples, foram construídos através da ferramenta de simulação SUMO. Os modelos HRL, suas sub-políticas isoladas e o Método de Webster são aplicados e avaliados a partir destes cenários onde, de acordo com os resultados obtidos, HRL se mostra superior tanto ao Método de Webster quanto às suas sub-políticas isoladas, mostrando-se uma alternativa simples e eficaz.

Metadados do item

id	UFEI_2c106a8cdf409f7f7f77a32b3e802959
oai_identifier_str	oai:repositorio.unifei.edu.br:123456789/2275
network_acronym_str	UFEI
network_name_str	Repositório Institucional da UNIFEI (RIUNIFEI)
repository_id_str	7044
spelling	2020-12-182021-02-092021-02-09T15:14:32Z2021-02-09T15:14:32Zhttps://repositorio.unifei.edu.br/jspui/handle/123456789/2275O número de veículos nas ruas de todo o mundo tem crescido rapidamente ao longo da última década, impactando diretamente em como o tráfego urbano é gerenciado. O controle de cruzamentos sinalizados é um problema largamente conhecido e estudado e que, embora cada vez mais tecnologias sejam exploradas e aplicadas, ainda se encontram desafios e oportunidades ao tratar o problema, principalmente quando confronta-se a ineficiência dos já bem difundidos semáforos de tempos fixos, incapazes de lidar com eventos dinâmicos. O objetivo deste trabalho é aplicar Hierarchical Reiforcement Learning (HRL) ao controle de um cruzamento veicular semaforizado e, a partir dos resultados obtidos, compará-lo a um semáforo de tempos fixos dimensionado pelo Método de Webster. HRL é uma variação de Reinforcement Learning (RL), em que objetivos secundários, representados por sub-políticas, são propostos e organizados em um modelo hierárquico e gerenciados por uma política macro, responsável por selecioná-las quando se espera rendimento máximo das mesmas, sendo que tanto as sub-políticas quanto a principal são regidas pelo framework Q-learning. Herarchical Reinforcement Learning foi escolhido por aliar a capacidade de aprendizado e tomada de decisão feitos de acordo com observações do ambiente em tempo real, característicos do Reinforcement Learning, com um modelo similar ao Dividir para Conquistar, que desmembra o problema principal em sub-problemas. Isso traz ao modelo uma maior dinâmica e poder de adaptabilidade a um problema que exibe, por vezes, variações imprevisíveis, impossíveis de serem levadas em conta em abordagens determinísticas, como o Método de Webster. Os cenários de testes, formados por diversos tipos de fluxo de veículos, aplicados a um cruzamento de duas vias simples, foram construídos através da ferramenta de simulação SUMO. Os modelos HRL, suas sub-políticas isoladas e o Método de Webster são aplicados e avaliados a partir destes cenários onde, de acordo com os resultados obtidos, HRL se mostra superior tanto ao Método de Webster quanto às suas sub-políticas isoladas, mostrando-se uma alternativa simples e eficaz.The number of vehicles on the streets across the world has quickly grown in the last decade, directly impacting how urban traffic is managed. The signalized junctions control is a vastly known and studied problem. Although an increasing number of technologies is explored and used to solve it, there still are challenges and opportunities to deal with it, especially when considering the inefficiency of the widely known fixed time traffic controllers, which are incapable of dealing with dynamic events. This study aims to apply Hierarchical Reinforcement Learning (HRL) on the control of a signalized vehicular junction and compare its performance with a fixed time traffic controller, configured using the Webster Method. HRL is a Reinforcement Learning (RL) variation, where secondary objectives, represented by sub-policies, are organized and proposed in a hierarchical model, managed by a macro-policy, responsible for selecting said sub-policies when those are capable of reaching its best results, where The Q-Learning Framework rules both sub and macro policies. Hierarchical Reinforcement Learning was chosen because it combines the ability to learn and make decisions while taking observations from the environment, in real-time, a typical ability from Reinforcement Learning, with a Divide to Conquer approach, where the problem is divided into sub-problems. These capabilities bring to a highly dynamic problem a more significant power of adaptability, which is impossible to be taken into account when using deterministic models like the Webster Method. The test scenarios, composed of several vehicle fluxes applied to a cross of two lanes, were built using the SUMO simulation tool. HRL, its sub-policies and the Webster Method are applied and assessed through these scenarios. According to the obtained results, HRL shows better results than the Webster Method and its isolated sub-policies, indicating a simple and efficient alternative.Agência 1porUniversidade Federal de ItajubáPrograma de Pós-Graduação: Mestrado - Ciência e Tecnologia da ComputaçãoUNIFEIBrasilIESTI - Instituto de Engenharia de Sistemas e Tecnologia da InformaçãoCNPQ::CIÊNCIAS EXATAS E DA TERRA::CIÊNCIA DA COMPUTAÇÃO::MATEMÁTICA DA COMPUTAÇÃOTráfego veicularMétodo websterQ-LearningHierarchical reinforcement learningSUMOGerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options frameworkinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisMOREIRA, Edmilson Marmohttp://lattes.cnpq.br/3910450557582884RODRIGUES, João Paulo Reushttp://lattes.cnpq.br/2049342280490984http://lattes.cnpq.br/2322507982634726BORGES, Dimitrius Guilherme FerreiraBORGES, Dimitrius Guilherme Ferreira. Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework. 2020. 94 f. Dissertação (Mestrado em Ciência e Tecnologia da Computação.) – Universidade Federal de Itajubá, Itajubá, 2020.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFEI (RIUNIFEI)instname:Universidade Federal de Itajubá (UNIFEI)instacron:UNIFEILICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.unifei.edu.br/jspui/bitstream/123456789/2275/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALDissertação_2021010.pdfDissertação_2021010.pdfapplication/pdf2283427https://repositorio.unifei.edu.br/jspui/bitstream/123456789/2275/1/Disserta%c3%a7%c3%a3o_2021010.pdfa499d9eea7a118458ed23866cad5c162MD51123456789/22752021-02-09 12:14:35.082oai:repositorio.unifei.edu.br:123456789/2275Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.unifei.edu.br/oai/requestrepositorio@unifei.edu.br \|\| geraldocarlos@unifei.edu.bropendoar:70442021-02-09T15:14:35Repositório Institucional da UNIFEI (RIUNIFEI) - Universidade Federal de Itajubá (UNIFEI)false
dc.title.pt_BR.fl_str_mv	Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework
title	Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework
spellingShingle	Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework BORGES, Dimitrius Guilherme Ferreira CNPQ::CIÊNCIAS EXATAS E DA TERRA::CIÊNCIA DA COMPUTAÇÃO::MATEMÁTICA DA COMPUTAÇÃO Tráfego veicular Método webster Q-Learning Hierarchical reinforcement learning SUMO
title_short	Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework
title_full	Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework
title_fullStr	Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework
title_full_unstemmed	Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework
title_sort	Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework
author	BORGES, Dimitrius Guilherme Ferreira
author_facet	BORGES, Dimitrius Guilherme Ferreira
author_role	author
dc.contributor.advisor1.fl_str_mv	MOREIRA, Edmilson Marmo
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/3910450557582884
dc.contributor.advisor-co1.fl_str_mv	RODRIGUES, João Paulo Reus
dc.contributor.advisor-co1Lattes.fl_str_mv	http://lattes.cnpq.br/2049342280490984
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/2322507982634726
dc.contributor.author.fl_str_mv	BORGES, Dimitrius Guilherme Ferreira
contributor_str_mv	MOREIRA, Edmilson Marmo RODRIGUES, João Paulo Reus
dc.subject.cnpq.fl_str_mv	CNPQ::CIÊNCIAS EXATAS E DA TERRA::CIÊNCIA DA COMPUTAÇÃO::MATEMÁTICA DA COMPUTAÇÃO
topic	CNPQ::CIÊNCIAS EXATAS E DA TERRA::CIÊNCIA DA COMPUTAÇÃO::MATEMÁTICA DA COMPUTAÇÃO Tráfego veicular Método webster Q-Learning Hierarchical reinforcement learning SUMO
dc.subject.por.fl_str_mv	Tráfego veicular Método webster Q-Learning Hierarchical reinforcement learning SUMO
description	O número de veículos nas ruas de todo o mundo tem crescido rapidamente ao longo da última década, impactando diretamente em como o tráfego urbano é gerenciado. O controle de cruzamentos sinalizados é um problema largamente conhecido e estudado e que, embora cada vez mais tecnologias sejam exploradas e aplicadas, ainda se encontram desafios e oportunidades ao tratar o problema, principalmente quando confronta-se a ineficiência dos já bem difundidos semáforos de tempos fixos, incapazes de lidar com eventos dinâmicos. O objetivo deste trabalho é aplicar Hierarchical Reiforcement Learning (HRL) ao controle de um cruzamento veicular semaforizado e, a partir dos resultados obtidos, compará-lo a um semáforo de tempos fixos dimensionado pelo Método de Webster. HRL é uma variação de Reinforcement Learning (RL), em que objetivos secundários, representados por sub-políticas, são propostos e organizados em um modelo hierárquico e gerenciados por uma política macro, responsável por selecioná-las quando se espera rendimento máximo das mesmas, sendo que tanto as sub-políticas quanto a principal são regidas pelo framework Q-learning. Herarchical Reinforcement Learning foi escolhido por aliar a capacidade de aprendizado e tomada de decisão feitos de acordo com observações do ambiente em tempo real, característicos do Reinforcement Learning, com um modelo similar ao Dividir para Conquistar, que desmembra o problema principal em sub-problemas. Isso traz ao modelo uma maior dinâmica e poder de adaptabilidade a um problema que exibe, por vezes, variações imprevisíveis, impossíveis de serem levadas em conta em abordagens determinísticas, como o Método de Webster. Os cenários de testes, formados por diversos tipos de fluxo de veículos, aplicados a um cruzamento de duas vias simples, foram construídos através da ferramenta de simulação SUMO. Os modelos HRL, suas sub-políticas isoladas e o Método de Webster são aplicados e avaliados a partir destes cenários onde, de acordo com os resultados obtidos, HRL se mostra superior tanto ao Método de Webster quanto às suas sub-políticas isoladas, mostrando-se uma alternativa simples e eficaz.
publishDate	2020
dc.date.issued.fl_str_mv	2020-12-18
dc.date.available.fl_str_mv	2021-02-09 2021-02-09T15:14:32Z
dc.date.accessioned.fl_str_mv	2021-02-09T15:14:32Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.unifei.edu.br/jspui/handle/123456789/2275
url	https://repositorio.unifei.edu.br/jspui/handle/123456789/2275
dc.language.iso.fl_str_mv	por
language	por
dc.relation.references.pt_BR.fl_str_mv	BORGES, Dimitrius Guilherme Ferreira. Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework. 2020. 94 f. Dissertação (Mestrado em Ciência e Tecnologia da Computação.) – Universidade Federal de Itajubá, Itajubá, 2020.
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Itajubá
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação: Mestrado - Ciência e Tecnologia da Computação
dc.publisher.initials.fl_str_mv	UNIFEI
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	IESTI - Instituto de Engenharia de Sistemas e Tecnologia da Informação
publisher.none.fl_str_mv	Universidade Federal de Itajubá
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNIFEI (RIUNIFEI) instname:Universidade Federal de Itajubá (UNIFEI) instacron:UNIFEI
instname_str	Universidade Federal de Itajubá (UNIFEI)
instacron_str	UNIFEI
institution	UNIFEI
reponame_str	Repositório Institucional da UNIFEI (RIUNIFEI)
collection	Repositório Institucional da UNIFEI (RIUNIFEI)
bitstream.url.fl_str_mv	https://repositorio.unifei.edu.br/jspui/bitstream/123456789/2275/2/license.txt https://repositorio.unifei.edu.br/jspui/bitstream/123456789/2275/1/Disserta%c3%a7%c3%a3o_2021010.pdf
bitstream.checksum.fl_str_mv	8a4605be74aa9ea9d79846c1fba20a33 a499d9eea7a118458ed23866cad5c162
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UNIFEI (RIUNIFEI) - Universidade Federal de Itajubá (UNIFEI)
repository.mail.fl_str_mv	repositorio@unifei.edu.br \|\| geraldocarlos@unifei.edu.br
_version_	1801863214125809664

Gerenciamento de um cruzamento semaforizado utilizando reinforcement learning e options framework

Registros relacionados