Aprendizado por reforço profundo explicável: um estudo com controle semafórico inteligente
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) |
Texto Completo: | http://www.repositorio.jesuita.org.br/handle/UNISINOS/11078 |
Resumo: | Com o rápido aumento dos níveis de urbanização, tornou-se ainda mais evidente o problema do congestionamento para a sociedade, o meio ambiente e a economia. Uma abordagem prática para aliviar este problema é o controle semafórico adaptativo, do inglês Adaptive Traffic Signal Control (ATSC). A utilização de algoritmos de aprendizado por reforço profundo mostrou grande potencial para esse controle. Entretanto, tais métodos podem ser vistos como caixas pretas, visto que suas políticas aprendidas não são facilmente compreensíveis ou explicáveis. Essa falta de explicabilidade dos algoritmos pode estar limitando seu uso em condições reais. Um framework que pode fornecer explicações para qualquer modelo de aprendizado profundo é o SHAP. Ele considera os modelos como caixas pretas e utiliza técnicas post-hoc para explicálos, fornecendo explicações baseadas na resposta desse modelo com diferentes entradas, sem analisar ou entrar em pontos internos (tais como parâmetros e arquitetura). O então estado da arte, para uso do SHAP com um algoritmo de aprendizado por reforço profundo para controlar semáforos, consegue demonstrar consistência na lógica da tomada de decisão do agente, apresenta também que o agente reage diferentemente conforme o tráfego de cada pista. Todavia, apresenta algumas limitações na explicabilidade encontrada e não consegue demonstrar de forma intuitiva a relação de alguns sensores com as ações escolhidas pelo agente. Além disso, precisa apresentar diversas figuras para entender o impacto dos estados nas possíveis ações. Este trabalho apresenta duas abordagens baseadas no algoritmo Deep Q-Network capaz de explicar a política aprendida através do framework SHAP. Nossa abordagem considera duas técnicas distintas para aproximação de função: XGBoost e Multi-Layer Perceptron. Cada abordagem passou por um processo de estudo e otimização de seus hiperparâmetros. O ambiente foi caracterizado como um MDP e modelado de duas formas diferentes, chamadas MDP Cíclico e MDP Seletor. Cada uma dessas modelagens permitiu escolher diferentes ações e ter representações diferentes do ambiente. Por meio do framework SHAP, ambas abordagens puderam apresentar o impacto das features em cada ação, o que promove a compreensão de como o agente se comporta diante das diferentes condições de tráfego. Este trabalho também apresenta uma descrição sobre a aplicação de IA Explicável no controle semafórico inteligente, demonstrando como interpretar o modelo e as limitações da abordagem. Além disso, como resultado final, as abordagens melhoraram o tempo de viagem, a velocidade e o throughput em dois cenários distintos, superando os baselines FixedTime, SOTL e MaxPressure. |
id |
USIN_8c0f32062b07757880bbbcb15a66e974 |
---|---|
oai_identifier_str |
oai:www.repositorio.jesuita.org.br:UNISINOS/11078 |
network_acronym_str |
USIN |
network_name_str |
Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) |
repository_id_str |
|
spelling |
2022-04-13T21:14:14Z2022-04-13T21:14:14Z2022-02-18Submitted by Anna Barbara Alves Beraldine (annabarbara@unisinos.br) on 2022-04-13T21:14:14Z No. of bitstreams: 1 Lincoln Vinicius Schreiber_.pdf: 27875647 bytes, checksum: deecca7225973a37820875347adbf347 (MD5)Made available in DSpace on 2022-04-13T21:14:14Z (GMT). No. of bitstreams: 1 Lincoln Vinicius Schreiber_.pdf: 27875647 bytes, checksum: deecca7225973a37820875347adbf347 (MD5) Previous issue date: 2022-02-18Com o rápido aumento dos níveis de urbanização, tornou-se ainda mais evidente o problema do congestionamento para a sociedade, o meio ambiente e a economia. Uma abordagem prática para aliviar este problema é o controle semafórico adaptativo, do inglês Adaptive Traffic Signal Control (ATSC). A utilização de algoritmos de aprendizado por reforço profundo mostrou grande potencial para esse controle. Entretanto, tais métodos podem ser vistos como caixas pretas, visto que suas políticas aprendidas não são facilmente compreensíveis ou explicáveis. Essa falta de explicabilidade dos algoritmos pode estar limitando seu uso em condições reais. Um framework que pode fornecer explicações para qualquer modelo de aprendizado profundo é o SHAP. Ele considera os modelos como caixas pretas e utiliza técnicas post-hoc para explicálos, fornecendo explicações baseadas na resposta desse modelo com diferentes entradas, sem analisar ou entrar em pontos internos (tais como parâmetros e arquitetura). O então estado da arte, para uso do SHAP com um algoritmo de aprendizado por reforço profundo para controlar semáforos, consegue demonstrar consistência na lógica da tomada de decisão do agente, apresenta também que o agente reage diferentemente conforme o tráfego de cada pista. Todavia, apresenta algumas limitações na explicabilidade encontrada e não consegue demonstrar de forma intuitiva a relação de alguns sensores com as ações escolhidas pelo agente. Além disso, precisa apresentar diversas figuras para entender o impacto dos estados nas possíveis ações. Este trabalho apresenta duas abordagens baseadas no algoritmo Deep Q-Network capaz de explicar a política aprendida através do framework SHAP. Nossa abordagem considera duas técnicas distintas para aproximação de função: XGBoost e Multi-Layer Perceptron. Cada abordagem passou por um processo de estudo e otimização de seus hiperparâmetros. O ambiente foi caracterizado como um MDP e modelado de duas formas diferentes, chamadas MDP Cíclico e MDP Seletor. Cada uma dessas modelagens permitiu escolher diferentes ações e ter representações diferentes do ambiente. Por meio do framework SHAP, ambas abordagens puderam apresentar o impacto das features em cada ação, o que promove a compreensão de como o agente se comporta diante das diferentes condições de tráfego. Este trabalho também apresenta uma descrição sobre a aplicação de IA Explicável no controle semafórico inteligente, demonstrando como interpretar o modelo e as limitações da abordagem. Além disso, como resultado final, as abordagens melhoraram o tempo de viagem, a velocidade e o throughput em dois cenários distintos, superando os baselines FixedTime, SOTL e MaxPressure.With the fast increase in urbanization levels, the problem of congestion has become even more evident for society, the environment, and the economy. One practical approach to alleviating this problem is adaptive traffic signal control (ATSC). Deep reinforcement learning algorithms have shown great potential for such control. However, these methods can be viewed as black boxes since their learned policies are not easily understood or explainable. The lack of explainability of these algorithms may be limiting their use in real-world conditions. One framework that can provide explanations for any deep learning model is SHAP. It considers models as black boxes and explains them using post-hot techniques, providing explanations based on the response of that model with different inputs, without analyzing or going into internal points (such as parameters and architecture). The state of the art for using SHAP with a deep reinforcement learning algorithm to control traffic lights can demonstrate consistency in the logic of the agent’s decision making, also presenting the reaction according to the traffic in each lane. However, it could not demonstrate the relation of some sensors with the chosen action intuitively and needed to present several figures to understand the impact of the state on the action. This paper presents two approaches based on the Deep Q-Network algorithm to explain the policy learned through the SHAP framework. The first uses the XGBoost algorithm as a function approximation, and the second uses a neural network. Each approach went through a process of studying and optimizing its hyperparameters. The environment was characterized as an MDP, and we modeled it in two different ways, namely Cyclic MDP and Selector MDP. These models allowed us to choose different actions and have different representations of the environment. Both approaches presented the impact of features on each action through the SHAP framework, which promotes understanding of how the agent behaves under different traffic conditions. This work also describes the application of Explainable AI in intelligent traffic signal control, demonstrating how to interpret the model and the limitations of the approach. Furthermore, as a final result, our methods improved travel time, speed, and throughput in two different scenarios, outperforming the FixedTime, SOTL, and MaxPressure baselines.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorSchreiber, Lincoln Viniciushttp://lattes.cnpq.br/2067394701405776http://lattes.cnpq.br/9281736089055094Ramos, Gabriel de OliveiraUniversidade do Vale do Rio dos SinosPrograma de Pós-Graduação em Computação AplicadaUnisinosBrasilEscola PolitécnicaAprendizado por reforço profundo explicável: um estudo com controle semafórico inteligenteACCNPQ::Ciências Exatas e da Terra::Ciência da ComputaçãoAprendizado por reforço profundoIA explicávelControle semafórico adaptativoSistema multiagenteDeep reinforcement learningExplainable AIAdaptive traffic signal controlMulti-agent systeminfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.repositorio.jesuita.org.br/handle/UNISINOS/11078info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos)instname:Universidade do Vale do Rio dos Sinos (UNISINOS)instacron:UNISINOSORIGINALLincoln Vinicius Schreiber_.pdfLincoln Vinicius Schreiber_.pdfapplication/pdf27875647http://repositorio.jesuita.org.br/bitstream/UNISINOS/11078/1/Lincoln+Vinicius+Schreiber_.pdfdeecca7225973a37820875347adbf347MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82175http://repositorio.jesuita.org.br/bitstream/UNISINOS/11078/2/license.txt320e21f23402402ac4988605e1edd177MD52UNISINOS/110782022-04-13 18:17:59.678oai:www.repositorio.jesuita.org.br:UNISINOS/11078Ck5PVEE6IENPTE9RVUUgQVFVSSBBIFNVQSBQUsOTUFJJQSBMSUNFTsOHQQoKRXN0YSBsaWNlbsOnYSBkZSBleGVtcGxvIMOpIGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxpY2Vuw6dhIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSwgdm9jw6ogKG8gYXV0b3IgKGVzKSBvdSBvIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yKSBjb25jZWRlIMOgIApVbml2ZXJzaWRhZGUgZG8gVmFsZSBkbyBSaW8gZG9zIFNpbm9zIChVTklTSU5PUykgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLDtG5pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdSAKZGlzc2VydGHDp8OjbyBwYXJhIGZpbnMgZGUgc2VndXJhbsOnYSwgYmFjay11cCBlIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IApjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogCmRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciDDoCBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBkZSBwcm9wcmllZGFkZSBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSAKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgCkFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTsODTyBTRUpBIEEgU0lHTEEgREUgClVOSVZFUlNJREFERSwgVk9Dw4ogREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklTw4NPIENPTU8gClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyAKY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttp://www.repositorio.jesuita.org.br/oai/requestopendoar:2022-04-13T21:17:59Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS)false |
dc.title.pt_BR.fl_str_mv |
Aprendizado por reforço profundo explicável: um estudo com controle semafórico inteligente |
title |
Aprendizado por reforço profundo explicável: um estudo com controle semafórico inteligente |
spellingShingle |
Aprendizado por reforço profundo explicável: um estudo com controle semafórico inteligente Schreiber, Lincoln Vinicius ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação Aprendizado por reforço profundo IA explicável Controle semafórico adaptativo Sistema multiagente Deep reinforcement learning Explainable AI Adaptive traffic signal control Multi-agent system |
title_short |
Aprendizado por reforço profundo explicável: um estudo com controle semafórico inteligente |
title_full |
Aprendizado por reforço profundo explicável: um estudo com controle semafórico inteligente |
title_fullStr |
Aprendizado por reforço profundo explicável: um estudo com controle semafórico inteligente |
title_full_unstemmed |
Aprendizado por reforço profundo explicável: um estudo com controle semafórico inteligente |
title_sort |
Aprendizado por reforço profundo explicável: um estudo com controle semafórico inteligente |
author |
Schreiber, Lincoln Vinicius |
author_facet |
Schreiber, Lincoln Vinicius |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/2067394701405776 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/9281736089055094 |
dc.contributor.author.fl_str_mv |
Schreiber, Lincoln Vinicius |
dc.contributor.advisor1.fl_str_mv |
Ramos, Gabriel de Oliveira |
contributor_str_mv |
Ramos, Gabriel de Oliveira |
dc.subject.cnpq.fl_str_mv |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação |
topic |
ACCNPQ::Ciências Exatas e da Terra::Ciência da Computação Aprendizado por reforço profundo IA explicável Controle semafórico adaptativo Sistema multiagente Deep reinforcement learning Explainable AI Adaptive traffic signal control Multi-agent system |
dc.subject.por.fl_str_mv |
Aprendizado por reforço profundo IA explicável Controle semafórico adaptativo Sistema multiagente |
dc.subject.eng.fl_str_mv |
Deep reinforcement learning Explainable AI Adaptive traffic signal control Multi-agent system |
description |
Com o rápido aumento dos níveis de urbanização, tornou-se ainda mais evidente o problema do congestionamento para a sociedade, o meio ambiente e a economia. Uma abordagem prática para aliviar este problema é o controle semafórico adaptativo, do inglês Adaptive Traffic Signal Control (ATSC). A utilização de algoritmos de aprendizado por reforço profundo mostrou grande potencial para esse controle. Entretanto, tais métodos podem ser vistos como caixas pretas, visto que suas políticas aprendidas não são facilmente compreensíveis ou explicáveis. Essa falta de explicabilidade dos algoritmos pode estar limitando seu uso em condições reais. Um framework que pode fornecer explicações para qualquer modelo de aprendizado profundo é o SHAP. Ele considera os modelos como caixas pretas e utiliza técnicas post-hoc para explicálos, fornecendo explicações baseadas na resposta desse modelo com diferentes entradas, sem analisar ou entrar em pontos internos (tais como parâmetros e arquitetura). O então estado da arte, para uso do SHAP com um algoritmo de aprendizado por reforço profundo para controlar semáforos, consegue demonstrar consistência na lógica da tomada de decisão do agente, apresenta também que o agente reage diferentemente conforme o tráfego de cada pista. Todavia, apresenta algumas limitações na explicabilidade encontrada e não consegue demonstrar de forma intuitiva a relação de alguns sensores com as ações escolhidas pelo agente. Além disso, precisa apresentar diversas figuras para entender o impacto dos estados nas possíveis ações. Este trabalho apresenta duas abordagens baseadas no algoritmo Deep Q-Network capaz de explicar a política aprendida através do framework SHAP. Nossa abordagem considera duas técnicas distintas para aproximação de função: XGBoost e Multi-Layer Perceptron. Cada abordagem passou por um processo de estudo e otimização de seus hiperparâmetros. O ambiente foi caracterizado como um MDP e modelado de duas formas diferentes, chamadas MDP Cíclico e MDP Seletor. Cada uma dessas modelagens permitiu escolher diferentes ações e ter representações diferentes do ambiente. Por meio do framework SHAP, ambas abordagens puderam apresentar o impacto das features em cada ação, o que promove a compreensão de como o agente se comporta diante das diferentes condições de tráfego. Este trabalho também apresenta uma descrição sobre a aplicação de IA Explicável no controle semafórico inteligente, demonstrando como interpretar o modelo e as limitações da abordagem. Além disso, como resultado final, as abordagens melhoraram o tempo de viagem, a velocidade e o throughput em dois cenários distintos, superando os baselines FixedTime, SOTL e MaxPressure. |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-04-13T21:14:14Z |
dc.date.available.fl_str_mv |
2022-04-13T21:14:14Z |
dc.date.issued.fl_str_mv |
2022-02-18 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.repositorio.jesuita.org.br/handle/UNISINOS/11078 |
url |
http://www.repositorio.jesuita.org.br/handle/UNISINOS/11078 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade do Vale do Rio dos Sinos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Computação Aplicada |
dc.publisher.initials.fl_str_mv |
Unisinos |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Escola Politécnica |
publisher.none.fl_str_mv |
Universidade do Vale do Rio dos Sinos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) instname:Universidade do Vale do Rio dos Sinos (UNISINOS) instacron:UNISINOS |
instname_str |
Universidade do Vale do Rio dos Sinos (UNISINOS) |
instacron_str |
UNISINOS |
institution |
UNISINOS |
reponame_str |
Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) |
collection |
Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) |
bitstream.url.fl_str_mv |
http://repositorio.jesuita.org.br/bitstream/UNISINOS/11078/1/Lincoln+Vinicius+Schreiber_.pdf http://repositorio.jesuita.org.br/bitstream/UNISINOS/11078/2/license.txt |
bitstream.checksum.fl_str_mv |
deecca7225973a37820875347adbf347 320e21f23402402ac4988605e1edd177 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UNISINOS (RBDU Repositório Digital da Biblioteca da Unisinos) - Universidade do Vale do Rio dos Sinos (UNISINOS) |
repository.mail.fl_str_mv |
|
_version_ |
1801845070214725632 |