Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment

Detalhes bibliográficos
Autor(a) principal: Santos, Cleverson Maxwell
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/247737
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Campus Joinville, Programa de Pós-Graduação em Engenharia e Ciências Mecânicas, Joinville, 2023.
id UFSC_fe5d9cb5630c159d00a46c9b944ae811
oai_identifier_str oai:repositorio.ufsc.br:123456789/247737
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environmentEngenharia mecânicaVeículos autônomosAprendizado do computadorDireção de veículos a motorFreiosDissertação (mestrado) - Universidade Federal de Santa Catarina, Campus Joinville, Programa de Pós-Graduação em Engenharia e Ciências Mecânicas, Joinville, 2023.Um progresso considerável foi alcançado no desenvolvimento de sistemas avançados de assistência ao motorista (ADAS) nos últimos anos. Esses dispositivos aumentam a segurança do veículo e dos demais usuários do trânsito, oferecendo avisos ao motorista ou mesmo assumindo o controle total do carro, a fim de evitar possíveis acidentes. A frenagem autônoma de emergência (AEB) realiza a frenagem de acordo com as possíveis situações de risco, capturadas do ambiente por sensores. Este trabalho propõe um algoritmo de AEB básico, desenvolvido com técnicas de aprendizado por reforço profundo, onde a máquina aprende qual decisão tomar com base em recompensas ou punições, recebidas após cada ação tomada e seus estados futuros. Neste caso particular, as funções de recompensa foram desenvolvidas com fatores baseados no tempo de colisão e na velocidade desejada, que combinados buscam acumular recompensas, evitando colisões e mantendo a velocidade da estrada. O agente final é uma rede treinada com duas camadas ocultas de 38 nós cada, capazes de agir de maneira semelhante a um controlador AEB. São usadas como entrada, a velocidade atual, a distância dos objetos, e as posições do pedal do acelerador e do freio a fim de calcular as posições ideais para esses pedais e evitar colisões à frente. Para treinar o algoritmo em situações de tráfego e realizar o aprendizado por reforço, algumas abordagens são feitas no simulador de direção IPG CarMaker?. Atualmente, esses métodos simulados são amplamente aplicados no desenvolvimento inicial de dispositivos ADAS antes da migração para ambientes reais de teste. Após treinado, o algoritmo realiza dentro do ambiente simulado o protocolo de testes para AEB da EuroNCAP e seus resultados são comparados com outra solução AEB já validada. Durante os cenários CCRs e CCRm, o código apresentou melhores distâncias relativas finais do que seu concorrente na faixa entre 10 e 50 km/h. Apesar de passar e também não colidir nas velocidades mais altas, o sistema parou completamente em distâncias mais curtas, o que gerou discussões e possíveis caminhos de melhoria para suas próximas versões. Durante o cenário CCRb, entretanto, o sistema provou ser capaz de aplicar desacelerações maiores do que as encontradas no ambiente para garantir que não ocorresse colisão. A função de recompensa demonstrou eficácia uma vez que procuramos o agente e os resultados que ele realizou em cada cenário. Para testar a abordagem em novos cenários, não utilizados durante o treinamento, para avaliar a resposta dinâmica, o sistema teve um desempenho significativamente bom. Em uma análise qualitativa simples, ao não colidir o sistema seria definitivamente aprovado se ele realizasse em testes reais os mesmos resultados obtidos nas simulações. Entretanto, em uma análise quantitativa mais profunda, pode-se ver que ainda há oportunidades para melhorar a função de recompensa e o método de treinamento para velocidades interurbanas.Abstract: Considerable progress has been reached in the development of advanced driver assistance systems (ADAS) in recent years. These devices enhance the vehicle and traffic participants' safety, while offering warnings to the driver or even taking full control of the car in order to avoid possible crashes. The autonomous emergency braking (AEB) performs braking according to potential risk situations, exposed by data captured from the environment by sensors. This study proposes a basic AEB algorithm, developed with deep reinforcement learning techniques, where the machine learns which decision to make based on rewards or punishments, received after each action taken and its future states. In this particular case, the reward functions were developed with factors based on the collision time and the desired velocity, which combined seek to accumulate rewards by avoiding collisions and maintaining the road velocity. The final agent is a network trained with two hidden layers of 38 nodes each, capable of acting similarly to an AEB controller. The current velocity, the distance to objects, and the positions of the gas and brake pedals are used as input in order to calculate the optimal positions for these pedals and avoid collisions ahead. To train the algorithm in traffic situations and perform the reinforcement learning, some approaches are taken in the IPG CarMaker? driving simulator. Currently, these simulated methods are extensively applied in the initial development of ADAS devices before moving to real test environments. Once trained, the algorithm performs within the simulated environment the EuroNCAP test protocol for AEB and its results are compared to another AEB solution already validated. During the scenarios CCRs and CCRm, the code presented better final relative distances than its competitor in the range between 10 and 50 km/h. Despite passing and also not crashing at the higher speeds, the system completely stopped at shorter distances which generated discussions and potential improvement paths for its next versions. During the CCRb scenario, however, the system has proven capable of applying decelerations greater than those found in the environment to ensure no collision. The reward function demonstrated effectiveness once we looked for the agent and to the results it performed in each scenario. To test the approach in new scenarios, not used during training, to evaluate the dynamic response, the system performed significantly well. In a simple qualitative analysis, by not crashing the system would definitely be approved if it performed in real tests the same results obtained in the simulations. However, in a deeper quantitative analysis, it can be seen that there are still opportunities to improve the reward function and the training method for interurban velocities.Fiorentin, Thiago AntonioUniversidade Federal de Santa CatarinaSantos, Cleverson Maxwell2023-06-28T18:27:46Z2023-06-28T18:27:46Z2023info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis87 p.| il., gráfs.application/pdf381900https://repositorio.ufsc.br/handle/123456789/247737engreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2023-06-28T18:27:46Zoai:repositorio.ufsc.br:123456789/247737Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732023-06-28T18:27:46Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
title Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
spellingShingle Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
Santos, Cleverson Maxwell
Engenharia mecânica
Veículos autônomos
Aprendizado do computador
Direção de veículos a motor
Freios
title_short Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
title_full Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
title_fullStr Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
title_full_unstemmed Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
title_sort Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
author Santos, Cleverson Maxwell
author_facet Santos, Cleverson Maxwell
author_role author
dc.contributor.none.fl_str_mv Fiorentin, Thiago Antonio
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Santos, Cleverson Maxwell
dc.subject.por.fl_str_mv Engenharia mecânica
Veículos autônomos
Aprendizado do computador
Direção de veículos a motor
Freios
topic Engenharia mecânica
Veículos autônomos
Aprendizado do computador
Direção de veículos a motor
Freios
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Campus Joinville, Programa de Pós-Graduação em Engenharia e Ciências Mecânicas, Joinville, 2023.
publishDate 2023
dc.date.none.fl_str_mv 2023-06-28T18:27:46Z
2023-06-28T18:27:46Z
2023
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv 381900
https://repositorio.ufsc.br/handle/123456789/247737
identifier_str_mv 381900
url https://repositorio.ufsc.br/handle/123456789/247737
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 87 p.| il., gráfs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652280872828928