Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment

Santos, Cleverson Maxwell

Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment

Detalhes bibliográficos
Autor(a) principal:	Santos, Cleverson Maxwell
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Institucional da UFSC
Texto Completo:	https://repositorio.ufsc.br/handle/123456789/247737
Resumo:	Dissertação (mestrado) - Universidade Federal de Santa Catarina, Campus Joinville, Programa de Pós-Graduação em Engenharia e Ciências Mecânicas, Joinville, 2023.

Metadados do item

id	UFSC_fe5d9cb5630c159d00a46c9b944ae811
oai_identifier_str	oai:repositorio.ufsc.br:123456789/247737
network_acronym_str	UFSC
network_name_str	Repositório Institucional da UFSC
repository_id_str	2373
spelling	Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environmentEngenharia mecânicaVeículos autônomosAprendizado do computadorDireção de veículos a motorFreiosDissertação (mestrado) - Universidade Federal de Santa Catarina, Campus Joinville, Programa de Pós-Graduação em Engenharia e Ciências Mecânicas, Joinville, 2023.Um progresso considerável foi alcançado no desenvolvimento de sistemas avançados de assistência ao motorista (ADAS) nos últimos anos. Esses dispositivos aumentam a segurança do veículo e dos demais usuários do trânsito, oferecendo avisos ao motorista ou mesmo assumindo o controle total do carro, a fim de evitar possíveis acidentes. A frenagem autônoma de emergência (AEB) realiza a frenagem de acordo com as possíveis situações de risco, capturadas do ambiente por sensores. Este trabalho propõe um algoritmo de AEB básico, desenvolvido com técnicas de aprendizado por reforço profundo, onde a máquina aprende qual decisão tomar com base em recompensas ou punições, recebidas após cada ação tomada e seus estados futuros. Neste caso particular, as funções de recompensa foram desenvolvidas com fatores baseados no tempo de colisão e na velocidade desejada, que combinados buscam acumular recompensas, evitando colisões e mantendo a velocidade da estrada. O agente final é uma rede treinada com duas camadas ocultas de 38 nós cada, capazes de agir de maneira semelhante a um controlador AEB. São usadas como entrada, a velocidade atual, a distância dos objetos, e as posições do pedal do acelerador e do freio a fim de calcular as posições ideais para esses pedais e evitar colisões à frente. Para treinar o algoritmo em situações de tráfego e realizar o aprendizado por reforço, algumas abordagens são feitas no simulador de direção IPG CarMaker?. Atualmente, esses métodos simulados são amplamente aplicados no desenvolvimento inicial de dispositivos ADAS antes da migração para ambientes reais de teste. Após treinado, o algoritmo realiza dentro do ambiente simulado o protocolo de testes para AEB da EuroNCAP e seus resultados são comparados com outra solução AEB já validada. Durante os cenários CCRs e CCRm, o código apresentou melhores distâncias relativas finais do que seu concorrente na faixa entre 10 e 50 km/h. Apesar de passar e também não colidir nas velocidades mais altas, o sistema parou completamente em distâncias mais curtas, o que gerou discussões e possíveis caminhos de melhoria para suas próximas versões. Durante o cenário CCRb, entretanto, o sistema provou ser capaz de aplicar desacelerações maiores do que as encontradas no ambiente para garantir que não ocorresse colisão. A função de recompensa demonstrou eficácia uma vez que procuramos o agente e os resultados que ele realizou em cada cenário. Para testar a abordagem em novos cenários, não utilizados durante o treinamento, para avaliar a resposta dinâmica, o sistema teve um desempenho significativamente bom. Em uma análise qualitativa simples, ao não colidir o sistema seria definitivamente aprovado se ele realizasse em testes reais os mesmos resultados obtidos nas simulações. Entretanto, em uma análise quantitativa mais profunda, pode-se ver que ainda há oportunidades para melhorar a função de recompensa e o método de treinamento para velocidades interurbanas.Abstract: Considerable progress has been reached in the development of advanced driver assistance systems (ADAS) in recent years. These devices enhance the vehicle and traffic participants' safety, while offering warnings to the driver or even taking full control of the car in order to avoid possible crashes. The autonomous emergency braking (AEB) performs braking according to potential risk situations, exposed by data captured from the environment by sensors. This study proposes a basic AEB algorithm, developed with deep reinforcement learning techniques, where the machine learns which decision to make based on rewards or punishments, received after each action taken and its future states. In this particular case, the reward functions were developed with factors based on the collision time and the desired velocity, which combined seek to accumulate rewards by avoiding collisions and maintaining the road velocity. The final agent is a network trained with two hidden layers of 38 nodes each, capable of acting similarly to an AEB controller. The current velocity, the distance to objects, and the positions of the gas and brake pedals are used as input in order to calculate the optimal positions for these pedals and avoid collisions ahead. To train the algorithm in traffic situations and perform the reinforcement learning, some approaches are taken in the IPG CarMaker? driving simulator. Currently, these simulated methods are extensively applied in the initial development of ADAS devices before moving to real test environments. Once trained, the algorithm performs within the simulated environment the EuroNCAP test protocol for AEB and its results are compared to another AEB solution already validated. During the scenarios CCRs and CCRm, the code presented better final relative distances than its competitor in the range between 10 and 50 km/h. Despite passing and also not crashing at the higher speeds, the system completely stopped at shorter distances which generated discussions and potential improvement paths for its next versions. During the CCRb scenario, however, the system has proven capable of applying decelerations greater than those found in the environment to ensure no collision. The reward function demonstrated effectiveness once we looked for the agent and to the results it performed in each scenario. To test the approach in new scenarios, not used during training, to evaluate the dynamic response, the system performed significantly well. In a simple qualitative analysis, by not crashing the system would definitely be approved if it performed in real tests the same results obtained in the simulations. However, in a deeper quantitative analysis, it can be seen that there are still opportunities to improve the reward function and the training method for interurban velocities.Fiorentin, Thiago AntonioUniversidade Federal de Santa CatarinaSantos, Cleverson Maxwell2023-06-28T18:27:46Z2023-06-28T18:27:46Z2023info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis87 p.\| il., gráfs.application/pdf381900https://repositorio.ufsc.br/handle/123456789/247737engreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2023-06-28T18:27:46Zoai:repositorio.ufsc.br:123456789/247737Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732023-06-28T18:27:46Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv	Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
title	Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
spellingShingle	Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment Santos, Cleverson Maxwell Engenharia mecânica Veículos autônomos Aprendizado do computador Direção de veículos a motor Freios
title_short	Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
title_full	Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
title_fullStr	Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
title_full_unstemmed	Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
title_sort	Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment
author	Santos, Cleverson Maxwell
author_facet	Santos, Cleverson Maxwell
author_role	author
dc.contributor.none.fl_str_mv	Fiorentin, Thiago Antonio Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv	Santos, Cleverson Maxwell
dc.subject.por.fl_str_mv	Engenharia mecânica Veículos autônomos Aprendizado do computador Direção de veículos a motor Freios
topic	Engenharia mecânica Veículos autônomos Aprendizado do computador Direção de veículos a motor Freios
description	Dissertação (mestrado) - Universidade Federal de Santa Catarina, Campus Joinville, Programa de Pós-Graduação em Engenharia e Ciências Mecânicas, Joinville, 2023.
publishDate	2023
dc.date.none.fl_str_mv	2023-06-28T18:27:46Z 2023-06-28T18:27:46Z 2023
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	381900 https://repositorio.ufsc.br/handle/123456789/247737
identifier_str_mv	381900
url	https://repositorio.ufsc.br/handle/123456789/247737
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	87 p.\| il., gráfs. application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC
instname_str	Universidade Federal de Santa Catarina (UFSC)
instacron_str	UFSC
institution	UFSC
reponame_str	Repositório Institucional da UFSC
collection	Repositório Institucional da UFSC
repository.name.fl_str_mv	Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_	1808652280872828928

Deep reinforcement learning algorithm for basic autonomous emergency braking system developed in a simulated environment

Registros relacionados