Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos

Detalhes bibliográficos
Autor(a) principal: Méxas, Rodrigo Picinini
Data de Publicação: 2021
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: https://app.uff.br/riuff/handle/1/23361
Resumo: Este projeto visa ao estudo de desempenho de dois algoritmos de aprendizado de máquina por reforço, denominados Proximal Policy Optimization e Soft Actor Critic, na simulação de veleiros autônomos e sua resposta às diferentes direções do vento enquanto desviam de obstáculos detectados por análise de imagens. Também, estuda-se o efeito dos algoritmos de aprendizado por imitação Behavioral Cloning e Generative Adversarial Imitation Learning junto aos primeiros algoritmos citados. Utilizam-se para o desenvolvimento a plataforma Unity® e o toolkit de aprendizado de máquina ML-Agents. A metodologia que guia o projeto pode ser aplicada de forma similar para outros problemas de aprendizado por reforço. Por meio do treinamento do agente é possível comparar os resultados e observar que o Proximal Policy Optimization obtém melhor desempenho dentro dos cenários propostos, tanto com e sem o apoio dos algoritmos de aprendizado de imitação
id UFF-2_80d58f6e4fe7e05d42375f9eb4f3fbbe
oai_identifier_str oai:app.uff.br:1/23361
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomosAprendizado de máquinaAprendizado por reforçoUnityML-AgentsPPOSACBCGAILAprendizado por imitaçãoVeleiro autônomoVeículo de superfície não-tripuladoAprendizado de máquinaInteligência artificialBarco à velaMachine learningReinforcement learningAutonomous sailboatUnmanned surface vehicleEste projeto visa ao estudo de desempenho de dois algoritmos de aprendizado de máquina por reforço, denominados Proximal Policy Optimization e Soft Actor Critic, na simulação de veleiros autônomos e sua resposta às diferentes direções do vento enquanto desviam de obstáculos detectados por análise de imagens. Também, estuda-se o efeito dos algoritmos de aprendizado por imitação Behavioral Cloning e Generative Adversarial Imitation Learning junto aos primeiros algoritmos citados. Utilizam-se para o desenvolvimento a plataforma Unity® e o toolkit de aprendizado de máquina ML-Agents. A metodologia que guia o projeto pode ser aplicada de forma similar para outros problemas de aprendizado por reforço. Por meio do treinamento do agente é possível comparar os resultados e observar que o Proximal Policy Optimization obtém melhor desempenho dentro dos cenários propostos, tanto com e sem o apoio dos algoritmos de aprendizado de imitaçãoThis project aims to study the performance of two reinforcement machine learning algorithms, namely the Proximal Policy Optimization and Soft Actor Critic, in the simulation of autonomous sailboats and their response to different wind directions while avoiding obstacles detected by image analysis. Also, the effect of imitation learning algorithms Behavioral Cloning and Generative Adversarial Imitation Learning with the first mentioned algorithms is studied. The Unity® platform and ML-Agents machine learning toolkit are used for development. The methodology that guides the project can be similarly applied to other reinforcement learning problems. Through agent training, it is possible to compare the results and observe that Proximal Policy Optimization obtains better performance within the proposed scenarios, both with and without the support of imitation learning algorithmsLeta, Fabiana RodriguesPardal, Juan ManuelDias, Daniel Henrique NogueiraClua, Esteban Walter GonzalezMéxas, Rodrigo Picinini2021-09-27T13:15:29Z2021-09-27T13:15:29Z2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfMÉXAS, Rodrigo Picinini. Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos. 2021. 102f. Trabalho de Conclusão de Curso (Graduação em Engenharia Mecânica) - Universidade Federal Fluminense, Niterói, 2021.https://app.uff.br/riuff/handle/1/23361http://creativecommons.org/licenses/by-nc-nd/3.0/br/CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2021-12-06T13:58:30Zoai:app.uff.br:1/23361Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T11:07:05.881884Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos
title Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos
spellingShingle Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos
Méxas, Rodrigo Picinini
Aprendizado de máquina
Aprendizado por reforço
Unity
ML-Agents
PPO
SAC
BC
GAIL
Aprendizado por imitação
Veleiro autônomo
Veículo de superfície não-tripulado
Aprendizado de máquina
Inteligência artificial
Barco à vela
Machine learning
Reinforcement learning
Autonomous sailboat
Unmanned surface vehicle
title_short Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos
title_full Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos
title_fullStr Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos
title_full_unstemmed Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos
title_sort Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos
author Méxas, Rodrigo Picinini
author_facet Méxas, Rodrigo Picinini
author_role author
dc.contributor.none.fl_str_mv Leta, Fabiana Rodrigues
Pardal, Juan Manuel
Dias, Daniel Henrique Nogueira
Clua, Esteban Walter Gonzalez
dc.contributor.author.fl_str_mv Méxas, Rodrigo Picinini
dc.subject.por.fl_str_mv Aprendizado de máquina
Aprendizado por reforço
Unity
ML-Agents
PPO
SAC
BC
GAIL
Aprendizado por imitação
Veleiro autônomo
Veículo de superfície não-tripulado
Aprendizado de máquina
Inteligência artificial
Barco à vela
Machine learning
Reinforcement learning
Autonomous sailboat
Unmanned surface vehicle
topic Aprendizado de máquina
Aprendizado por reforço
Unity
ML-Agents
PPO
SAC
BC
GAIL
Aprendizado por imitação
Veleiro autônomo
Veículo de superfície não-tripulado
Aprendizado de máquina
Inteligência artificial
Barco à vela
Machine learning
Reinforcement learning
Autonomous sailboat
Unmanned surface vehicle
description Este projeto visa ao estudo de desempenho de dois algoritmos de aprendizado de máquina por reforço, denominados Proximal Policy Optimization e Soft Actor Critic, na simulação de veleiros autônomos e sua resposta às diferentes direções do vento enquanto desviam de obstáculos detectados por análise de imagens. Também, estuda-se o efeito dos algoritmos de aprendizado por imitação Behavioral Cloning e Generative Adversarial Imitation Learning junto aos primeiros algoritmos citados. Utilizam-se para o desenvolvimento a plataforma Unity® e o toolkit de aprendizado de máquina ML-Agents. A metodologia que guia o projeto pode ser aplicada de forma similar para outros problemas de aprendizado por reforço. Por meio do treinamento do agente é possível comparar os resultados e observar que o Proximal Policy Optimization obtém melhor desempenho dentro dos cenários propostos, tanto com e sem o apoio dos algoritmos de aprendizado de imitação
publishDate 2021
dc.date.none.fl_str_mv 2021-09-27T13:15:29Z
2021-09-27T13:15:29Z
2021
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv MÉXAS, Rodrigo Picinini. Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos. 2021. 102f. Trabalho de Conclusão de Curso (Graduação em Engenharia Mecânica) - Universidade Federal Fluminense, Niterói, 2021.
https://app.uff.br/riuff/handle/1/23361
identifier_str_mv MÉXAS, Rodrigo Picinini. Comparação do desempenho de algoritmos de aprendizado de máquina por reforço e por imitação na simulação de veleiros autônomos. 2021. 102f. Trabalho de Conclusão de Curso (Graduação em Engenharia Mecânica) - Universidade Federal Fluminense, Niterói, 2021.
url https://app.uff.br/riuff/handle/1/23361
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/br/
CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1811823664913448960