Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander

Detalhes bibliográficos
Autor(a) principal: Silva, Kenedy Felipe dos Santos da
Data de Publicação: 2021
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
Texto Completo: https://repository.ufrpe.br/handle/123456789/4006
Resumo: As técnicas estudadas relacionadas à aprendizagem por reforço estão se tornando cada vez mais comuns em desafios do mundo real, porém um desafio é reduzir o tempo de aprendizado. Atualmente o tempo de aprendizado e/ou quantidade de interações realizadas pelo agente de aprendizagem por reforço podem resultar em altos custos nas aplicações, pois o treinamento dos modelos podem consumir bastante tempo, exigindo muitas interações do agente com o ambiente da tarefa. Este trabalho busca melhorar o aprendizado utilizando uma nova combinação de técnicas, a técnica Teacher-Student (Aluno-Professor) com a Reward Shaping (modelagem de recompensas). A técnica Teacher-Student visa escolher dentre um conjunto de tarefas similares que treinam para uma tarefa principal, de acordo com o aprendizado do aluno. A técnica Reward Shaping, altera a recompensa para tentar acelerar o aprendizado, fornece feedbacks mais frequentes sobre os comportamentos apropriados, ou seja, reporta recompensas com mais frequência. Adaptamos algoritmos de Teacher-Student para essa combinação de técnicas, e usamos o ambiente Lunar Lander como estudo de caso, usando quatro modelos de recompensa elaborados em (ALBUQUERQUE, 2021) para este ambiente. Foram realizados experimentos executando diferentes treinamentos para comparar essa abordagem com o treinamento apenas no Lunar Lander original (sem alteração das recompensas), e com os resultados obtidos em (ALBUQUERQUE, 2021) ao adotar cada um dos modelos de recompensas individualmente. A combinação das técnicas Teacher-Student com Reward Shaping contribuíram para uma nova experiência na área de aprendizagem por reforço, conseguindo acelerar o aprendizado do agente, considerando a duração de 600 mil passos de treinamento, atingindo o desempenho alvo em 2 de 5 propostas, além de conseguir aprender melhor que a abordagem original do Lunar Lander com algoritmo PPO.
id UFRPE_2014429fe0ee13a0c16309d25192a2fa
oai_identifier_str oai:dspace:123456789/4006
network_acronym_str UFRPE
network_name_str Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository_id_str https://v2.sherpa.ac.uk/id/repository/10612
spelling Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar LanderAprendizado de máquinaAlgorítmos computacionaisMarkov, Processos deAs técnicas estudadas relacionadas à aprendizagem por reforço estão se tornando cada vez mais comuns em desafios do mundo real, porém um desafio é reduzir o tempo de aprendizado. Atualmente o tempo de aprendizado e/ou quantidade de interações realizadas pelo agente de aprendizagem por reforço podem resultar em altos custos nas aplicações, pois o treinamento dos modelos podem consumir bastante tempo, exigindo muitas interações do agente com o ambiente da tarefa. Este trabalho busca melhorar o aprendizado utilizando uma nova combinação de técnicas, a técnica Teacher-Student (Aluno-Professor) com a Reward Shaping (modelagem de recompensas). A técnica Teacher-Student visa escolher dentre um conjunto de tarefas similares que treinam para uma tarefa principal, de acordo com o aprendizado do aluno. A técnica Reward Shaping, altera a recompensa para tentar acelerar o aprendizado, fornece feedbacks mais frequentes sobre os comportamentos apropriados, ou seja, reporta recompensas com mais frequência. Adaptamos algoritmos de Teacher-Student para essa combinação de técnicas, e usamos o ambiente Lunar Lander como estudo de caso, usando quatro modelos de recompensa elaborados em (ALBUQUERQUE, 2021) para este ambiente. Foram realizados experimentos executando diferentes treinamentos para comparar essa abordagem com o treinamento apenas no Lunar Lander original (sem alteração das recompensas), e com os resultados obtidos em (ALBUQUERQUE, 2021) ao adotar cada um dos modelos de recompensas individualmente. A combinação das técnicas Teacher-Student com Reward Shaping contribuíram para uma nova experiência na área de aprendizagem por reforço, conseguindo acelerar o aprendizado do agente, considerando a duração de 600 mil passos de treinamento, atingindo o desempenho alvo em 2 de 5 propostas, além de conseguir aprender melhor que a abordagem original do Lunar Lander com algoritmo PPO.The techniques studied related to learning by reinforcement are becoming more and more common in real world challenges, but one challenge is to reduce the learning time. Currently, the learning time and/or amount of interactions performed by the reinforcement learning agent can result in high costs in applications, as the training of models can consume a lot of time, requiring many interactions between the agent and the task environment. This work seeks to improve learning using a new combination of techniques, the Teacher-Student technique with Reward Shaping. The Teacher-Student technique aims to choose among a set of similar tasks that train for a main task, according to the student’s learning. The Reward Shaping technique, altering the reward to try to accelerate learning, provides more frequent feedback on appropriate behaviors, that is, reports rewards more often. We adapted Teacher-Student algorithms for this combination of techniques, and used the Lunar Lander environment as a case study, using four reward models designed in (ALBUQUERQUE, 2021) for this environment. Experiments were performed running different trainings to compare this approach with training only on the original Lunar Lander (no rewards change), and with the results obtained in (ALBUQUERQUE, 2021) by adopting each of the rewards models individually. The combination of Teacher-Student techniques with Reward Shaping contributed to a new experience in the reinforcement learning area, managing to accelerate the agent’s learning, considering the duration of 600 thousand training steps, reaching the target performance in 2 out of 5 proposals, in addition to of being able to learn better than the original Lunar Lander approach with PPO algorithm.BrasilSampaio, Pablo Azevedohttp://lattes.cnpq.br/7479192156880225http://lattes.cnpq.br/8865836949700771Silva, Kenedy Felipe dos Santos da2023-02-23T21:55:26Z2023-02-23T21:55:26Z2021-07-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis37 f.application/pdfSILVA, Kenedy Felipe dos Santos da. Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander. 2021. 37 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.https://repository.ufrpe.br/handle/123456789/4006porAtribuição-CompartilhaIgual 4.0 Internacional (CC BY-SA 4.0)https://creativecommons.org/licenses/by-sa/4.0/deed.pt_BRopenAccessinfo:eu-repo/semantics/openAccessreponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)instname:Universidade Federal Rural de Pernambuco (UFRPE)instacron:UFRPE2023-02-23T21:55:30Zoai:dspace:123456789/4006Repositório InstitucionalPUBhttps://repository.ufrpe.br/oai/requestrepositorio.sib@ufrpe.bropendoar:https://v2.sherpa.ac.uk/id/repository/106122023-02-23T21:55:30Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)false
dc.title.none.fl_str_mv Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
title Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
spellingShingle Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
Silva, Kenedy Felipe dos Santos da
Aprendizado de máquina
Algorítmos computacionais
Markov, Processos de
title_short Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
title_full Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
title_fullStr Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
title_full_unstemmed Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
title_sort Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
author Silva, Kenedy Felipe dos Santos da
author_facet Silva, Kenedy Felipe dos Santos da
author_role author
dc.contributor.none.fl_str_mv Sampaio, Pablo Azevedo
http://lattes.cnpq.br/7479192156880225
http://lattes.cnpq.br/8865836949700771
dc.contributor.author.fl_str_mv Silva, Kenedy Felipe dos Santos da
dc.subject.por.fl_str_mv Aprendizado de máquina
Algorítmos computacionais
Markov, Processos de
topic Aprendizado de máquina
Algorítmos computacionais
Markov, Processos de
description As técnicas estudadas relacionadas à aprendizagem por reforço estão se tornando cada vez mais comuns em desafios do mundo real, porém um desafio é reduzir o tempo de aprendizado. Atualmente o tempo de aprendizado e/ou quantidade de interações realizadas pelo agente de aprendizagem por reforço podem resultar em altos custos nas aplicações, pois o treinamento dos modelos podem consumir bastante tempo, exigindo muitas interações do agente com o ambiente da tarefa. Este trabalho busca melhorar o aprendizado utilizando uma nova combinação de técnicas, a técnica Teacher-Student (Aluno-Professor) com a Reward Shaping (modelagem de recompensas). A técnica Teacher-Student visa escolher dentre um conjunto de tarefas similares que treinam para uma tarefa principal, de acordo com o aprendizado do aluno. A técnica Reward Shaping, altera a recompensa para tentar acelerar o aprendizado, fornece feedbacks mais frequentes sobre os comportamentos apropriados, ou seja, reporta recompensas com mais frequência. Adaptamos algoritmos de Teacher-Student para essa combinação de técnicas, e usamos o ambiente Lunar Lander como estudo de caso, usando quatro modelos de recompensa elaborados em (ALBUQUERQUE, 2021) para este ambiente. Foram realizados experimentos executando diferentes treinamentos para comparar essa abordagem com o treinamento apenas no Lunar Lander original (sem alteração das recompensas), e com os resultados obtidos em (ALBUQUERQUE, 2021) ao adotar cada um dos modelos de recompensas individualmente. A combinação das técnicas Teacher-Student com Reward Shaping contribuíram para uma nova experiência na área de aprendizagem por reforço, conseguindo acelerar o aprendizado do agente, considerando a duração de 600 mil passos de treinamento, atingindo o desempenho alvo em 2 de 5 propostas, além de conseguir aprender melhor que a abordagem original do Lunar Lander com algoritmo PPO.
publishDate 2021
dc.date.none.fl_str_mv 2021-07-20
2023-02-23T21:55:26Z
2023-02-23T21:55:26Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SILVA, Kenedy Felipe dos Santos da. Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander. 2021. 37 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.
https://repository.ufrpe.br/handle/123456789/4006
identifier_str_mv SILVA, Kenedy Felipe dos Santos da. Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander. 2021. 37 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.
url https://repository.ufrpe.br/handle/123456789/4006
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Atribuição-CompartilhaIgual 4.0 Internacional (CC BY-SA 4.0)
https://creativecommons.org/licenses/by-sa/4.0/deed.pt_BR
openAccess
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribuição-CompartilhaIgual 4.0 Internacional (CC BY-SA 4.0)
https://creativecommons.org/licenses/by-sa/4.0/deed.pt_BR
openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 37 f.
application/pdf
dc.publisher.none.fl_str_mv Brasil
publisher.none.fl_str_mv Brasil
dc.source.none.fl_str_mv reponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
instname:Universidade Federal Rural de Pernambuco (UFRPE)
instacron:UFRPE
instname_str Universidade Federal Rural de Pernambuco (UFRPE)
instacron_str UFRPE
institution UFRPE
reponame_str Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
collection Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository.name.fl_str_mv Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)
repository.mail.fl_str_mv repositorio.sib@ufrpe.br
_version_ 1798417308645851136