Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander

Silva, Kenedy Felipe dos Santos da

Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander

Detalhes bibliográficos
Autor(a) principal:	Silva, Kenedy Felipe dos Santos da
Data de Publicação:	2021
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
Texto Completo:	https://repository.ufrpe.br/handle/123456789/4006
Resumo:	As técnicas estudadas relacionadas à aprendizagem por reforço estão se tornando cada vez mais comuns em desafios do mundo real, porém um desafio é reduzir o tempo de aprendizado. Atualmente o tempo de aprendizado e/ou quantidade de interações realizadas pelo agente de aprendizagem por reforço podem resultar em altos custos nas aplicações, pois o treinamento dos modelos podem consumir bastante tempo, exigindo muitas interações do agente com o ambiente da tarefa. Este trabalho busca melhorar o aprendizado utilizando uma nova combinação de técnicas, a técnica Teacher-Student (Aluno-Professor) com a Reward Shaping (modelagem de recompensas). A técnica Teacher-Student visa escolher dentre um conjunto de tarefas similares que treinam para uma tarefa principal, de acordo com o aprendizado do aluno. A técnica Reward Shaping, altera a recompensa para tentar acelerar o aprendizado, fornece feedbacks mais frequentes sobre os comportamentos apropriados, ou seja, reporta recompensas com mais frequência. Adaptamos algoritmos de Teacher-Student para essa combinação de técnicas, e usamos o ambiente Lunar Lander como estudo de caso, usando quatro modelos de recompensa elaborados em (ALBUQUERQUE, 2021) para este ambiente. Foram realizados experimentos executando diferentes treinamentos para comparar essa abordagem com o treinamento apenas no Lunar Lander original (sem alteração das recompensas), e com os resultados obtidos em (ALBUQUERQUE, 2021) ao adotar cada um dos modelos de recompensas individualmente. A combinação das técnicas Teacher-Student com Reward Shaping contribuíram para uma nova experiência na área de aprendizagem por reforço, conseguindo acelerar o aprendizado do agente, considerando a duração de 600 mil passos de treinamento, atingindo o desempenho alvo em 2 de 5 propostas, além de conseguir aprender melhor que a abordagem original do Lunar Lander com algoritmo PPO.

Metadados do item

id	UFRPE_2014429fe0ee13a0c16309d25192a2fa
oai_identifier_str	oai:dspace:123456789/4006
network_acronym_str	UFRPE
network_name_str	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository_id_str	https://v2.sherpa.ac.uk/id/repository/10612
spelling	Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar LanderAprendizado de máquinaAlgorítmos computacionaisMarkov, Processos deAs técnicas estudadas relacionadas à aprendizagem por reforço estão se tornando cada vez mais comuns em desafios do mundo real, porém um desafio é reduzir o tempo de aprendizado. Atualmente o tempo de aprendizado e/ou quantidade de interações realizadas pelo agente de aprendizagem por reforço podem resultar em altos custos nas aplicações, pois o treinamento dos modelos podem consumir bastante tempo, exigindo muitas interações do agente com o ambiente da tarefa. Este trabalho busca melhorar o aprendizado utilizando uma nova combinação de técnicas, a técnica Teacher-Student (Aluno-Professor) com a Reward Shaping (modelagem de recompensas). A técnica Teacher-Student visa escolher dentre um conjunto de tarefas similares que treinam para uma tarefa principal, de acordo com o aprendizado do aluno. A técnica Reward Shaping, altera a recompensa para tentar acelerar o aprendizado, fornece feedbacks mais frequentes sobre os comportamentos apropriados, ou seja, reporta recompensas com mais frequência. Adaptamos algoritmos de Teacher-Student para essa combinação de técnicas, e usamos o ambiente Lunar Lander como estudo de caso, usando quatro modelos de recompensa elaborados em (ALBUQUERQUE, 2021) para este ambiente. Foram realizados experimentos executando diferentes treinamentos para comparar essa abordagem com o treinamento apenas no Lunar Lander original (sem alteração das recompensas), e com os resultados obtidos em (ALBUQUERQUE, 2021) ao adotar cada um dos modelos de recompensas individualmente. A combinação das técnicas Teacher-Student com Reward Shaping contribuíram para uma nova experiência na área de aprendizagem por reforço, conseguindo acelerar o aprendizado do agente, considerando a duração de 600 mil passos de treinamento, atingindo o desempenho alvo em 2 de 5 propostas, além de conseguir aprender melhor que a abordagem original do Lunar Lander com algoritmo PPO.The techniques studied related to learning by reinforcement are becoming more and more common in real world challenges, but one challenge is to reduce the learning time. Currently, the learning time and/or amount of interactions performed by the reinforcement learning agent can result in high costs in applications, as the training of models can consume a lot of time, requiring many interactions between the agent and the task environment. This work seeks to improve learning using a new combination of techniques, the Teacher-Student technique with Reward Shaping. The Teacher-Student technique aims to choose among a set of similar tasks that train for a main task, according to the student’s learning. The Reward Shaping technique, altering the reward to try to accelerate learning, provides more frequent feedback on appropriate behaviors, that is, reports rewards more often. We adapted Teacher-Student algorithms for this combination of techniques, and used the Lunar Lander environment as a case study, using four reward models designed in (ALBUQUERQUE, 2021) for this environment. Experiments were performed running different trainings to compare this approach with training only on the original Lunar Lander (no rewards change), and with the results obtained in (ALBUQUERQUE, 2021) by adopting each of the rewards models individually. The combination of Teacher-Student techniques with Reward Shaping contributed to a new experience in the reinforcement learning area, managing to accelerate the agent’s learning, considering the duration of 600 thousand training steps, reaching the target performance in 2 out of 5 proposals, in addition to of being able to learn better than the original Lunar Lander approach with PPO algorithm.BrasilSampaio, Pablo Azevedohttp://lattes.cnpq.br/7479192156880225http://lattes.cnpq.br/8865836949700771Silva, Kenedy Felipe dos Santos da2023-02-23T21:55:26Z2023-02-23T21:55:26Z2021-07-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis37 f.application/pdfSILVA, Kenedy Felipe dos Santos da. Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander. 2021. 37 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.https://repository.ufrpe.br/handle/123456789/4006porAtribuição-CompartilhaIgual 4.0 Internacional (CC BY-SA 4.0)https://creativecommons.org/licenses/by-sa/4.0/deed.pt_BRopenAccessinfo:eu-repo/semantics/openAccessreponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)instname:Universidade Federal Rural de Pernambuco (UFRPE)instacron:UFRPE2023-02-23T21:55:30Zoai:dspace:123456789/4006Repositório InstitucionalPUBhttps://repository.ufrpe.br/oai/requestrepositorio.sib@ufrpe.bropendoar:https://v2.sherpa.ac.uk/id/repository/106122023-02-23T21:55:30Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)false
dc.title.none.fl_str_mv	Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
title	Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
spellingShingle	Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander Silva, Kenedy Felipe dos Santos da Aprendizado de máquina Algorítmos computacionais Markov, Processos de
title_short	Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
title_full	Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
title_fullStr	Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
title_full_unstemmed	Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
title_sort	Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander
author	Silva, Kenedy Felipe dos Santos da
author_facet	Silva, Kenedy Felipe dos Santos da
author_role	author
dc.contributor.none.fl_str_mv	Sampaio, Pablo Azevedo http://lattes.cnpq.br/7479192156880225 http://lattes.cnpq.br/8865836949700771
dc.contributor.author.fl_str_mv	Silva, Kenedy Felipe dos Santos da
dc.subject.por.fl_str_mv	Aprendizado de máquina Algorítmos computacionais Markov, Processos de
topic	Aprendizado de máquina Algorítmos computacionais Markov, Processos de
description	As técnicas estudadas relacionadas à aprendizagem por reforço estão se tornando cada vez mais comuns em desafios do mundo real, porém um desafio é reduzir o tempo de aprendizado. Atualmente o tempo de aprendizado e/ou quantidade de interações realizadas pelo agente de aprendizagem por reforço podem resultar em altos custos nas aplicações, pois o treinamento dos modelos podem consumir bastante tempo, exigindo muitas interações do agente com o ambiente da tarefa. Este trabalho busca melhorar o aprendizado utilizando uma nova combinação de técnicas, a técnica Teacher-Student (Aluno-Professor) com a Reward Shaping (modelagem de recompensas). A técnica Teacher-Student visa escolher dentre um conjunto de tarefas similares que treinam para uma tarefa principal, de acordo com o aprendizado do aluno. A técnica Reward Shaping, altera a recompensa para tentar acelerar o aprendizado, fornece feedbacks mais frequentes sobre os comportamentos apropriados, ou seja, reporta recompensas com mais frequência. Adaptamos algoritmos de Teacher-Student para essa combinação de técnicas, e usamos o ambiente Lunar Lander como estudo de caso, usando quatro modelos de recompensa elaborados em (ALBUQUERQUE, 2021) para este ambiente. Foram realizados experimentos executando diferentes treinamentos para comparar essa abordagem com o treinamento apenas no Lunar Lander original (sem alteração das recompensas), e com os resultados obtidos em (ALBUQUERQUE, 2021) ao adotar cada um dos modelos de recompensas individualmente. A combinação das técnicas Teacher-Student com Reward Shaping contribuíram para uma nova experiência na área de aprendizagem por reforço, conseguindo acelerar o aprendizado do agente, considerando a duração de 600 mil passos de treinamento, atingindo o desempenho alvo em 2 de 5 propostas, além de conseguir aprender melhor que a abordagem original do Lunar Lander com algoritmo PPO.
publishDate	2021
dc.date.none.fl_str_mv	2021-07-20 2023-02-23T21:55:26Z 2023-02-23T21:55:26Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	SILVA, Kenedy Felipe dos Santos da. Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander. 2021. 37 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021. https://repository.ufrpe.br/handle/123456789/4006
identifier_str_mv	SILVA, Kenedy Felipe dos Santos da. Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander. 2021. 37 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.
url	https://repository.ufrpe.br/handle/123456789/4006
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Atribuição-CompartilhaIgual 4.0 Internacional (CC BY-SA 4.0) https://creativecommons.org/licenses/by-sa/4.0/deed.pt_BR openAccess info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Atribuição-CompartilhaIgual 4.0 Internacional (CC BY-SA 4.0) https://creativecommons.org/licenses/by-sa/4.0/deed.pt_BR openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	37 f. application/pdf
dc.publisher.none.fl_str_mv	Brasil
publisher.none.fl_str_mv	Brasil
dc.source.none.fl_str_mv	reponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) instname:Universidade Federal Rural de Pernambuco (UFRPE) instacron:UFRPE
instname_str	Universidade Federal Rural de Pernambuco (UFRPE)
instacron_str	UFRPE
institution	UFRPE
reponame_str	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
collection	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository.name.fl_str_mv	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)
repository.mail.fl_str_mv	repositorio.sib@ufrpe.br
_version_	1798417308645851136

Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander

Registros relacionados