Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander

Detalhes bibliográficos
Autor(a) principal: Albuquerque, Renilson da Silva
Data de Publicação: 2021
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
Texto Completo: https://repository.ufrpe.br/handle/123456789/3991
Resumo: A aprendizagem por reforço é um paradigma de aprendizagem de máquina onde o agente aprende a resolver problemas interagindo com um ambiente através de ações executadas em uma lógica de tentativa e erro. A cada ação executada, o agente recebe uma recompensa do ambiente indicando o quão efetiva foi em relação a resolução do problema, de forma que o objetivo do agente consiste em maximizar a recompensa total recebida. Porém, em alguns sistemas de aprendizagem por reforço o agente precisa aprender tarefas muito complexas que atribuem recompensas não muito informativas, gerando assim o problema de atribuição de crédito que torna a aprendizagem do agente muito lenta. A modelagem de recompensas e a aprendizagem por currículo, são técnicas que podem acelerar o tempo de treinamento do agente ao separar o problema em tarefas menores a serem resolvidas sequencialmente, atribuindo recompensas menores e mais informativas por ação executada. O Lunar lander é um simulador 2D simplificado, utilizado como referencial para a aplicação de soluções de aprendizagem por reforço para o problema de otimização do controle de pouso de um módulo lunar. Porém o seu sistema de recompensas padrão atribui muito mais recompensas punitivas pelo uso dos motores, não sendo muito construtivo para o agente, o que pode levar ao problema de atribuição de crédito. Neste sentido, este trabalho propôs um currículo utilizando dois novos modelos de recompensas, onde foram realizados experimentos a fim de minimizar o tempo de aprendizado do Lunar Lander. Foi constatado neste trabalho que ambos os novos modelos e o currículo, foram mais efetivos em treinar o agente do Lunar Lander, em comparação ao modelo de recompensas padrão.
id UFRPE_b1b6a16a239bc29300d5d861380a0d4a
oai_identifier_str oai:dspace:123456789/3991
network_acronym_str UFRPE
network_name_str Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository_id_str https://v2.sherpa.ac.uk/id/repository/10612
spelling Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar LanderAprendizagem baseada em problemasSimulação (Computadores)Algorítmos computacionaisA aprendizagem por reforço é um paradigma de aprendizagem de máquina onde o agente aprende a resolver problemas interagindo com um ambiente através de ações executadas em uma lógica de tentativa e erro. A cada ação executada, o agente recebe uma recompensa do ambiente indicando o quão efetiva foi em relação a resolução do problema, de forma que o objetivo do agente consiste em maximizar a recompensa total recebida. Porém, em alguns sistemas de aprendizagem por reforço o agente precisa aprender tarefas muito complexas que atribuem recompensas não muito informativas, gerando assim o problema de atribuição de crédito que torna a aprendizagem do agente muito lenta. A modelagem de recompensas e a aprendizagem por currículo, são técnicas que podem acelerar o tempo de treinamento do agente ao separar o problema em tarefas menores a serem resolvidas sequencialmente, atribuindo recompensas menores e mais informativas por ação executada. O Lunar lander é um simulador 2D simplificado, utilizado como referencial para a aplicação de soluções de aprendizagem por reforço para o problema de otimização do controle de pouso de um módulo lunar. Porém o seu sistema de recompensas padrão atribui muito mais recompensas punitivas pelo uso dos motores, não sendo muito construtivo para o agente, o que pode levar ao problema de atribuição de crédito. Neste sentido, este trabalho propôs um currículo utilizando dois novos modelos de recompensas, onde foram realizados experimentos a fim de minimizar o tempo de aprendizado do Lunar Lander. Foi constatado neste trabalho que ambos os novos modelos e o currículo, foram mais efetivos em treinar o agente do Lunar Lander, em comparação ao modelo de recompensas padrão.Reinforcement learning is a machine learning paradigm where the agent learns to solve problems interacting with an environment, executing actions in a trial and error sequence. For each action performed, the agent receives a reward from the environment indicating how effective it was in solving the whole problem. The agent’s objective is to maximize the total reward received. However, in some reinforcement learning problems, the agent needs to learn complex tasks receiving uninformative rewards, leading to the credit assignment problem that slows the agent’s training process. Reward shaping and curriculum learning are techniques that can speed up agent training time by separating the problem into smaller tasks to be solved sequentially, applying smaller and informative rewards for each action performed. Lunar Lander is a simplified 2D simulator used as a benchmark for reinforcement learning solutions to the optimization problem on landing control of a lunar module. However, its standard rewards system assigns much more punitive rewards for the use of the engines, not being very constructive for the agent, which can lead to the credit assignment problem. Hence, this work proposes a curriculum using two additional shaped reward models and runs experiments that aim to minimize the Lunar Lander learning time. This work found that both the new models and the curriculum were more effective in training the Lunar Lander agent compared to the standard rewards model.BrasilSampaio, Pablo Azevedohttp://lattes.cnpq.br/3364503614448061http://lattes.cnpq.br/8865836949700771Albuquerque, Renilson da Silva2023-02-16T17:40:23Z2023-02-16T17:40:23Z2021-07-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis40 f.application/pdfALBUQUERQUE, Renilson da Silva. Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander. 2021. 40 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.https://repository.ufrpe.br/handle/123456789/3991porAtribuição-NãoComercial-SemDerivações 4.0 Internacional (CC BY-NC-ND 4.0)https://creativecommons.org/licenses/by-nc-nd/4.0/deed.pt_BRopenAccessinfo:eu-repo/semantics/openAccessreponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)instname:Universidade Federal Rural de Pernambuco (UFRPE)instacron:UFRPE2023-02-16T17:45:19Zoai:dspace:123456789/3991Repositório InstitucionalPUBhttps://repository.ufrpe.br/oai/requestrepositorio.sib@ufrpe.bropendoar:https://v2.sherpa.ac.uk/id/repository/106122023-02-16T17:45:19Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)false
dc.title.none.fl_str_mv Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
title Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
spellingShingle Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
Albuquerque, Renilson da Silva
Aprendizagem baseada em problemas
Simulação (Computadores)
Algorítmos computacionais
title_short Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
title_full Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
title_fullStr Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
title_full_unstemmed Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
title_sort Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
author Albuquerque, Renilson da Silva
author_facet Albuquerque, Renilson da Silva
author_role author
dc.contributor.none.fl_str_mv Sampaio, Pablo Azevedo
http://lattes.cnpq.br/3364503614448061
http://lattes.cnpq.br/8865836949700771
dc.contributor.author.fl_str_mv Albuquerque, Renilson da Silva
dc.subject.por.fl_str_mv Aprendizagem baseada em problemas
Simulação (Computadores)
Algorítmos computacionais
topic Aprendizagem baseada em problemas
Simulação (Computadores)
Algorítmos computacionais
description A aprendizagem por reforço é um paradigma de aprendizagem de máquina onde o agente aprende a resolver problemas interagindo com um ambiente através de ações executadas em uma lógica de tentativa e erro. A cada ação executada, o agente recebe uma recompensa do ambiente indicando o quão efetiva foi em relação a resolução do problema, de forma que o objetivo do agente consiste em maximizar a recompensa total recebida. Porém, em alguns sistemas de aprendizagem por reforço o agente precisa aprender tarefas muito complexas que atribuem recompensas não muito informativas, gerando assim o problema de atribuição de crédito que torna a aprendizagem do agente muito lenta. A modelagem de recompensas e a aprendizagem por currículo, são técnicas que podem acelerar o tempo de treinamento do agente ao separar o problema em tarefas menores a serem resolvidas sequencialmente, atribuindo recompensas menores e mais informativas por ação executada. O Lunar lander é um simulador 2D simplificado, utilizado como referencial para a aplicação de soluções de aprendizagem por reforço para o problema de otimização do controle de pouso de um módulo lunar. Porém o seu sistema de recompensas padrão atribui muito mais recompensas punitivas pelo uso dos motores, não sendo muito construtivo para o agente, o que pode levar ao problema de atribuição de crédito. Neste sentido, este trabalho propôs um currículo utilizando dois novos modelos de recompensas, onde foram realizados experimentos a fim de minimizar o tempo de aprendizado do Lunar Lander. Foi constatado neste trabalho que ambos os novos modelos e o currículo, foram mais efetivos em treinar o agente do Lunar Lander, em comparação ao modelo de recompensas padrão.
publishDate 2021
dc.date.none.fl_str_mv 2021-07-19
2023-02-16T17:40:23Z
2023-02-16T17:40:23Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv ALBUQUERQUE, Renilson da Silva. Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander. 2021. 40 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.
https://repository.ufrpe.br/handle/123456789/3991
identifier_str_mv ALBUQUERQUE, Renilson da Silva. Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander. 2021. 40 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.
url https://repository.ufrpe.br/handle/123456789/3991
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Atribuição-NãoComercial-SemDerivações 4.0 Internacional (CC BY-NC-ND 4.0)
https://creativecommons.org/licenses/by-nc-nd/4.0/deed.pt_BR
openAccess
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Atribuição-NãoComercial-SemDerivações 4.0 Internacional (CC BY-NC-ND 4.0)
https://creativecommons.org/licenses/by-nc-nd/4.0/deed.pt_BR
openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 40 f.
application/pdf
dc.publisher.none.fl_str_mv Brasil
publisher.none.fl_str_mv Brasil
dc.source.none.fl_str_mv reponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
instname:Universidade Federal Rural de Pernambuco (UFRPE)
instacron:UFRPE
instname_str Universidade Federal Rural de Pernambuco (UFRPE)
instacron_str UFRPE
institution UFRPE
reponame_str Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
collection Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository.name.fl_str_mv Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)
repository.mail.fl_str_mv repositorio.sib@ufrpe.br
_version_ 1802120148227719168