Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander

Albuquerque, Renilson da Silva

Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander

Detalhes bibliográficos
Autor(a) principal:	Albuquerque, Renilson da Silva
Data de Publicação:	2021
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
Texto Completo:	https://repository.ufrpe.br/handle/123456789/3991
Resumo:	A aprendizagem por reforço é um paradigma de aprendizagem de máquina onde o agente aprende a resolver problemas interagindo com um ambiente através de ações executadas em uma lógica de tentativa e erro. A cada ação executada, o agente recebe uma recompensa do ambiente indicando o quão efetiva foi em relação a resolução do problema, de forma que o objetivo do agente consiste em maximizar a recompensa total recebida. Porém, em alguns sistemas de aprendizagem por reforço o agente precisa aprender tarefas muito complexas que atribuem recompensas não muito informativas, gerando assim o problema de atribuição de crédito que torna a aprendizagem do agente muito lenta. A modelagem de recompensas e a aprendizagem por currículo, são técnicas que podem acelerar o tempo de treinamento do agente ao separar o problema em tarefas menores a serem resolvidas sequencialmente, atribuindo recompensas menores e mais informativas por ação executada. O Lunar lander é um simulador 2D simplificado, utilizado como referencial para a aplicação de soluções de aprendizagem por reforço para o problema de otimização do controle de pouso de um módulo lunar. Porém o seu sistema de recompensas padrão atribui muito mais recompensas punitivas pelo uso dos motores, não sendo muito construtivo para o agente, o que pode levar ao problema de atribuição de crédito. Neste sentido, este trabalho propôs um currículo utilizando dois novos modelos de recompensas, onde foram realizados experimentos a fim de minimizar o tempo de aprendizado do Lunar Lander. Foi constatado neste trabalho que ambos os novos modelos e o currículo, foram mais efetivos em treinar o agente do Lunar Lander, em comparação ao modelo de recompensas padrão.

Metadados do item

id	UFRPE_b1b6a16a239bc29300d5d861380a0d4a
oai_identifier_str	oai:dspace:123456789/3991
network_acronym_str	UFRPE
network_name_str	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository_id_str	https://v2.sherpa.ac.uk/id/repository/10612
spelling	Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar LanderAprendizagem baseada em problemasSimulação (Computadores)Algorítmos computacionaisA aprendizagem por reforço é um paradigma de aprendizagem de máquina onde o agente aprende a resolver problemas interagindo com um ambiente através de ações executadas em uma lógica de tentativa e erro. A cada ação executada, o agente recebe uma recompensa do ambiente indicando o quão efetiva foi em relação a resolução do problema, de forma que o objetivo do agente consiste em maximizar a recompensa total recebida. Porém, em alguns sistemas de aprendizagem por reforço o agente precisa aprender tarefas muito complexas que atribuem recompensas não muito informativas, gerando assim o problema de atribuição de crédito que torna a aprendizagem do agente muito lenta. A modelagem de recompensas e a aprendizagem por currículo, são técnicas que podem acelerar o tempo de treinamento do agente ao separar o problema em tarefas menores a serem resolvidas sequencialmente, atribuindo recompensas menores e mais informativas por ação executada. O Lunar lander é um simulador 2D simplificado, utilizado como referencial para a aplicação de soluções de aprendizagem por reforço para o problema de otimização do controle de pouso de um módulo lunar. Porém o seu sistema de recompensas padrão atribui muito mais recompensas punitivas pelo uso dos motores, não sendo muito construtivo para o agente, o que pode levar ao problema de atribuição de crédito. Neste sentido, este trabalho propôs um currículo utilizando dois novos modelos de recompensas, onde foram realizados experimentos a fim de minimizar o tempo de aprendizado do Lunar Lander. Foi constatado neste trabalho que ambos os novos modelos e o currículo, foram mais efetivos em treinar o agente do Lunar Lander, em comparação ao modelo de recompensas padrão.Reinforcement learning is a machine learning paradigm where the agent learns to solve problems interacting with an environment, executing actions in a trial and error sequence. For each action performed, the agent receives a reward from the environment indicating how effective it was in solving the whole problem. The agent’s objective is to maximize the total reward received. However, in some reinforcement learning problems, the agent needs to learn complex tasks receiving uninformative rewards, leading to the credit assignment problem that slows the agent’s training process. Reward shaping and curriculum learning are techniques that can speed up agent training time by separating the problem into smaller tasks to be solved sequentially, applying smaller and informative rewards for each action performed. Lunar Lander is a simplified 2D simulator used as a benchmark for reinforcement learning solutions to the optimization problem on landing control of a lunar module. However, its standard rewards system assigns much more punitive rewards for the use of the engines, not being very constructive for the agent, which can lead to the credit assignment problem. Hence, this work proposes a curriculum using two additional shaped reward models and runs experiments that aim to minimize the Lunar Lander learning time. This work found that both the new models and the curriculum were more effective in training the Lunar Lander agent compared to the standard rewards model.BrasilSampaio, Pablo Azevedohttp://lattes.cnpq.br/3364503614448061http://lattes.cnpq.br/8865836949700771Albuquerque, Renilson da Silva2023-02-16T17:40:23Z2023-02-16T17:40:23Z2021-07-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis40 f.application/pdfALBUQUERQUE, Renilson da Silva. Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander. 2021. 40 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.https://repository.ufrpe.br/handle/123456789/3991porAtribuição-NãoComercial-SemDerivações 4.0 Internacional (CC BY-NC-ND 4.0)https://creativecommons.org/licenses/by-nc-nd/4.0/deed.pt_BRopenAccessinfo:eu-repo/semantics/openAccessreponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)instname:Universidade Federal Rural de Pernambuco (UFRPE)instacron:UFRPE2023-02-16T17:45:19Zoai:dspace:123456789/3991Repositório InstitucionalPUBhttps://repository.ufrpe.br/oai/requestrepositorio.sib@ufrpe.bropendoar:https://v2.sherpa.ac.uk/id/repository/106122023-02-16T17:45:19Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)false
dc.title.none.fl_str_mv	Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
title	Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
spellingShingle	Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander Albuquerque, Renilson da Silva Aprendizagem baseada em problemas Simulação (Computadores) Algorítmos computacionais
title_short	Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
title_full	Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
title_fullStr	Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
title_full_unstemmed	Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
title_sort	Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
author	Albuquerque, Renilson da Silva
author_facet	Albuquerque, Renilson da Silva
author_role	author
dc.contributor.none.fl_str_mv	Sampaio, Pablo Azevedo http://lattes.cnpq.br/3364503614448061 http://lattes.cnpq.br/8865836949700771
dc.contributor.author.fl_str_mv	Albuquerque, Renilson da Silva
dc.subject.por.fl_str_mv	Aprendizagem baseada em problemas Simulação (Computadores) Algorítmos computacionais
topic	Aprendizagem baseada em problemas Simulação (Computadores) Algorítmos computacionais
description	A aprendizagem por reforço é um paradigma de aprendizagem de máquina onde o agente aprende a resolver problemas interagindo com um ambiente através de ações executadas em uma lógica de tentativa e erro. A cada ação executada, o agente recebe uma recompensa do ambiente indicando o quão efetiva foi em relação a resolução do problema, de forma que o objetivo do agente consiste em maximizar a recompensa total recebida. Porém, em alguns sistemas de aprendizagem por reforço o agente precisa aprender tarefas muito complexas que atribuem recompensas não muito informativas, gerando assim o problema de atribuição de crédito que torna a aprendizagem do agente muito lenta. A modelagem de recompensas e a aprendizagem por currículo, são técnicas que podem acelerar o tempo de treinamento do agente ao separar o problema em tarefas menores a serem resolvidas sequencialmente, atribuindo recompensas menores e mais informativas por ação executada. O Lunar lander é um simulador 2D simplificado, utilizado como referencial para a aplicação de soluções de aprendizagem por reforço para o problema de otimização do controle de pouso de um módulo lunar. Porém o seu sistema de recompensas padrão atribui muito mais recompensas punitivas pelo uso dos motores, não sendo muito construtivo para o agente, o que pode levar ao problema de atribuição de crédito. Neste sentido, este trabalho propôs um currículo utilizando dois novos modelos de recompensas, onde foram realizados experimentos a fim de minimizar o tempo de aprendizado do Lunar Lander. Foi constatado neste trabalho que ambos os novos modelos e o currículo, foram mais efetivos em treinar o agente do Lunar Lander, em comparação ao modelo de recompensas padrão.
publishDate	2021
dc.date.none.fl_str_mv	2021-07-19 2023-02-16T17:40:23Z 2023-02-16T17:40:23Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	ALBUQUERQUE, Renilson da Silva. Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander. 2021. 40 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021. https://repository.ufrpe.br/handle/123456789/3991
identifier_str_mv	ALBUQUERQUE, Renilson da Silva. Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander. 2021. 40 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.
url	https://repository.ufrpe.br/handle/123456789/3991
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Atribuição-NãoComercial-SemDerivações 4.0 Internacional (CC BY-NC-ND 4.0) https://creativecommons.org/licenses/by-nc-nd/4.0/deed.pt_BR openAccess info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Atribuição-NãoComercial-SemDerivações 4.0 Internacional (CC BY-NC-ND 4.0) https://creativecommons.org/licenses/by-nc-nd/4.0/deed.pt_BR openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	40 f. application/pdf
dc.publisher.none.fl_str_mv	Brasil
publisher.none.fl_str_mv	Brasil
dc.source.none.fl_str_mv	reponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) instname:Universidade Federal Rural de Pernambuco (UFRPE) instacron:UFRPE
instname_str	Universidade Federal Rural de Pernambuco (UFRPE)
instacron_str	UFRPE
institution	UFRPE
reponame_str	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
collection	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository.name.fl_str_mv	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)
repository.mail.fl_str_mv	repositorio.sib@ufrpe.br
_version_	1802120148227719168

Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander

Registros relacionados