Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment

Silva, Jonatan Washington Pereira da

Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment

Detalhes bibliográficos
Autor(a) principal:	Silva, Jonatan Washington Pereira da
Data de Publicação:	2019
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
Texto Completo:	https://repository.ufrpe.br/handle/123456789/3954
Resumo:	O aprendizado por reforço é um conjunto de técnicas que permitem a um agente interagir com um determinado ambiente. Os agentes observam o estado do ambiente e executam uma ação, a ação é avaliada por meio de uma recompensa obtida. O agente tem como objetivo maximizar esta recompensa. Diversas questões como: locomoção em três dimensões e jogos eletrônicos foram abordados pelo aprendizado por reforço (KURACH et al., 2019). O treinamento de agentes para um jogo de futebol normalmente possui recompensas esparsas, o que retarda o aprendizado (MATIISEN et al., 2019). Uma técnica que pode contornar este obstaculo é o aprendizado por currículo proposto em (BENGIO et al., 2009). O aprendizado por currículo é uma técnica que aborda sub-tarefas mais simples da tarefa principal e aumenta gradativamente o nível de dificuldade ao longo do tempo. Neste trabalho apresentamos dois currículos, identificados como: 5-15-30-50 e 3-10-20-67, para o cenário Run to Score with Keeper da Football Academy. Mostramos que os currículos, em média, obtiveram melhores resultados se comparados ao treinamento apenas no cenário principal, sem currículo. O currículo 3-10-20-67 obteve um melhor resultado mesmo considerando o desvio padrão.

Metadados do item

id	UFRPE_0f3b288d184123b426e7e244d042905d
oai_identifier_str	oai:dspace:123456789/3954
network_acronym_str	UFRPE
network_name_str	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository_id_str	https://v2.sherpa.ac.uk/id/repository/10612
spelling	Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football EnvironmentMarkov, Processos deRedes neuraisAlgorítmos computacionaisO aprendizado por reforço é um conjunto de técnicas que permitem a um agente interagir com um determinado ambiente. Os agentes observam o estado do ambiente e executam uma ação, a ação é avaliada por meio de uma recompensa obtida. O agente tem como objetivo maximizar esta recompensa. Diversas questões como: locomoção em três dimensões e jogos eletrônicos foram abordados pelo aprendizado por reforço (KURACH et al., 2019). O treinamento de agentes para um jogo de futebol normalmente possui recompensas esparsas, o que retarda o aprendizado (MATIISEN et al., 2019). Uma técnica que pode contornar este obstaculo é o aprendizado por currículo proposto em (BENGIO et al., 2009). O aprendizado por currículo é uma técnica que aborda sub-tarefas mais simples da tarefa principal e aumenta gradativamente o nível de dificuldade ao longo do tempo. Neste trabalho apresentamos dois currículos, identificados como: 5-15-30-50 e 3-10-20-67, para o cenário Run to Score with Keeper da Football Academy. Mostramos que os currículos, em média, obtiveram melhores resultados se comparados ao treinamento apenas no cenário principal, sem currículo. O currículo 3-10-20-67 obteve um melhor resultado mesmo considerando o desvio padrão.Reinforcement learning is a group of techniques that allow an agent to interact with a particular environment. Agents observe the state of the environment and perform an action, the action is evaluated through a reward obtained. The agent objective is to maximize this reward. Various issues such as three-dimensional locomotion and electronic games have been addressed by reinforcement learning (KURACH et al., 2019). The Trainament of agents for a soccer game usually has sparse rewards, what slows learning (MATIISEN et al., 2019). One technique that can solve this obstacle is the curriculum learning proposed in (BENGIO et al., 2009). This technique use simplest tasks of the main task and the increase difficult level with the time. In This work we present two curriculum, identified as 5-15-30-50 e 3-10-20-67, for the scenario Run To Score With Keeper of Football Academy. We have shown that curriculums on average achieved better results compared to training only in the main scenario, without curriculum. Curriculum 3-10-20-67 achieved a better result even considering the pattern deviation.BrasilSampaio, Pablo Azevedohttp://lattes.cnpq.br/6846637095187550http://lattes.cnpq.br/8865836949700771Filho, Valmir Macariohttp://lattes.cnpq.br/4346898674852080Silva, Jonatan Washington Pereira da2023-02-14T16:25:32Z2023-02-14T16:25:32Z2019-12-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis49 f.application/pdfSILVA, Jonatan Washington Pereira da. Um Currículo de Aprendizado por Reforço para o Cenário “Run to Score with Keeper” do Google Research Football Environment. 2019. 49 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2019.https://repository.ufrpe.br/handle/123456789/3954porAtribuição-SemDerivações 4.0 Internacional (CC BY-ND 4.0)https://creativecommons.org/licenses/by-nd/4.0/deed.ptopenAccessinfo:eu-repo/semantics/openAccessreponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)instname:Universidade Federal Rural de Pernambuco (UFRPE)instacron:UFRPE2023-02-14T16:25:39Zoai:dspace:123456789/3954Repositório InstitucionalPUBhttps://repository.ufrpe.br/oai/requestrepositorio.sib@ufrpe.bropendoar:https://v2.sherpa.ac.uk/id/repository/106122023-02-14T16:25:39Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)false
dc.title.none.fl_str_mv	Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment
title	Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment
spellingShingle	Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment Silva, Jonatan Washington Pereira da Markov, Processos de Redes neurais Algorítmos computacionais
title_short	Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment
title_full	Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment
title_fullStr	Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment
title_full_unstemmed	Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment
title_sort	Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment
author	Silva, Jonatan Washington Pereira da
author_facet	Silva, Jonatan Washington Pereira da
author_role	author
dc.contributor.none.fl_str_mv	Sampaio, Pablo Azevedo http://lattes.cnpq.br/6846637095187550 http://lattes.cnpq.br/8865836949700771 Filho, Valmir Macario http://lattes.cnpq.br/4346898674852080
dc.contributor.author.fl_str_mv	Silva, Jonatan Washington Pereira da
dc.subject.por.fl_str_mv	Markov, Processos de Redes neurais Algorítmos computacionais
topic	Markov, Processos de Redes neurais Algorítmos computacionais
description	O aprendizado por reforço é um conjunto de técnicas que permitem a um agente interagir com um determinado ambiente. Os agentes observam o estado do ambiente e executam uma ação, a ação é avaliada por meio de uma recompensa obtida. O agente tem como objetivo maximizar esta recompensa. Diversas questões como: locomoção em três dimensões e jogos eletrônicos foram abordados pelo aprendizado por reforço (KURACH et al., 2019). O treinamento de agentes para um jogo de futebol normalmente possui recompensas esparsas, o que retarda o aprendizado (MATIISEN et al., 2019). Uma técnica que pode contornar este obstaculo é o aprendizado por currículo proposto em (BENGIO et al., 2009). O aprendizado por currículo é uma técnica que aborda sub-tarefas mais simples da tarefa principal e aumenta gradativamente o nível de dificuldade ao longo do tempo. Neste trabalho apresentamos dois currículos, identificados como: 5-15-30-50 e 3-10-20-67, para o cenário Run to Score with Keeper da Football Academy. Mostramos que os currículos, em média, obtiveram melhores resultados se comparados ao treinamento apenas no cenário principal, sem currículo. O currículo 3-10-20-67 obteve um melhor resultado mesmo considerando o desvio padrão.
publishDate	2019
dc.date.none.fl_str_mv	2019-12-10 2023-02-14T16:25:32Z 2023-02-14T16:25:32Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	SILVA, Jonatan Washington Pereira da. Um Currículo de Aprendizado por Reforço para o Cenário “Run to Score with Keeper” do Google Research Football Environment. 2019. 49 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2019. https://repository.ufrpe.br/handle/123456789/3954
identifier_str_mv	SILVA, Jonatan Washington Pereira da. Um Currículo de Aprendizado por Reforço para o Cenário “Run to Score with Keeper” do Google Research Football Environment. 2019. 49 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2019.
url	https://repository.ufrpe.br/handle/123456789/3954
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Atribuição-SemDerivações 4.0 Internacional (CC BY-ND 4.0) https://creativecommons.org/licenses/by-nd/4.0/deed.pt openAccess info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Atribuição-SemDerivações 4.0 Internacional (CC BY-ND 4.0) https://creativecommons.org/licenses/by-nd/4.0/deed.pt openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	49 f. application/pdf
dc.publisher.none.fl_str_mv	Brasil
publisher.none.fl_str_mv	Brasil
dc.source.none.fl_str_mv	reponame:Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) instname:Universidade Federal Rural de Pernambuco (UFRPE) instacron:UFRPE
instname_str	Universidade Federal Rural de Pernambuco (UFRPE)
instacron_str	UFRPE
institution	UFRPE
reponame_str	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
collection	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE)
repository.name.fl_str_mv	Repositório institucional da Universidade Federal Rural de Pernambuco (UFRPE) (RI-UFRPE) - Universidade Federal Rural de Pernambuco (UFRPE)
repository.mail.fl_str_mv	repositorio.sib@ufrpe.br
_version_	1798417314219032576

Um currículo de aprendizado por reforço para o cenário “Run to Score with Keeper” do Google Research Football Environment

Registros relacionados