Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos

Detalhes bibliográficos
Autor(a) principal: Cano, Lyang Higa
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRJ
Texto Completo: http://hdl.handle.net/11422/18241
Resumo: A Inteligência Artificial tem se tornado cada vez mais importante no mundo atual e o Aprendizado por Reforço tem ocupado uma área de destaque. No entanto, ainda há diversos problemas em aberto, como o problema de Convergência de Política Ótima, que ocorre ao combinar três elementos essenciais, o Bootstrapping, a metodologia Off-Policy e os Aproximadores Não Lineares. Até que o Artigo Human Level Control Through Deep Reinforcement Learning [1] do grupo de pesquisa Deep Mind propõem uma nova abordagem que consegue contornar tal problema. Este trabalho tem como objetivo apresentar cada um destes três elementos, apresentar o Problema de Convergência de Política Ótima, verificar a abordagem proposta pelo Artigo [1], realizar um novo teste e avaliar se tal proposta é realmente eficaz. A contribuição deste trabalho consiste primeiramente na revisão bibliográfica deste tema, que é extenso e complexo, numa análise profunda do Artigo [1], especialmento do Algoritmo Deep Q-Network, e por fim em uma nova avaliação através de experimentos em um ambiente diferente dos utilizados no Artigo
id UFRJ_c99a1f986bbb4bc7a262242684c7f654
oai_identifier_str oai:pantheon.ufrj.br:11422/18241
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicosReinforcement learning with non-linear approximants applied to electronic gamesAprendizado Por ReforçoIACNPQ::ENGENHARIASA Inteligência Artificial tem se tornado cada vez mais importante no mundo atual e o Aprendizado por Reforço tem ocupado uma área de destaque. No entanto, ainda há diversos problemas em aberto, como o problema de Convergência de Política Ótima, que ocorre ao combinar três elementos essenciais, o Bootstrapping, a metodologia Off-Policy e os Aproximadores Não Lineares. Até que o Artigo Human Level Control Through Deep Reinforcement Learning [1] do grupo de pesquisa Deep Mind propõem uma nova abordagem que consegue contornar tal problema. Este trabalho tem como objetivo apresentar cada um destes três elementos, apresentar o Problema de Convergência de Política Ótima, verificar a abordagem proposta pelo Artigo [1], realizar um novo teste e avaliar se tal proposta é realmente eficaz. A contribuição deste trabalho consiste primeiramente na revisão bibliográfica deste tema, que é extenso e complexo, numa análise profunda do Artigo [1], especialmento do Algoritmo Deep Q-Network, e por fim em uma nova avaliação através de experimentos em um ambiente diferente dos utilizados no ArtigoUniversidade Federal do Rio de JaneiroBrasilEscola PolitécnicaUFRJEvsukof, Alexandre GonçalvesFigueiredo, Daniel RattonResende Junior, Fernando Gil ViannaCano, Lyang Higa2022-08-05T21:41:51Z2023-12-21T03:00:22Z2019-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesishttp://hdl.handle.net/11422/18241porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2023-12-21T03:00:22Zoai:pantheon.ufrj.br:11422/18241Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2023-12-21T03:00:22Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.none.fl_str_mv Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos
Reinforcement learning with non-linear approximants applied to electronic games
title Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos
spellingShingle Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos
Cano, Lyang Higa
Aprendizado Por Reforço
IA
CNPQ::ENGENHARIAS
title_short Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos
title_full Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos
title_fullStr Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos
title_full_unstemmed Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos
title_sort Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos
author Cano, Lyang Higa
author_facet Cano, Lyang Higa
author_role author
dc.contributor.none.fl_str_mv Evsukof, Alexandre Gonçalves
Figueiredo, Daniel Ratton
Resende Junior, Fernando Gil Vianna
dc.contributor.author.fl_str_mv Cano, Lyang Higa
dc.subject.por.fl_str_mv Aprendizado Por Reforço
IA
CNPQ::ENGENHARIAS
topic Aprendizado Por Reforço
IA
CNPQ::ENGENHARIAS
description A Inteligência Artificial tem se tornado cada vez mais importante no mundo atual e o Aprendizado por Reforço tem ocupado uma área de destaque. No entanto, ainda há diversos problemas em aberto, como o problema de Convergência de Política Ótima, que ocorre ao combinar três elementos essenciais, o Bootstrapping, a metodologia Off-Policy e os Aproximadores Não Lineares. Até que o Artigo Human Level Control Through Deep Reinforcement Learning [1] do grupo de pesquisa Deep Mind propõem uma nova abordagem que consegue contornar tal problema. Este trabalho tem como objetivo apresentar cada um destes três elementos, apresentar o Problema de Convergência de Política Ótima, verificar a abordagem proposta pelo Artigo [1], realizar um novo teste e avaliar se tal proposta é realmente eficaz. A contribuição deste trabalho consiste primeiramente na revisão bibliográfica deste tema, que é extenso e complexo, numa análise profunda do Artigo [1], especialmento do Algoritmo Deep Q-Network, e por fim em uma nova avaliação através de experimentos em um ambiente diferente dos utilizados no Artigo
publishDate 2019
dc.date.none.fl_str_mv 2019-08
2022-08-05T21:41:51Z
2023-12-21T03:00:22Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/18241
url http://hdl.handle.net/11422/18241
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Escola Politécnica
UFRJ
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
Brasil
Escola Politécnica
UFRJ
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv pantheon@sibi.ufrj.br
_version_ 1815456018950258688