Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRJ |
Texto Completo: | http://hdl.handle.net/11422/18241 |
Resumo: | A Inteligência Artificial tem se tornado cada vez mais importante no mundo atual e o Aprendizado por Reforço tem ocupado uma área de destaque. No entanto, ainda há diversos problemas em aberto, como o problema de Convergência de Política Ótima, que ocorre ao combinar três elementos essenciais, o Bootstrapping, a metodologia Off-Policy e os Aproximadores Não Lineares. Até que o Artigo Human Level Control Through Deep Reinforcement Learning [1] do grupo de pesquisa Deep Mind propõem uma nova abordagem que consegue contornar tal problema. Este trabalho tem como objetivo apresentar cada um destes três elementos, apresentar o Problema de Convergência de Política Ótima, verificar a abordagem proposta pelo Artigo [1], realizar um novo teste e avaliar se tal proposta é realmente eficaz. A contribuição deste trabalho consiste primeiramente na revisão bibliográfica deste tema, que é extenso e complexo, numa análise profunda do Artigo [1], especialmento do Algoritmo Deep Q-Network, e por fim em uma nova avaliação através de experimentos em um ambiente diferente dos utilizados no Artigo |
id |
UFRJ_c99a1f986bbb4bc7a262242684c7f654 |
---|---|
oai_identifier_str |
oai:pantheon.ufrj.br:11422/18241 |
network_acronym_str |
UFRJ |
network_name_str |
Repositório Institucional da UFRJ |
repository_id_str |
|
spelling |
Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicosReinforcement learning with non-linear approximants applied to electronic gamesAprendizado Por ReforçoIACNPQ::ENGENHARIASA Inteligência Artificial tem se tornado cada vez mais importante no mundo atual e o Aprendizado por Reforço tem ocupado uma área de destaque. No entanto, ainda há diversos problemas em aberto, como o problema de Convergência de Política Ótima, que ocorre ao combinar três elementos essenciais, o Bootstrapping, a metodologia Off-Policy e os Aproximadores Não Lineares. Até que o Artigo Human Level Control Through Deep Reinforcement Learning [1] do grupo de pesquisa Deep Mind propõem uma nova abordagem que consegue contornar tal problema. Este trabalho tem como objetivo apresentar cada um destes três elementos, apresentar o Problema de Convergência de Política Ótima, verificar a abordagem proposta pelo Artigo [1], realizar um novo teste e avaliar se tal proposta é realmente eficaz. A contribuição deste trabalho consiste primeiramente na revisão bibliográfica deste tema, que é extenso e complexo, numa análise profunda do Artigo [1], especialmento do Algoritmo Deep Q-Network, e por fim em uma nova avaliação através de experimentos em um ambiente diferente dos utilizados no ArtigoUniversidade Federal do Rio de JaneiroBrasilEscola PolitécnicaUFRJEvsukof, Alexandre GonçalvesFigueiredo, Daniel RattonResende Junior, Fernando Gil ViannaCano, Lyang Higa2022-08-05T21:41:51Z2023-12-21T03:00:22Z2019-08info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesishttp://hdl.handle.net/11422/18241porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJ2023-12-21T03:00:22Zoai:pantheon.ufrj.br:11422/18241Repositório InstitucionalPUBhttp://www.pantheon.ufrj.br/oai/requestpantheon@sibi.ufrj.bropendoar:2023-12-21T03:00:22Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false |
dc.title.none.fl_str_mv |
Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos Reinforcement learning with non-linear approximants applied to electronic games |
title |
Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos |
spellingShingle |
Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos Cano, Lyang Higa Aprendizado Por Reforço IA CNPQ::ENGENHARIAS |
title_short |
Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos |
title_full |
Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos |
title_fullStr |
Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos |
title_full_unstemmed |
Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos |
title_sort |
Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos |
author |
Cano, Lyang Higa |
author_facet |
Cano, Lyang Higa |
author_role |
author |
dc.contributor.none.fl_str_mv |
Evsukof, Alexandre Gonçalves Figueiredo, Daniel Ratton Resende Junior, Fernando Gil Vianna |
dc.contributor.author.fl_str_mv |
Cano, Lyang Higa |
dc.subject.por.fl_str_mv |
Aprendizado Por Reforço IA CNPQ::ENGENHARIAS |
topic |
Aprendizado Por Reforço IA CNPQ::ENGENHARIAS |
description |
A Inteligência Artificial tem se tornado cada vez mais importante no mundo atual e o Aprendizado por Reforço tem ocupado uma área de destaque. No entanto, ainda há diversos problemas em aberto, como o problema de Convergência de Política Ótima, que ocorre ao combinar três elementos essenciais, o Bootstrapping, a metodologia Off-Policy e os Aproximadores Não Lineares. Até que o Artigo Human Level Control Through Deep Reinforcement Learning [1] do grupo de pesquisa Deep Mind propõem uma nova abordagem que consegue contornar tal problema. Este trabalho tem como objetivo apresentar cada um destes três elementos, apresentar o Problema de Convergência de Política Ótima, verificar a abordagem proposta pelo Artigo [1], realizar um novo teste e avaliar se tal proposta é realmente eficaz. A contribuição deste trabalho consiste primeiramente na revisão bibliográfica deste tema, que é extenso e complexo, numa análise profunda do Artigo [1], especialmento do Algoritmo Deep Q-Network, e por fim em uma nova avaliação através de experimentos em um ambiente diferente dos utilizados no Artigo |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-08 2022-08-05T21:41:51Z 2023-12-21T03:00:22Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11422/18241 |
url |
http://hdl.handle.net/11422/18241 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Escola Politécnica UFRJ |
publisher.none.fl_str_mv |
Universidade Federal do Rio de Janeiro Brasil Escola Politécnica UFRJ |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ |
instname_str |
Universidade Federal do Rio de Janeiro (UFRJ) |
instacron_str |
UFRJ |
institution |
UFRJ |
reponame_str |
Repositório Institucional da UFRJ |
collection |
Repositório Institucional da UFRJ |
repository.name.fl_str_mv |
Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ) |
repository.mail.fl_str_mv |
pantheon@sibi.ufrj.br |
_version_ |
1815456018950258688 |