Aprendizado por reforço assistido por imitação para jogos digitais

Souza, Felipe Rafael de

Aprendizado por reforço assistido por imitação para jogos digitais

Detalhes bibliográficos
Autor(a) principal:	Souza, Felipe Rafael de
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFJF
Texto Completo:	https://repositorio.ufjf.br/jspui/handle/ufjf/15482
Resumo:	O Aprendizado por Reforço (RL) e o Aprendizado por Imitação (IL) são ramos da Inteligência Artificial que possibilitam o aprendizado através da interação com o ambiente e através da observação de exemplos, respectivamente. Eles possuem aplicações em diversas áreas, tais como: veículos autônomos, controle de robôs e jogos. Os jogos são amplamente utilizados para testar o desempenho de modelos de Aprendizado por Reforço, geralmente utilizando redes neurais profundas, pois proporcionam um ambiente controlado capaz de expor o modelo à uma ampla variedade de problemas e contextos. Dessa forma, o presente trabalho tem como objetivo propor modelos de controle para o jogo Sonic The Hedgehog utilizando Aprendizado por Imitação e Aprendizado por Reforço Profundo. Além disso, busca-se analisar o desempenho de modelos de imitação baseados em estratégias adversariais, investigar o impacto da imitação no comportamento e desempenho do modelo, e verificar se o Aprendizado por Imitação pode ser uma alternativa viável à criação de funções de recompensa. Foram realizados experimentos comparando diversos métodos de IL, a fim de verificar se o mesmo seria capaz de gerar bons controladores para o jogo. Em seguida, os métodos de IL de clonagem comportamental, Aprendizado por Imitação Generativo Adversarial e Aprendizado por Reforço Inverso Adversarial foram utilizados para iniciar o RL, com a hipótese de que o conhecimento prévio de domínio disponibilizado pela imitação auxilie o modelo a atingir melhores resultados. Os resultados obtidos mostraram que o IL pode ser utilizado para gerar controladores de jogos digitais e que a inicialização da etapa de RL com o Aprendizado por Imitação pode ajudar o modelo a obter melhor desempenho.

Metadados do item

id	UFJF_d4318f5b7e9904d4fdc8952b774b6295
oai_identifier_str	oai:hermes.cpd.ufjf.br:ufjf/15482
network_acronym_str	UFJF
network_name_str	Repositório Institucional da UFJF
repository_id_str
spelling	Bernardino, Heder Soareshttp://buscatextual.cnpq.br/buscatextual/busca.doFonseca, Leonardo Goliatt daSilva, Eduardo Krempser dahttp://buscatextual.cnpq.br/buscatextual/busca.dohttp://buscatextual.cnpq.br/buscatextual/busca.doSouza, Felipe Rafael de2023-06-07T13:42:55Z2023-06-072023-06-07T13:42:55Z2023-03-15https://repositorio.ufjf.br/jspui/handle/ufjf/15482O Aprendizado por Reforço (RL) e o Aprendizado por Imitação (IL) são ramos da Inteligência Artificial que possibilitam o aprendizado através da interação com o ambiente e através da observação de exemplos, respectivamente. Eles possuem aplicações em diversas áreas, tais como: veículos autônomos, controle de robôs e jogos. Os jogos são amplamente utilizados para testar o desempenho de modelos de Aprendizado por Reforço, geralmente utilizando redes neurais profundas, pois proporcionam um ambiente controlado capaz de expor o modelo à uma ampla variedade de problemas e contextos. Dessa forma, o presente trabalho tem como objetivo propor modelos de controle para o jogo Sonic The Hedgehog utilizando Aprendizado por Imitação e Aprendizado por Reforço Profundo. Além disso, busca-se analisar o desempenho de modelos de imitação baseados em estratégias adversariais, investigar o impacto da imitação no comportamento e desempenho do modelo, e verificar se o Aprendizado por Imitação pode ser uma alternativa viável à criação de funções de recompensa. Foram realizados experimentos comparando diversos métodos de IL, a fim de verificar se o mesmo seria capaz de gerar bons controladores para o jogo. Em seguida, os métodos de IL de clonagem comportamental, Aprendizado por Imitação Generativo Adversarial e Aprendizado por Reforço Inverso Adversarial foram utilizados para iniciar o RL, com a hipótese de que o conhecimento prévio de domínio disponibilizado pela imitação auxilie o modelo a atingir melhores resultados. Os resultados obtidos mostraram que o IL pode ser utilizado para gerar controladores de jogos digitais e que a inicialização da etapa de RL com o Aprendizado por Imitação pode ajudar o modelo a obter melhor desempenho.Reinforcement Learning (RL) and Imitation Learning (IL) are branches of Artificial Intelligence that enable learning through interaction with the environment and through observation of examples, respectively. They have applications in several areas, such as: autonomous vehicles, robot control and games. Games are widely used to test the performance of Reinforcement Learning models, usually using deep neural networks, as they provide a controlled environment capable of exposing the model to a wide variety of problems and contexts. Thus, the present work aims to propose control models for the game Sonic The Hedgehog using Imitation Learning and Deep Reinforcement Learning. In addition, we seek to analyze the performance of imitation models based on adversarial strategies, investigate the impact of imitation on the model’s behavior and performance, and verify whether Imitation Learning can be a viable alternative to creating reward functions. Experiments were carried out comparing different IL methods, in order to verify if it would be able to generate good controllers for the game. Then, the IL methods of behavioral cloning, Adversarial Generative Imitation Learning and Adversarial Inverse Reinforcement Learning were used to start the RL, with the hypothesis that the prior domain knowledge provided by imitation helps the model to achieve better results. The obtained results showed that the IL can be used to generate digital game controllers and that the initialization of the RL step with Imitation Learning can help the model to obtain better performance.porUniversidade Federal de Juiz de Fora (UFJF)Programa de Pós-graduação em Modelagem ComputacionalUFJFBrasilICE – Instituto de Ciências ExatasAttribution 3.0 Brazilhttp://creativecommons.org/licenses/by/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRAAprendizado por reforço profundoRedes neurais convolucionaisRedes neurais adversariaisAprendizado por imitaçãoAprendizado por reforço inversoOtimização de política proximalDeep reinforcement learningConvolutional neural networksAdversarial neural networksImitation learningInverse reinforcement learningProximal policy optimizationAprendizado por reforço assistido por imitação para jogos digitaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://repositorio.ufjf.br/jspui/bitstream/ufjf/15482/2/license_rdf4d2950bda3d176f570a9f8b328dfbbefMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufjf.br/jspui/bitstream/ufjf/15482/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53ORIGINALfeliperafaeldesouza.pdffeliperafaeldesouza.pdfapplication/pdf2831407https://repositorio.ufjf.br/jspui/bitstream/ufjf/15482/1/feliperafaeldesouza.pdfd146e9c11d7500dd918b0017806ed3e1MD51TEXTfeliperafaeldesouza.pdf.txtfeliperafaeldesouza.pdf.txtExtracted texttext/plain132370https://repositorio.ufjf.br/jspui/bitstream/ufjf/15482/4/feliperafaeldesouza.pdf.txt7e64c0ede615f2b82191e026b99ab2c3MD54THUMBNAILfeliperafaeldesouza.pdf.jpgfeliperafaeldesouza.pdf.jpgGenerated Thumbnailimage/jpeg1189https://repositorio.ufjf.br/jspui/bitstream/ufjf/15482/5/feliperafaeldesouza.pdf.jpg560e8306b874f45a1ef615af15f628d4MD55ufjf/154822023-06-08 03:13:43.836oai:hermes.cpd.ufjf.br:ufjf/15482Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2023-06-08T06:13:43Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false
dc.title.pt_BR.fl_str_mv	Aprendizado por reforço assistido por imitação para jogos digitais
title	Aprendizado por reforço assistido por imitação para jogos digitais
spellingShingle	Aprendizado por reforço assistido por imitação para jogos digitais Souza, Felipe Rafael de CNPQ::CIENCIAS EXATAS E DA TERRA Aprendizado por reforço profundo Redes neurais convolucionais Redes neurais adversariais Aprendizado por imitação Aprendizado por reforço inverso Otimização de política proximal Deep reinforcement learning Convolutional neural networks Adversarial neural networks Imitation learning Inverse reinforcement learning Proximal policy optimization
title_short	Aprendizado por reforço assistido por imitação para jogos digitais
title_full	Aprendizado por reforço assistido por imitação para jogos digitais
title_fullStr	Aprendizado por reforço assistido por imitação para jogos digitais
title_full_unstemmed	Aprendizado por reforço assistido por imitação para jogos digitais
title_sort	Aprendizado por reforço assistido por imitação para jogos digitais
author	Souza, Felipe Rafael de
author_facet	Souza, Felipe Rafael de
author_role	author
dc.contributor.advisor1.fl_str_mv	Bernardino, Heder Soares
dc.contributor.advisor1Lattes.fl_str_mv	http://buscatextual.cnpq.br/buscatextual/busca.do
dc.contributor.referee1.fl_str_mv	Fonseca, Leonardo Goliatt da
dc.contributor.referee2.fl_str_mv	Silva, Eduardo Krempser da
dc.contributor.referee2Lattes.fl_str_mv	http://buscatextual.cnpq.br/buscatextual/busca.do
dc.contributor.authorLattes.fl_str_mv	http://buscatextual.cnpq.br/buscatextual/busca.do
dc.contributor.author.fl_str_mv	Souza, Felipe Rafael de
contributor_str_mv	Bernardino, Heder Soares Fonseca, Leonardo Goliatt da Silva, Eduardo Krempser da
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA
topic	CNPQ::CIENCIAS EXATAS E DA TERRA Aprendizado por reforço profundo Redes neurais convolucionais Redes neurais adversariais Aprendizado por imitação Aprendizado por reforço inverso Otimização de política proximal Deep reinforcement learning Convolutional neural networks Adversarial neural networks Imitation learning Inverse reinforcement learning Proximal policy optimization
dc.subject.por.fl_str_mv	Aprendizado por reforço profundo Redes neurais convolucionais Redes neurais adversariais Aprendizado por imitação Aprendizado por reforço inverso Otimização de política proximal Deep reinforcement learning Convolutional neural networks Adversarial neural networks Imitation learning Inverse reinforcement learning Proximal policy optimization
description	O Aprendizado por Reforço (RL) e o Aprendizado por Imitação (IL) são ramos da Inteligência Artificial que possibilitam o aprendizado através da interação com o ambiente e através da observação de exemplos, respectivamente. Eles possuem aplicações em diversas áreas, tais como: veículos autônomos, controle de robôs e jogos. Os jogos são amplamente utilizados para testar o desempenho de modelos de Aprendizado por Reforço, geralmente utilizando redes neurais profundas, pois proporcionam um ambiente controlado capaz de expor o modelo à uma ampla variedade de problemas e contextos. Dessa forma, o presente trabalho tem como objetivo propor modelos de controle para o jogo Sonic The Hedgehog utilizando Aprendizado por Imitação e Aprendizado por Reforço Profundo. Além disso, busca-se analisar o desempenho de modelos de imitação baseados em estratégias adversariais, investigar o impacto da imitação no comportamento e desempenho do modelo, e verificar se o Aprendizado por Imitação pode ser uma alternativa viável à criação de funções de recompensa. Foram realizados experimentos comparando diversos métodos de IL, a fim de verificar se o mesmo seria capaz de gerar bons controladores para o jogo. Em seguida, os métodos de IL de clonagem comportamental, Aprendizado por Imitação Generativo Adversarial e Aprendizado por Reforço Inverso Adversarial foram utilizados para iniciar o RL, com a hipótese de que o conhecimento prévio de domínio disponibilizado pela imitação auxilie o modelo a atingir melhores resultados. Os resultados obtidos mostraram que o IL pode ser utilizado para gerar controladores de jogos digitais e que a inicialização da etapa de RL com o Aprendizado por Imitação pode ajudar o modelo a obter melhor desempenho.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-06-07T13:42:55Z
dc.date.available.fl_str_mv	2023-06-07 2023-06-07T13:42:55Z
dc.date.issued.fl_str_mv	2023-03-15
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufjf.br/jspui/handle/ufjf/15482
url	https://repositorio.ufjf.br/jspui/handle/ufjf/15482
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Juiz de Fora (UFJF)
dc.publisher.program.fl_str_mv	Programa de Pós-graduação em Modelagem Computacional
dc.publisher.initials.fl_str_mv	UFJF
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	ICE – Instituto de Ciências Exatas
publisher.none.fl_str_mv	Universidade Federal de Juiz de Fora (UFJF)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFJF instname:Universidade Federal de Juiz de Fora (UFJF) instacron:UFJF
instname_str	Universidade Federal de Juiz de Fora (UFJF)
instacron_str	UFJF
institution	UFJF
reponame_str	Repositório Institucional da UFJF
collection	Repositório Institucional da UFJF
bitstream.url.fl_str_mv	https://repositorio.ufjf.br/jspui/bitstream/ufjf/15482/2/license_rdf https://repositorio.ufjf.br/jspui/bitstream/ufjf/15482/3/license.txt https://repositorio.ufjf.br/jspui/bitstream/ufjf/15482/1/feliperafaeldesouza.pdf https://repositorio.ufjf.br/jspui/bitstream/ufjf/15482/4/feliperafaeldesouza.pdf.txt https://repositorio.ufjf.br/jspui/bitstream/ufjf/15482/5/feliperafaeldesouza.pdf.jpg
bitstream.checksum.fl_str_mv	4d2950bda3d176f570a9f8b328dfbbef 8a4605be74aa9ea9d79846c1fba20a33 d146e9c11d7500dd918b0017806ed3e1 7e64c0ede615f2b82191e026b99ab2c3 560e8306b874f45a1ef615af15f628d4
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)
repository.mail.fl_str_mv
_version_	1813193855176015872

Aprendizado por reforço assistido por imitação para jogos digitais

Registros relacionados