Evolution of reward functions for reinforcement learning applied to stealth games
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFJF |
Texto Completo: | https://repositorio.ufjf.br/jspui/handle/ufjf/4771 |
Resumo: | Muitos jogos modernos apresentam elementos que permitem que o jogador complete certos objetivos sem ser visto pelos inimigos. Isso culminou no surgimento de um novo gênero chamado de jogos furtivos, onde a furtividade é essencial. Embora elementos de furtividade sejam muito comuns em jogos modernos, este tema não tem sido estudado extensivamente. Este trabalho aborda três problemas distintos: (i) como utilizar uma abordagem por aprendizado de máquinas de forma a permitir que o agente furtivo aprenda como se comportar adequadamente em qualquer ambiente, (ii) criar um método eficiente para planejamento de caminhos furtivos que possa ser acoplado à nossa formulação por aprendizado de máquinas e (iii) como usar computação evolutiva de forma a definir certos parâmetros para nossa abordagem por aprendizado de máquinas. É utilizado aprendizado por reforço para aprender bons comportamentos que sejam capazes de atingir uma alta taxa de sucesso em testes aleatórios de um jogo furtivo. Também é proposto uma abor dagem evolucionária capaz de definir automaticamente uma boa função de reforço para a abordagem por aprendizado por reforço. |
id |
UFJF_50834933f1b0b44cad4bddc58b38057f |
---|---|
oai_identifier_str |
oai:hermes.cpd.ufjf.br:ufjf/4771 |
network_acronym_str |
UFJF |
network_name_str |
Repositório Institucional da UFJF |
repository_id_str |
|
spelling |
Fonseca Neto, Raulhttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4786482Y2Bernardino, Heder Soareshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4742940J5Oliveira, Rafael Sachettohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4742505E2Leite, Saul de Castrohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4758014Z7http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4493090P0Mendonça, Matheus Ribeiro Furtado de2017-05-31T12:42:30Z2017-05-312017-05-31T12:42:30Z2016https://repositorio.ufjf.br/jspui/handle/ufjf/4771Muitos jogos modernos apresentam elementos que permitem que o jogador complete certos objetivos sem ser visto pelos inimigos. Isso culminou no surgimento de um novo gênero chamado de jogos furtivos, onde a furtividade é essencial. Embora elementos de furtividade sejam muito comuns em jogos modernos, este tema não tem sido estudado extensivamente. Este trabalho aborda três problemas distintos: (i) como utilizar uma abordagem por aprendizado de máquinas de forma a permitir que o agente furtivo aprenda como se comportar adequadamente em qualquer ambiente, (ii) criar um método eficiente para planejamento de caminhos furtivos que possa ser acoplado à nossa formulação por aprendizado de máquinas e (iii) como usar computação evolutiva de forma a definir certos parâmetros para nossa abordagem por aprendizado de máquinas. É utilizado aprendizado por reforço para aprender bons comportamentos que sejam capazes de atingir uma alta taxa de sucesso em testes aleatórios de um jogo furtivo. Também é proposto uma abor dagem evolucionária capaz de definir automaticamente uma boa função de reforço para a abordagem por aprendizado por reforço.Many modern games present stealth elements that allow the player to accomplish a certain objective without being spotted by enemy patrols. This gave rise to a new genre called stealth games, where covertness plays a major role. Although quite popular in modern games, stealthy behaviors has not been extensively studied. In this work, we tackle three different problems: (i) how to use a machine learning approach in order to allow the stealthy agent to learn good behaviors for any environment, (ii) create an efficient stealthy path planning method that can be coupled with our machine learning formulation, and (iii) how to use evolutionary computing in order to define specific parameters for our machine learning approach without any prior knowledge of the problem. We use Reinforcement Learning in order to learn good covert behavior capable of achieving a high success rate in random trials of a stealth game. We also propose an evolutionary approach that is capable of automatically defining a good reward function for our reinforcement learning approach.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Juiz de Fora (UFJF)Programa de Pós-graduação em Ciência da ComputaçãoUFJFBrasilICE – Instituto de Ciências ExatasCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOPlanejamento de caminhos furtivosAprendizado por reforçoAlgoritmos genéticosEvolução de funções de reforçoStealthy Path PlanningReinforcement LeaningGenetic AlgorithmsEvolution of Reward FunctionsEvolution of reward functions for reinforcement learning applied to stealth gamesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFTEXTmatheusribeirofurtadodemendonca.pdf.txtmatheusribeirofurtadodemendonca.pdf.txtExtracted texttext/plain172718https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/3/matheusribeirofurtadodemendonca.pdf.txt18dc0b4b7a82408b7f3fb46131c58bf8MD53THUMBNAILmatheusribeirofurtadodemendonca.pdf.jpgmatheusribeirofurtadodemendonca.pdf.jpgGenerated Thumbnailimage/jpeg1265https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/4/matheusribeirofurtadodemendonca.pdf.jpgf6c27ed4cbf18fd64fa23b9c8059b146MD54ORIGINALmatheusribeirofurtadodemendonca.pdfmatheusribeirofurtadodemendonca.pdfapplication/pdf1083096https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/1/matheusribeirofurtadodemendonca.pdfbb42372f22411bc93823b92e7361a490MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82197https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/2/license.txt000e18a5aee6ca21bb5811ddf55fc37bMD52ufjf/47712019-06-16 06:11:20.009oai:hermes.cpd.ufjf.br:ufjf/4771TElDRU7vv71BIERFIERJU1RSSUJVSe+/ve+/vU8gTu+/vU8tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHvv73vv71vIGRlc3RhIGxpY2Vu77+9YSwgdm9j77+9IChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l077+9cmlvIApJbnN0aXR1Y2lvbmFsIGRhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIEp1aXogZGUgRm9yYSBvIGRpcmVpdG8gbu+/vW8tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYe+/ve+/vW8gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLvv71uaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIO+/vXVkaW8gb3Ugdu+/vWRlby4KClZvY++/vSBjb25jb3JkYSBxdWUgbyBSZXBvc2l077+9cmlvIEluc3RpdHVjaW9uYWwgZGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgSnVpeiBkZSBGb3JhIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXvv71kbywgdHJhbnNwb3IgYSBzdWEgcHVibGljYe+/ve+/vW8gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZh77+977+9by4gVm9j77+9IHRhbWLvv71tIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTvv71yaW8gSW5zdGl0dWNpb25hbCBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBKdWl6IGRlIEZvcmEgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY++/vXBpYSBkZSBzdWEgcHVibGljYe+/ve+/vW8gcGFyYSBmaW5zIGRlIHNlZ3VyYW7vv71hLCBiYWNrLXVwIGUgcHJlc2VydmHvv73vv71vLiBWb2Pvv70gZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYe+/ve+/vW8g77+9IG9yaWdpbmFsIGUgcXVlIHZvY++/vSB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbu+/vWEuIFZvY++/vSB0YW1i77+9bSBkZWNsYXJhIHF1ZSBvIGRlcO+/vXNpdG8gZGEgc3VhIHB1YmxpY2Hvv73vv71vIG7vv71vLCBxdWUgc2VqYSBkZSBzZXUgY29uaGVjaW1lbnRvLCBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyBkZSBuaW5nde+/vW0uCgpDYXNvIGEgc3VhIHB1YmxpY2Hvv73vv71vIGNvbnRlbmhhIG1hdGVyaWFsIHF1ZSB2b2Pvv70gbu+/vW8gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9j77+9IGRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3Pvv71vIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdO+/vXJpbyBJbnN0aXR1Y2lvbmFsIGRhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIEp1aXogZGUgRm9yYSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7vv71hLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3Tvv70gY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250Ze+/vWRvIGRhIHB1YmxpY2Hvv73vv71vIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0Hvv73vv71PIE9SQSBERVBPU0lUQURBIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ++/vU5JTyBPVSBBUE9JTyBERSBVTUEgQUfvv71OQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0Pvv70gREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklT77+9TyBDT01PIFRBTULvv71NIEFTIERFTUFJUyBPQlJJR0Hvv73vv71FUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKTyBSZXBvc2l077+9cmlvIEluc3RpdHVjaW9uYWwgZGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgSnVpeiBkZSBGb3JhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHB1YmxpY2Hvv73vv71vLCBlIG7vv71vIGZhcu+/vSBxdWFscXVlciBhbHRlcmHvv73vv71vLCBhbO+/vW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbu+/vWEuCg==Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2019-06-16T09:11:20Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false |
dc.title.pt_BR.fl_str_mv |
Evolution of reward functions for reinforcement learning applied to stealth games |
title |
Evolution of reward functions for reinforcement learning applied to stealth games |
spellingShingle |
Evolution of reward functions for reinforcement learning applied to stealth games Mendonça, Matheus Ribeiro Furtado de CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Planejamento de caminhos furtivos Aprendizado por reforço Algoritmos genéticos Evolução de funções de reforço Stealthy Path Planning Reinforcement Leaning Genetic Algorithms Evolution of Reward Functions |
title_short |
Evolution of reward functions for reinforcement learning applied to stealth games |
title_full |
Evolution of reward functions for reinforcement learning applied to stealth games |
title_fullStr |
Evolution of reward functions for reinforcement learning applied to stealth games |
title_full_unstemmed |
Evolution of reward functions for reinforcement learning applied to stealth games |
title_sort |
Evolution of reward functions for reinforcement learning applied to stealth games |
author |
Mendonça, Matheus Ribeiro Furtado de |
author_facet |
Mendonça, Matheus Ribeiro Furtado de |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Fonseca Neto, Raul |
dc.contributor.advisor1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4786482Y2 |
dc.contributor.advisor-co1.fl_str_mv |
Bernardino, Heder Soares |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4742940J5 |
dc.contributor.referee1.fl_str_mv |
Oliveira, Rafael Sachetto |
dc.contributor.referee1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4742505E2 |
dc.contributor.referee2.fl_str_mv |
Leite, Saul de Castro |
dc.contributor.referee2Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4758014Z7 |
dc.contributor.authorLattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4493090P0 |
dc.contributor.author.fl_str_mv |
Mendonça, Matheus Ribeiro Furtado de |
contributor_str_mv |
Fonseca Neto, Raul Bernardino, Heder Soares Oliveira, Rafael Sachetto Leite, Saul de Castro |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Planejamento de caminhos furtivos Aprendizado por reforço Algoritmos genéticos Evolução de funções de reforço Stealthy Path Planning Reinforcement Leaning Genetic Algorithms Evolution of Reward Functions |
dc.subject.por.fl_str_mv |
Planejamento de caminhos furtivos Aprendizado por reforço Algoritmos genéticos Evolução de funções de reforço Stealthy Path Planning Reinforcement Leaning Genetic Algorithms Evolution of Reward Functions |
description |
Muitos jogos modernos apresentam elementos que permitem que o jogador complete certos objetivos sem ser visto pelos inimigos. Isso culminou no surgimento de um novo gênero chamado de jogos furtivos, onde a furtividade é essencial. Embora elementos de furtividade sejam muito comuns em jogos modernos, este tema não tem sido estudado extensivamente. Este trabalho aborda três problemas distintos: (i) como utilizar uma abordagem por aprendizado de máquinas de forma a permitir que o agente furtivo aprenda como se comportar adequadamente em qualquer ambiente, (ii) criar um método eficiente para planejamento de caminhos furtivos que possa ser acoplado à nossa formulação por aprendizado de máquinas e (iii) como usar computação evolutiva de forma a definir certos parâmetros para nossa abordagem por aprendizado de máquinas. É utilizado aprendizado por reforço para aprender bons comportamentos que sejam capazes de atingir uma alta taxa de sucesso em testes aleatórios de um jogo furtivo. Também é proposto uma abor dagem evolucionária capaz de definir automaticamente uma boa função de reforço para a abordagem por aprendizado por reforço. |
publishDate |
2016 |
dc.date.issued.fl_str_mv |
2016 |
dc.date.accessioned.fl_str_mv |
2017-05-31T12:42:30Z |
dc.date.available.fl_str_mv |
2017-05-31 2017-05-31T12:42:30Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufjf.br/jspui/handle/ufjf/4771 |
url |
https://repositorio.ufjf.br/jspui/handle/ufjf/4771 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Juiz de Fora (UFJF) |
dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
UFJF |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
ICE – Instituto de Ciências Exatas |
publisher.none.fl_str_mv |
Universidade Federal de Juiz de Fora (UFJF) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFJF instname:Universidade Federal de Juiz de Fora (UFJF) instacron:UFJF |
instname_str |
Universidade Federal de Juiz de Fora (UFJF) |
instacron_str |
UFJF |
institution |
UFJF |
reponame_str |
Repositório Institucional da UFJF |
collection |
Repositório Institucional da UFJF |
bitstream.url.fl_str_mv |
https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/3/matheusribeirofurtadodemendonca.pdf.txt https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/4/matheusribeirofurtadodemendonca.pdf.jpg https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/1/matheusribeirofurtadodemendonca.pdf https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/2/license.txt |
bitstream.checksum.fl_str_mv |
18dc0b4b7a82408b7f3fb46131c58bf8 f6c27ed4cbf18fd64fa23b9c8059b146 bb42372f22411bc93823b92e7361a490 000e18a5aee6ca21bb5811ddf55fc37b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF) |
repository.mail.fl_str_mv |
|
_version_ |
1801661409858158592 |