Evolution of reward functions for reinforcement learning applied to stealth games

Detalhes bibliográficos
Autor(a) principal: Mendonça, Matheus Ribeiro Furtado de
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFJF
Texto Completo: https://repositorio.ufjf.br/jspui/handle/ufjf/4771
Resumo: Muitos jogos modernos apresentam elementos que permitem que o jogador complete certos objetivos sem ser visto pelos inimigos. Isso culminou no surgimento de um novo gênero chamado de jogos furtivos, onde a furtividade é essencial. Embora elementos de furtividade sejam muito comuns em jogos modernos, este tema não tem sido estudado extensivamente. Este trabalho aborda três problemas distintos: (i) como utilizar uma abordagem por aprendizado de máquinas de forma a permitir que o agente furtivo aprenda como se comportar adequadamente em qualquer ambiente, (ii) criar um método eficiente para planejamento de caminhos furtivos que possa ser acoplado à nossa formulação por aprendizado de máquinas e (iii) como usar computação evolutiva de forma a definir certos parâmetros para nossa abordagem por aprendizado de máquinas. É utilizado aprendizado por reforço para aprender bons comportamentos que sejam capazes de atingir uma alta taxa de sucesso em testes aleatórios de um jogo furtivo. Também é proposto uma abor dagem evolucionária capaz de definir automaticamente uma boa função de reforço para a abordagem por aprendizado por reforço.
id UFJF_50834933f1b0b44cad4bddc58b38057f
oai_identifier_str oai:hermes.cpd.ufjf.br:ufjf/4771
network_acronym_str UFJF
network_name_str Repositório Institucional da UFJF
repository_id_str
spelling Fonseca Neto, Raulhttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4786482Y2Bernardino, Heder Soareshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4742940J5Oliveira, Rafael Sachettohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4742505E2Leite, Saul de Castrohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4758014Z7http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4493090P0Mendonça, Matheus Ribeiro Furtado de2017-05-31T12:42:30Z2017-05-312017-05-31T12:42:30Z2016https://repositorio.ufjf.br/jspui/handle/ufjf/4771Muitos jogos modernos apresentam elementos que permitem que o jogador complete certos objetivos sem ser visto pelos inimigos. Isso culminou no surgimento de um novo gênero chamado de jogos furtivos, onde a furtividade é essencial. Embora elementos de furtividade sejam muito comuns em jogos modernos, este tema não tem sido estudado extensivamente. Este trabalho aborda três problemas distintos: (i) como utilizar uma abordagem por aprendizado de máquinas de forma a permitir que o agente furtivo aprenda como se comportar adequadamente em qualquer ambiente, (ii) criar um método eficiente para planejamento de caminhos furtivos que possa ser acoplado à nossa formulação por aprendizado de máquinas e (iii) como usar computação evolutiva de forma a definir certos parâmetros para nossa abordagem por aprendizado de máquinas. É utilizado aprendizado por reforço para aprender bons comportamentos que sejam capazes de atingir uma alta taxa de sucesso em testes aleatórios de um jogo furtivo. Também é proposto uma abor dagem evolucionária capaz de definir automaticamente uma boa função de reforço para a abordagem por aprendizado por reforço.Many modern games present stealth elements that allow the player to accomplish a certain objective without being spotted by enemy patrols. This gave rise to a new genre called stealth games, where covertness plays a major role. Although quite popular in modern games, stealthy behaviors has not been extensively studied. In this work, we tackle three different problems: (i) how to use a machine learning approach in order to allow the stealthy agent to learn good behaviors for any environment, (ii) create an efficient stealthy path planning method that can be coupled with our machine learning formulation, and (iii) how to use evolutionary computing in order to define specific parameters for our machine learning approach without any prior knowledge of the problem. We use Reinforcement Learning in order to learn good covert behavior capable of achieving a high success rate in random trials of a stealth game. We also propose an evolutionary approach that is capable of automatically defining a good reward function for our reinforcement learning approach.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Federal de Juiz de Fora (UFJF)Programa de Pós-graduação em Ciência da ComputaçãoUFJFBrasilICE – Instituto de Ciências ExatasCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOPlanejamento de caminhos furtivosAprendizado por reforçoAlgoritmos genéticosEvolução de funções de reforçoStealthy Path PlanningReinforcement LeaningGenetic AlgorithmsEvolution of Reward FunctionsEvolution of reward functions for reinforcement learning applied to stealth gamesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFTEXTmatheusribeirofurtadodemendonca.pdf.txtmatheusribeirofurtadodemendonca.pdf.txtExtracted texttext/plain172718https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/3/matheusribeirofurtadodemendonca.pdf.txt18dc0b4b7a82408b7f3fb46131c58bf8MD53THUMBNAILmatheusribeirofurtadodemendonca.pdf.jpgmatheusribeirofurtadodemendonca.pdf.jpgGenerated Thumbnailimage/jpeg1265https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/4/matheusribeirofurtadodemendonca.pdf.jpgf6c27ed4cbf18fd64fa23b9c8059b146MD54ORIGINALmatheusribeirofurtadodemendonca.pdfmatheusribeirofurtadodemendonca.pdfapplication/pdf1083096https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/1/matheusribeirofurtadodemendonca.pdfbb42372f22411bc93823b92e7361a490MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82197https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/2/license.txt000e18a5aee6ca21bb5811ddf55fc37bMD52ufjf/47712019-06-16 06:11:20.009oai:hermes.cpd.ufjf.br:ufjf/4771TElDRU7vv71BIERFIERJU1RSSUJVSe+/ve+/vU8gTu+/vU8tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHvv73vv71vIGRlc3RhIGxpY2Vu77+9YSwgdm9j77+9IChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l077+9cmlvIApJbnN0aXR1Y2lvbmFsIGRhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIEp1aXogZGUgRm9yYSBvIGRpcmVpdG8gbu+/vW8tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYe+/ve+/vW8gKGluY2x1aW5kbyBvIHJlc3VtbykgcG9yIHRvZG8gbyBtdW5kbyBubyBmb3JtYXRvIGltcHJlc3NvIGUgZWxldHLvv71uaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIO+/vXVkaW8gb3Ugdu+/vWRlby4KClZvY++/vSBjb25jb3JkYSBxdWUgbyBSZXBvc2l077+9cmlvIEluc3RpdHVjaW9uYWwgZGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgSnVpeiBkZSBGb3JhIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXvv71kbywgdHJhbnNwb3IgYSBzdWEgcHVibGljYe+/ve+/vW8gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZh77+977+9by4gVm9j77+9IHRhbWLvv71tIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTvv71yaW8gSW5zdGl0dWNpb25hbCBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBKdWl6IGRlIEZvcmEgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY++/vXBpYSBkZSBzdWEgcHVibGljYe+/ve+/vW8gcGFyYSBmaW5zIGRlIHNlZ3VyYW7vv71hLCBiYWNrLXVwIGUgcHJlc2VydmHvv73vv71vLiBWb2Pvv70gZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYe+/ve+/vW8g77+9IG9yaWdpbmFsIGUgcXVlIHZvY++/vSB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbu+/vWEuIFZvY++/vSB0YW1i77+9bSBkZWNsYXJhIHF1ZSBvIGRlcO+/vXNpdG8gZGEgc3VhIHB1YmxpY2Hvv73vv71vIG7vv71vLCBxdWUgc2VqYSBkZSBzZXUgY29uaGVjaW1lbnRvLCBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyBkZSBuaW5nde+/vW0uCgpDYXNvIGEgc3VhIHB1YmxpY2Hvv73vv71vIGNvbnRlbmhhIG1hdGVyaWFsIHF1ZSB2b2Pvv70gbu+/vW8gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9j77+9IGRlY2xhcmEgcXVlIG9idGV2ZSBhIHBlcm1pc3Pvv71vIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdO+/vXJpbyBJbnN0aXR1Y2lvbmFsIGRhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIEp1aXogZGUgRm9yYSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7vv71hLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3Tvv70gY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250Ze+/vWRvIGRhIHB1YmxpY2Hvv73vv71vIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0Hvv73vv71PIE9SQSBERVBPU0lUQURBIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ++/vU5JTyBPVSBBUE9JTyBERSBVTUEgQUfvv71OQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0Pvv70gREVDTEFSQSBRVUUgUkVTUEVJVE9VIFRPRE9TIEUgUVVBSVNRVUVSIERJUkVJVE9TIERFIFJFVklT77+9TyBDT01PIFRBTULvv71NIEFTIERFTUFJUyBPQlJJR0Hvv73vv71FUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKTyBSZXBvc2l077+9cmlvIEluc3RpdHVjaW9uYWwgZGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgSnVpeiBkZSBGb3JhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHB1YmxpY2Hvv73vv71vLCBlIG7vv71vIGZhcu+/vSBxdWFscXVlciBhbHRlcmHvv73vv71vLCBhbO+/vW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbu+/vWEuCg==Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2019-06-16T09:11:20Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false
dc.title.pt_BR.fl_str_mv Evolution of reward functions for reinforcement learning applied to stealth games
title Evolution of reward functions for reinforcement learning applied to stealth games
spellingShingle Evolution of reward functions for reinforcement learning applied to stealth games
Mendonça, Matheus Ribeiro Furtado de
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Planejamento de caminhos furtivos
Aprendizado por reforço
Algoritmos genéticos
Evolução de funções de reforço
Stealthy Path Planning
Reinforcement Leaning
Genetic Algorithms
Evolution of Reward Functions
title_short Evolution of reward functions for reinforcement learning applied to stealth games
title_full Evolution of reward functions for reinforcement learning applied to stealth games
title_fullStr Evolution of reward functions for reinforcement learning applied to stealth games
title_full_unstemmed Evolution of reward functions for reinforcement learning applied to stealth games
title_sort Evolution of reward functions for reinforcement learning applied to stealth games
author Mendonça, Matheus Ribeiro Furtado de
author_facet Mendonça, Matheus Ribeiro Furtado de
author_role author
dc.contributor.advisor1.fl_str_mv Fonseca Neto, Raul
dc.contributor.advisor1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4786482Y2
dc.contributor.advisor-co1.fl_str_mv Bernardino, Heder Soares
dc.contributor.advisor-co1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4742940J5
dc.contributor.referee1.fl_str_mv Oliveira, Rafael Sachetto
dc.contributor.referee1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4742505E2
dc.contributor.referee2.fl_str_mv Leite, Saul de Castro
dc.contributor.referee2Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4758014Z7
dc.contributor.authorLattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4493090P0
dc.contributor.author.fl_str_mv Mendonça, Matheus Ribeiro Furtado de
contributor_str_mv Fonseca Neto, Raul
Bernardino, Heder Soares
Oliveira, Rafael Sachetto
Leite, Saul de Castro
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Planejamento de caminhos furtivos
Aprendizado por reforço
Algoritmos genéticos
Evolução de funções de reforço
Stealthy Path Planning
Reinforcement Leaning
Genetic Algorithms
Evolution of Reward Functions
dc.subject.por.fl_str_mv Planejamento de caminhos furtivos
Aprendizado por reforço
Algoritmos genéticos
Evolução de funções de reforço
Stealthy Path Planning
Reinforcement Leaning
Genetic Algorithms
Evolution of Reward Functions
description Muitos jogos modernos apresentam elementos que permitem que o jogador complete certos objetivos sem ser visto pelos inimigos. Isso culminou no surgimento de um novo gênero chamado de jogos furtivos, onde a furtividade é essencial. Embora elementos de furtividade sejam muito comuns em jogos modernos, este tema não tem sido estudado extensivamente. Este trabalho aborda três problemas distintos: (i) como utilizar uma abordagem por aprendizado de máquinas de forma a permitir que o agente furtivo aprenda como se comportar adequadamente em qualquer ambiente, (ii) criar um método eficiente para planejamento de caminhos furtivos que possa ser acoplado à nossa formulação por aprendizado de máquinas e (iii) como usar computação evolutiva de forma a definir certos parâmetros para nossa abordagem por aprendizado de máquinas. É utilizado aprendizado por reforço para aprender bons comportamentos que sejam capazes de atingir uma alta taxa de sucesso em testes aleatórios de um jogo furtivo. Também é proposto uma abor dagem evolucionária capaz de definir automaticamente uma boa função de reforço para a abordagem por aprendizado por reforço.
publishDate 2016
dc.date.issued.fl_str_mv 2016
dc.date.accessioned.fl_str_mv 2017-05-31T12:42:30Z
dc.date.available.fl_str_mv 2017-05-31
2017-05-31T12:42:30Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufjf.br/jspui/handle/ufjf/4771
url https://repositorio.ufjf.br/jspui/handle/ufjf/4771
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFJF
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICE – Instituto de Ciências Exatas
publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFJF
instname:Universidade Federal de Juiz de Fora (UFJF)
instacron:UFJF
instname_str Universidade Federal de Juiz de Fora (UFJF)
instacron_str UFJF
institution UFJF
reponame_str Repositório Institucional da UFJF
collection Repositório Institucional da UFJF
bitstream.url.fl_str_mv https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/3/matheusribeirofurtadodemendonca.pdf.txt
https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/4/matheusribeirofurtadodemendonca.pdf.jpg
https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/1/matheusribeirofurtadodemendonca.pdf
https://repositorio.ufjf.br/jspui/bitstream/ufjf/4771/2/license.txt
bitstream.checksum.fl_str_mv 18dc0b4b7a82408b7f3fb46131c58bf8
f6c27ed4cbf18fd64fa23b9c8059b146
bb42372f22411bc93823b92e7361a490
000e18a5aee6ca21bb5811ddf55fc37b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)
repository.mail.fl_str_mv
_version_ 1801661409858158592