Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa

Detalhes bibliográficos
Autor(a) principal: Dutra, Paulo Vinícius Moreira
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFJF
Texto Completo: https://repositorio.ufjf.br/jspui/handle/ufjf/15493
Resumo: Os jogos ao longo dos anos têm se tornado uma das principais formas de entretenimento no ambiente digital e são frequentemente utilizados em pesquisas que envolvem a área do aprendizado de máquina. Dentre as ramificações do aprendizado de máquina, temos o aprendizado por reforço que é comumente utilizado para treinar agentes a jogar jogos. Atualmente existem muitos jogos que utilizam métodos de geração procedural para gerar algum conteúdo com o objetivo de aumentar experiência do jogador. Recentemente, artigos acadêmicos buscam aproximar o aprendizado por reforço com a geração procedural de conteúdo em jogos. Este trabalho investiga como podemos aplicar a geração procedural de conteúdo com aprendizado por reforço e o design de iniciativa mista. Uma segunda questão discutida aqui é como podemos utilizar métricas para avaliar a diversidade dos cenários gerados. A proposta deste trabalho possui como ideia principal utilizar modelos de cenários fornecidos por um especialista humano em level design, para que os agentes de aprendizado por reforço o utilizem para criar cenários. Os níveis fornecidos pelo especialista são separados em segmentos ou blocos que são utilizados para compor novas estruturas de cenários. Também é proposto o uso de uma função de recompensa baseado na entropia como métrica para avaliar a diversidade dos cenários gerado pelos agentes de aprendizado por reforço. Inicialmente, treinamos o modelo proposto para três diferentes ambientes de jogos no estilo 2D Dungeon crawlers. Analisamos os resultados obtidos através do valor de entropia e demonstramos que o modelo proposto pode gerar uma ampla gama de novos níveis com uma diversidade de segmentos. Um segunda análise dos resultados é através de expressive range, para avaliar a expressividade dos níveis utilizando as métricas linearidade e leniência.
id UFJF_013d46e11733284ab96ca10e8ee12fad
oai_identifier_str oai:hermes.cpd.ufjf.br:ufjf/15493
network_acronym_str UFJF
network_name_str Repositório Institucional da UFJF
repository_id_str
spelling Fonseca Neto, Raulhttp://buscatextual.cnpq.br/buscatextual/busca.doVillela, Saulo Moraeshttp://buscatextual.cnpq.br/buscatextual/busca.doBernardino, Heder Soareshttp://buscatextual.cnpq.br/buscatextual/busca.doMendonça, Matheus Ribeiro Furtado dehttp://buscatextual.cnpq.br/buscatextual/busca.dohttp://buscatextual.cnpq.br/buscatextual/busca.doDutra, Paulo Vinícius Moreira2023-06-19T10:46:42Z2023-06-162023-06-19T10:46:42Z2023-03-16https://repositorio.ufjf.br/jspui/handle/ufjf/15493Os jogos ao longo dos anos têm se tornado uma das principais formas de entretenimento no ambiente digital e são frequentemente utilizados em pesquisas que envolvem a área do aprendizado de máquina. Dentre as ramificações do aprendizado de máquina, temos o aprendizado por reforço que é comumente utilizado para treinar agentes a jogar jogos. Atualmente existem muitos jogos que utilizam métodos de geração procedural para gerar algum conteúdo com o objetivo de aumentar experiência do jogador. Recentemente, artigos acadêmicos buscam aproximar o aprendizado por reforço com a geração procedural de conteúdo em jogos. Este trabalho investiga como podemos aplicar a geração procedural de conteúdo com aprendizado por reforço e o design de iniciativa mista. Uma segunda questão discutida aqui é como podemos utilizar métricas para avaliar a diversidade dos cenários gerados. A proposta deste trabalho possui como ideia principal utilizar modelos de cenários fornecidos por um especialista humano em level design, para que os agentes de aprendizado por reforço o utilizem para criar cenários. Os níveis fornecidos pelo especialista são separados em segmentos ou blocos que são utilizados para compor novas estruturas de cenários. Também é proposto o uso de uma função de recompensa baseado na entropia como métrica para avaliar a diversidade dos cenários gerado pelos agentes de aprendizado por reforço. Inicialmente, treinamos o modelo proposto para três diferentes ambientes de jogos no estilo 2D Dungeon crawlers. Analisamos os resultados obtidos através do valor de entropia e demonstramos que o modelo proposto pode gerar uma ampla gama de novos níveis com uma diversidade de segmentos. Um segunda análise dos resultados é através de expressive range, para avaliar a expressividade dos níveis utilizando as métricas linearidade e leniência.Over the years, video games have become one of the main ways of entertainment in the digital environment and are often used in the machine learning research. In machine learning, we can find different branches, among them, reinforcement learning, which is commonly used to train agents to play games. Currently, there are many games that use procedural generation methods to generate some content in order to increase the player’s experience. Recently, academic articles have approach the problem of procedural generation of content in games though reinforcement learning. In this work, we investigate how we can approach procedural content generation with reinforcement learning and mixed-initiative design. A second question discussed here is how we can use metrics to evaluate the diversity of the generated level. Our proposal has as its main hypothesis to use scenario models, provided by an expert human in level design, for the reinforcement learning agents in order to generate new scenarios. The levels provided by the specialist are separated into segments or blocks that are used to compose the new scenario structures. Also, a new reward function based on the use of entropy was proposed to measure the diversity of the generated scenarios. Initially, we trained our model for three different 2D Dungeon crawlers game environments. We analyzed our results through the value of the entropy, and it shows that our approach can generate levels with a wide diversity of segments. A second analysis of the results is through expressive range, to evaluate the expressivity of the levels using linearity and leniency metrics.porUniversidade Federal de Juiz de Fora (UFJF)Programa de Pós-graduação em Ciência da ComputaçãoUFJFBrasilICE – Instituto de Ciências ExatasAttribution-ShareAlike 3.0 Brazilhttp://creativecommons.org/licenses/by-sa/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRAAprendizado por reforçoGeração procedural de conteúdoAprendizado de máquinaExpressive rangeIniciativa mistaEntropiaReinforcement learningProcedural content generationMachine learningMixed-initiativeEntropyGeração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFORIGINALpauloviniciusmoreiradutra.pdfpauloviniciusmoreiradutra.pdfapplication/pdf5400187https://repositorio.ufjf.br/jspui/bitstream/ufjf/15493/1/pauloviniciusmoreiradutra.pdf9af61c23eda91da393a73f89282176a4MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufjf.br/jspui/bitstream/ufjf/15493/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031https://repositorio.ufjf.br/jspui/bitstream/ufjf/15493/2/license_rdf9b85e4235558a2887c2be3998124b615MD52TEXTpauloviniciusmoreiradutra.pdf.txtpauloviniciusmoreiradutra.pdf.txtExtracted texttext/plain171649https://repositorio.ufjf.br/jspui/bitstream/ufjf/15493/4/pauloviniciusmoreiradutra.pdf.txtd0c58d5cef7f8c9437119aba1298b577MD54THUMBNAILpauloviniciusmoreiradutra.pdf.jpgpauloviniciusmoreiradutra.pdf.jpgGenerated Thumbnailimage/jpeg1176https://repositorio.ufjf.br/jspui/bitstream/ufjf/15493/5/pauloviniciusmoreiradutra.pdf.jpg065578978cc8d4e5b63e4f6373f3f649MD55ufjf/154932023-06-20 03:15:52.912oai:hermes.cpd.ufjf.br:ufjf/15493Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2023-06-20T06:15:52Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false
dc.title.pt_BR.fl_str_mv Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa
title Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa
spellingShingle Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa
Dutra, Paulo Vinícius Moreira
CNPQ::CIENCIAS EXATAS E DA TERRA
Aprendizado por reforço
Geração procedural de conteúdo
Aprendizado de máquina
Expressive range
Iniciativa mista
Entropia
Reinforcement learning
Procedural content generation
Machine learning
Mixed-initiative
Entropy
title_short Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa
title_full Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa
title_fullStr Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa
title_full_unstemmed Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa
title_sort Geração procedural de conteúdo utilizando aprendizado por reforço com design de iniciativa mista e entropia como feedback de recompensa
author Dutra, Paulo Vinícius Moreira
author_facet Dutra, Paulo Vinícius Moreira
author_role author
dc.contributor.advisor1.fl_str_mv Fonseca Neto, Raul
dc.contributor.advisor1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/busca.do
dc.contributor.advisor-co1.fl_str_mv Villela, Saulo Moraes
dc.contributor.advisor-co1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/busca.do
dc.contributor.referee1.fl_str_mv Bernardino, Heder Soares
dc.contributor.referee1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/busca.do
dc.contributor.referee2.fl_str_mv Mendonça, Matheus Ribeiro Furtado de
dc.contributor.referee2Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/busca.do
dc.contributor.authorLattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/busca.do
dc.contributor.author.fl_str_mv Dutra, Paulo Vinícius Moreira
contributor_str_mv Fonseca Neto, Raul
Villela, Saulo Moraes
Bernardino, Heder Soares
Mendonça, Matheus Ribeiro Furtado de
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA
topic CNPQ::CIENCIAS EXATAS E DA TERRA
Aprendizado por reforço
Geração procedural de conteúdo
Aprendizado de máquina
Expressive range
Iniciativa mista
Entropia
Reinforcement learning
Procedural content generation
Machine learning
Mixed-initiative
Entropy
dc.subject.por.fl_str_mv Aprendizado por reforço
Geração procedural de conteúdo
Aprendizado de máquina
Expressive range
Iniciativa mista
Entropia
Reinforcement learning
Procedural content generation
Machine learning
Mixed-initiative
Entropy
description Os jogos ao longo dos anos têm se tornado uma das principais formas de entretenimento no ambiente digital e são frequentemente utilizados em pesquisas que envolvem a área do aprendizado de máquina. Dentre as ramificações do aprendizado de máquina, temos o aprendizado por reforço que é comumente utilizado para treinar agentes a jogar jogos. Atualmente existem muitos jogos que utilizam métodos de geração procedural para gerar algum conteúdo com o objetivo de aumentar experiência do jogador. Recentemente, artigos acadêmicos buscam aproximar o aprendizado por reforço com a geração procedural de conteúdo em jogos. Este trabalho investiga como podemos aplicar a geração procedural de conteúdo com aprendizado por reforço e o design de iniciativa mista. Uma segunda questão discutida aqui é como podemos utilizar métricas para avaliar a diversidade dos cenários gerados. A proposta deste trabalho possui como ideia principal utilizar modelos de cenários fornecidos por um especialista humano em level design, para que os agentes de aprendizado por reforço o utilizem para criar cenários. Os níveis fornecidos pelo especialista são separados em segmentos ou blocos que são utilizados para compor novas estruturas de cenários. Também é proposto o uso de uma função de recompensa baseado na entropia como métrica para avaliar a diversidade dos cenários gerado pelos agentes de aprendizado por reforço. Inicialmente, treinamos o modelo proposto para três diferentes ambientes de jogos no estilo 2D Dungeon crawlers. Analisamos os resultados obtidos através do valor de entropia e demonstramos que o modelo proposto pode gerar uma ampla gama de novos níveis com uma diversidade de segmentos. Um segunda análise dos resultados é através de expressive range, para avaliar a expressividade dos níveis utilizando as métricas linearidade e leniência.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-06-19T10:46:42Z
dc.date.available.fl_str_mv 2023-06-16
2023-06-19T10:46:42Z
dc.date.issued.fl_str_mv 2023-03-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufjf.br/jspui/handle/ufjf/15493
url https://repositorio.ufjf.br/jspui/handle/ufjf/15493
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-ShareAlike 3.0 Brazil
http://creativecommons.org/licenses/by-sa/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-ShareAlike 3.0 Brazil
http://creativecommons.org/licenses/by-sa/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFJF
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICE – Instituto de Ciências Exatas
publisher.none.fl_str_mv Universidade Federal de Juiz de Fora (UFJF)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFJF
instname:Universidade Federal de Juiz de Fora (UFJF)
instacron:UFJF
instname_str Universidade Federal de Juiz de Fora (UFJF)
instacron_str UFJF
institution UFJF
reponame_str Repositório Institucional da UFJF
collection Repositório Institucional da UFJF
bitstream.url.fl_str_mv https://repositorio.ufjf.br/jspui/bitstream/ufjf/15493/1/pauloviniciusmoreiradutra.pdf
https://repositorio.ufjf.br/jspui/bitstream/ufjf/15493/3/license.txt
https://repositorio.ufjf.br/jspui/bitstream/ufjf/15493/2/license_rdf
https://repositorio.ufjf.br/jspui/bitstream/ufjf/15493/4/pauloviniciusmoreiradutra.pdf.txt
https://repositorio.ufjf.br/jspui/bitstream/ufjf/15493/5/pauloviniciusmoreiradutra.pdf.jpg
bitstream.checksum.fl_str_mv 9af61c23eda91da393a73f89282176a4
8a4605be74aa9ea9d79846c1fba20a33
9b85e4235558a2887c2be3998124b615
d0c58d5cef7f8c9437119aba1298b577
065578978cc8d4e5b63e4f6373f3f649
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)
repository.mail.fl_str_mv
_version_ 1801661357461864448