Learning sketches for programmatic strategies

Medeiros, Leandro Couto

Learning sketches for programmatic strategies

Detalhes bibliográficos
Autor(a) principal:	Medeiros, Leandro Couto
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	LOCUS Repositório Institucional da UFV
Texto Completo:	https://locus.ufv.br//handle/123456789/29671 https://doi.org/10.47328/ufvbbt.2022.076
Resumo:	Síntese de programas tem sido um grande foco de pesquisa nos últimos anos devido à sua inata capacidade de gerar programas interpretáveis. Em contraste com modelos de redes neurais, que são implementados como modelos opacos e portanto são difíceis de interpretar. Redes neurais são mais fáceis de treinar devido à informação do gradiente estar disponível, enquanto que tarefas de síntese de programas não são diferenciáveis, tornando a tarefa de otimização desaﬁante. Nesta dissertação é mostrado que a clonagem comportamental pode ser usada para aprender rascunhos de estratégias programáticas, facilitando a tarefa de otimização. Foi observado que até rascunhos aprendidos ao clonar o comportamento de jogadores fracos podem ajudar na síntese de estratégias programáticas. Isto ocorre porque até mesmo jogadores fracos conseguem prover informações úteis, e.g., que um jogador deve escolher uma ação em sua rodada do jogo. Caso clonagem compor- tamental não seja usada, o sintetizador precisa aprender até mesmo as informações mais básicas jogando o jogo, o que pode ser computacionalmente custoso. É empiricamente de- monstrado as vantagens da abordagem de aprendizado por rascunhos com sintetizadores baseados na têmpera simulada e com sintetizadores baseados no algoritmo UCT. Os sin- tetizadores foram avaliados nos jogos Can’t Stop e MicroRTS. Os sintetizadores baseados em rascunhos são capazes de aprender estratégias programáticas mais fortes do que as abordagens originais. Os sintetizadores geraram estratégias de Can’t Stop que derrotaram uma estratégia programática tradicional do jogo. Também foram sintetizadas estratégias que derrotaram o método com a melhor performance da última competição de MicroRTS. Palavras-chave: Inteligência Artiﬁcial. Síntese de Programas. Busca. Jogos.

Metadados do item

id	UFV_1e508ae24d6cae91e8c07353af3e7b80
oai_identifier_str	oai:locus.ufv.br:123456789/29671
network_acronym_str	UFV
network_name_str	LOCUS Repositório Institucional da UFV
repository_id_str	2145
spelling	Medeiros, Leandro Coutohttp://lattes.cnpq.br/6252537911923256Lelis, Levi Henrique Santana de2022-08-16T16:46:23Z2022-08-16T16:46:23Z2021-11-26MEDEIROS, Leandro Couto. Learning sketches for programmatic strategies. 2021. 51 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2021.https://locus.ufv.br//handle/123456789/29671https://doi.org/10.47328/ufvbbt.2022.076Síntese de programas tem sido um grande foco de pesquisa nos últimos anos devido à sua inata capacidade de gerar programas interpretáveis. Em contraste com modelos de redes neurais, que são implementados como modelos opacos e portanto são difíceis de interpretar. Redes neurais são mais fáceis de treinar devido à informação do gradiente estar disponível, enquanto que tarefas de síntese de programas não são diferenciáveis, tornando a tarefa de otimização desaﬁante. Nesta dissertação é mostrado que a clonagem comportamental pode ser usada para aprender rascunhos de estratégias programáticas, facilitando a tarefa de otimização. Foi observado que até rascunhos aprendidos ao clonar o comportamento de jogadores fracos podem ajudar na síntese de estratégias programáticas. Isto ocorre porque até mesmo jogadores fracos conseguem prover informações úteis, e.g., que um jogador deve escolher uma ação em sua rodada do jogo. Caso clonagem compor- tamental não seja usada, o sintetizador precisa aprender até mesmo as informações mais básicas jogando o jogo, o que pode ser computacionalmente custoso. É empiricamente de- monstrado as vantagens da abordagem de aprendizado por rascunhos com sintetizadores baseados na têmpera simulada e com sintetizadores baseados no algoritmo UCT. Os sin- tetizadores foram avaliados nos jogos Can’t Stop e MicroRTS. Os sintetizadores baseados em rascunhos são capazes de aprender estratégias programáticas mais fortes do que as abordagens originais. Os sintetizadores geraram estratégias de Can’t Stop que derrotaram uma estratégia programática tradicional do jogo. Também foram sintetizadas estratégias que derrotaram o método com a melhor performance da última competição de MicroRTS. Palavras-chave: Inteligência Artiﬁcial. Síntese de Programas. Busca. Jogos.Program synthesis has been a major focus of research in recent years due to its innate capability of generating interpretable programs. By contrast, neural network models are implemented as opaque models and are thus hard to interpret. Neural networks are eas- ier to train because gradient information is available while program synthesis tasks are not diﬀerentiable, making the optimization task challenging. In this work we show that behavioral cloning can be used to learn eﬀective sketches of programmatic strategies, fa- cilitating the optimization task. We show that even the sketches learned by cloning the behavior of weak players can help the synthesis of programmatic strategies. This is be- cause even weak players can provide helpful information, e.g., that a player must choose an action in their turn of the game. If behavioral cloning is not employed, the synthesizer needs to learn even the most basic information by playing the game, which can be compu- tationally expensive. We demonstrate empirically the advantages of our sketch-learning approach with synthesizers based on simulated annealing and with synthesizers based on UCT. We evaluate our synthesizers in the games of Can’t Stop and MicroRTS. The sketch-based synthesizers are able to learn stronger programmatic strategies than their original counterparts. Our synthesizers generate strategies of Can’t Stop that defeat a tra- ditional programmatic strategy for the game. They also synthesize strategies that defeat the best performing method from the latest MicroRTS competition. Keywords: Artiﬁcial Intelligence. Program Synthesis. Search. Games.Fundação de Amparo à Pesquisa do Estado de Minas GeraisengUniversidade Federal de ViçosaCiência da ComputaçãoInteligência artificialAprendizado do computadorJogosCiência da ComputaçãoLearning sketches for programmatic strategiesAprendendo rascunhos para estratégias programáticasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de InformáticaMestre em Ciência da ComputaçãoViçosa - MG2021-11-26Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf4973524https://locus.ufv.br//bitstream/123456789/29671/1/texto%20completo.pdfb78b923c30221a8fa3a1ef293ee71184MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/29671/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/296712023-03-03 15:25:27.22oai:locus.ufv.br:123456789/29671Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452023-03-03T18:25:27LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.en.fl_str_mv	Learning sketches for programmatic strategies
dc.title.pt-BR.fl_str_mv	Aprendendo rascunhos para estratégias programáticas
title	Learning sketches for programmatic strategies
spellingShingle	Learning sketches for programmatic strategies Medeiros, Leandro Couto Inteligência artificial Aprendizado do computador Jogos Ciência da Computação
title_short	Learning sketches for programmatic strategies
title_full	Learning sketches for programmatic strategies
title_fullStr	Learning sketches for programmatic strategies
title_full_unstemmed	Learning sketches for programmatic strategies
title_sort	Learning sketches for programmatic strategies
author	Medeiros, Leandro Couto
author_facet	Medeiros, Leandro Couto
author_role	author
dc.contributor.authorLattes.pt-BR.fl_str_mv	http://lattes.cnpq.br/6252537911923256
dc.contributor.author.fl_str_mv	Medeiros, Leandro Couto
dc.contributor.advisor1.fl_str_mv	Lelis, Levi Henrique Santana de
contributor_str_mv	Lelis, Levi Henrique Santana de
dc.subject.pt-BR.fl_str_mv	Inteligência artificial Aprendizado do computador Jogos
topic	Inteligência artificial Aprendizado do computador Jogos Ciência da Computação
dc.subject.cnpq.fl_str_mv	Ciência da Computação
description	Síntese de programas tem sido um grande foco de pesquisa nos últimos anos devido à sua inata capacidade de gerar programas interpretáveis. Em contraste com modelos de redes neurais, que são implementados como modelos opacos e portanto são difíceis de interpretar. Redes neurais são mais fáceis de treinar devido à informação do gradiente estar disponível, enquanto que tarefas de síntese de programas não são diferenciáveis, tornando a tarefa de otimização desaﬁante. Nesta dissertação é mostrado que a clonagem comportamental pode ser usada para aprender rascunhos de estratégias programáticas, facilitando a tarefa de otimização. Foi observado que até rascunhos aprendidos ao clonar o comportamento de jogadores fracos podem ajudar na síntese de estratégias programáticas. Isto ocorre porque até mesmo jogadores fracos conseguem prover informações úteis, e.g., que um jogador deve escolher uma ação em sua rodada do jogo. Caso clonagem compor- tamental não seja usada, o sintetizador precisa aprender até mesmo as informações mais básicas jogando o jogo, o que pode ser computacionalmente custoso. É empiricamente de- monstrado as vantagens da abordagem de aprendizado por rascunhos com sintetizadores baseados na têmpera simulada e com sintetizadores baseados no algoritmo UCT. Os sin- tetizadores foram avaliados nos jogos Can’t Stop e MicroRTS. Os sintetizadores baseados em rascunhos são capazes de aprender estratégias programáticas mais fortes do que as abordagens originais. Os sintetizadores geraram estratégias de Can’t Stop que derrotaram uma estratégia programática tradicional do jogo. Também foram sintetizadas estratégias que derrotaram o método com a melhor performance da última competição de MicroRTS. Palavras-chave: Inteligência Artiﬁcial. Síntese de Programas. Busca. Jogos.
publishDate	2021
dc.date.issued.fl_str_mv	2021-11-26
dc.date.accessioned.fl_str_mv	2022-08-16T16:46:23Z
dc.date.available.fl_str_mv	2022-08-16T16:46:23Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	MEDEIROS, Leandro Couto. Learning sketches for programmatic strategies. 2021. 51 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2021.
dc.identifier.uri.fl_str_mv	https://locus.ufv.br//handle/123456789/29671
dc.identifier.doi.pt-BR.fl_str_mv	https://doi.org/10.47328/ufvbbt.2022.076
identifier_str_mv	MEDEIROS, Leandro Couto. Learning sketches for programmatic strategies. 2021. 51 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2021.
url	https://locus.ufv.br//handle/123456789/29671 https://doi.org/10.47328/ufvbbt.2022.076
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Viçosa
dc.publisher.program.fl_str_mv	Ciência da Computação
publisher.none.fl_str_mv	Universidade Federal de Viçosa
dc.source.none.fl_str_mv	reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV
instname_str	Universidade Federal de Viçosa (UFV)
instacron_str	UFV
institution	UFV
reponame_str	LOCUS Repositório Institucional da UFV
collection	LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv	https://locus.ufv.br//bitstream/123456789/29671/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/29671/2/license.txt
bitstream.checksum.fl_str_mv	b78b923c30221a8fa3a1ef293ee71184 8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv	fabiojreis@ufv.br
_version_	1801212870922338304

Learning sketches for programmatic strategies

Registros relacionados