Descoberta de Options Multi-tarefas: Um estudo em StarCraft II

Gomes, Eric Muszalska Claro

Descoberta de Options Multi-tarefas: Um estudo em StarCraft II

Detalhes bibliográficos
Autor(a) principal:	Gomes, Eric Muszalska Claro
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da USP
Texto Completo:	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-01062023-160931/
Resumo:	Este trabalho propõe e valida uma arquitetura para resolver problemas complexos em jogos de estratégia em tempo real, como o Starcraft II, utilizando o conceito hierárquico temporal de option. A arquitetura é baseada em uma abordagem de descoberta de options (option discovery) utilizando aprendizado por imitação para abstrair meta-políticas e políticas intra-options comuns a vários agentes. A validação foi realizada tanto em minigames, quanto em cenários criados especificamente para este estudo, que visam analisar o componente temporal do problema. Os resultados mostraram que a arquitetura proposta foi capaz de obter resultados próximos aos obtidos pelo agente padrão Reaver em alguns dos minigames, além de ser capaz de aprender uma única política genérica que se aplicaria a todos os minigames. Além disso, foi possível observar o comportamento das options para cada minigame no agente genérico, o que permitiu uma melhor compreensão da arquitetura proposta. Foi possível observar que a arquitetura Multi-Level Discovery of Deep Options (MLDDO) apresentou resultados significativos para a descoberta de options utilizando aprendizado por imitação. Esse trabalho também analisou o impacto da separabilidade de estados no MLDDO, comparando resultados do aprendizado com uma implementação específica para cada diferente cenário separável pelo espaço e com o aprendizado de uma única implementação generalista que busca aprender diferentes objetivos em cenários indistinguíveis pelo estado.

Metadados do item

id	USP_ee7f3fb89bdc6f16dfad34d145c99224
oai_identifier_str	oai:teses.usp.br:tde-01062023-160931
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Descoberta de Options Multi-tarefas: Um estudo em StarCraft IIMulti-task Option Discovery: A study in StarCraft IIFramework de OptionsOption DiscoveryAprendizado por ImitaçãoAprendizado por ReforçoImitation LearningOption DiscoveryOption FrameworkReinforcement LearningStarcraft IIStarcraft IIEste trabalho propõe e valida uma arquitetura para resolver problemas complexos em jogos de estratégia em tempo real, como o Starcraft II, utilizando o conceito hierárquico temporal de option. A arquitetura é baseada em uma abordagem de descoberta de options (option discovery) utilizando aprendizado por imitação para abstrair meta-políticas e políticas intra-options comuns a vários agentes. A validação foi realizada tanto em minigames, quanto em cenários criados especificamente para este estudo, que visam analisar o componente temporal do problema. Os resultados mostraram que a arquitetura proposta foi capaz de obter resultados próximos aos obtidos pelo agente padrão Reaver em alguns dos minigames, além de ser capaz de aprender uma única política genérica que se aplicaria a todos os minigames. Além disso, foi possível observar o comportamento das options para cada minigame no agente genérico, o que permitiu uma melhor compreensão da arquitetura proposta. Foi possível observar que a arquitetura Multi-Level Discovery of Deep Options (MLDDO) apresentou resultados significativos para a descoberta de options utilizando aprendizado por imitação. Esse trabalho também analisou o impacto da separabilidade de estados no MLDDO, comparando resultados do aprendizado com uma implementação específica para cada diferente cenário separável pelo espaço e com o aprendizado de uma única implementação generalista que busca aprender diferentes objetivos em cenários indistinguíveis pelo estado.This work proposes and validates an architecture for solving complex problems in real time strategy games, such as Starcraft II, using the hierarchical temporal concept of options. The architecture is based on an approach of option discovery using imitation learning to abstract meta-policies and intra-options policies common to various agents. The validation was performed both on minigames, and on scenarios created specifically for this study, which aim to analyze the temporal component of the problem. The results showed that the proposed architecture was able to obtain results similar to those obtained by the standard Reaver agent in some of the minigames, and was also able to learn a single generic policy that would apply to all minigames. In addition, it was possible to observe the behavior of the options for each minigame in the generic agent, which allowed for a better understanding of the proposed architecture. It was observed that the MLDDO architecture presented significant results for the discovery of options using imitation learning. This work also analyzed the impact of state separability in the Multi-Level Discovery of Deep Options (MLDDO), comparing learning results with a specific implementation for each different scenario separable by space and with learning of a single generalist implementation that seeks to learn different goals in indistinguishable scenarios by state.Biblioteca Digitais de Teses e Dissertações da USPSilva, Valdinei Freire daGomes, Eric Muszalska Claro2023-04-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-01062023-160931/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-07-24T16:34:02Zoai:teses.usp.br:tde-01062023-160931Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212024-07-24T16:34:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Descoberta de Options Multi-tarefas: Um estudo em StarCraft II Multi-task Option Discovery: A study in StarCraft II
title	Descoberta de Options Multi-tarefas: Um estudo em StarCraft II
spellingShingle	Descoberta de Options Multi-tarefas: Um estudo em StarCraft II Gomes, Eric Muszalska Claro Framework de Options Option Discovery Aprendizado por Imitação Aprendizado por Reforço Imitation Learning Option Discovery Option Framework Reinforcement Learning Starcraft II Starcraft II
title_short	Descoberta de Options Multi-tarefas: Um estudo em StarCraft II
title_full	Descoberta de Options Multi-tarefas: Um estudo em StarCraft II
title_fullStr	Descoberta de Options Multi-tarefas: Um estudo em StarCraft II
title_full_unstemmed	Descoberta de Options Multi-tarefas: Um estudo em StarCraft II
title_sort	Descoberta de Options Multi-tarefas: Um estudo em StarCraft II
author	Gomes, Eric Muszalska Claro
author_facet	Gomes, Eric Muszalska Claro
author_role	author
dc.contributor.none.fl_str_mv	Silva, Valdinei Freire da
dc.contributor.author.fl_str_mv	Gomes, Eric Muszalska Claro
dc.subject.por.fl_str_mv	Framework de Options Option Discovery Aprendizado por Imitação Aprendizado por Reforço Imitation Learning Option Discovery Option Framework Reinforcement Learning Starcraft II Starcraft II
topic	Framework de Options Option Discovery Aprendizado por Imitação Aprendizado por Reforço Imitation Learning Option Discovery Option Framework Reinforcement Learning Starcraft II Starcraft II
description	Este trabalho propõe e valida uma arquitetura para resolver problemas complexos em jogos de estratégia em tempo real, como o Starcraft II, utilizando o conceito hierárquico temporal de option. A arquitetura é baseada em uma abordagem de descoberta de options (option discovery) utilizando aprendizado por imitação para abstrair meta-políticas e políticas intra-options comuns a vários agentes. A validação foi realizada tanto em minigames, quanto em cenários criados especificamente para este estudo, que visam analisar o componente temporal do problema. Os resultados mostraram que a arquitetura proposta foi capaz de obter resultados próximos aos obtidos pelo agente padrão Reaver em alguns dos minigames, além de ser capaz de aprender uma única política genérica que se aplicaria a todos os minigames. Além disso, foi possível observar o comportamento das options para cada minigame no agente genérico, o que permitiu uma melhor compreensão da arquitetura proposta. Foi possível observar que a arquitetura Multi-Level Discovery of Deep Options (MLDDO) apresentou resultados significativos para a descoberta de options utilizando aprendizado por imitação. Esse trabalho também analisou o impacto da separabilidade de estados no MLDDO, comparando resultados do aprendizado com uma implementação específica para cada diferente cenário separável pelo espaço e com o aprendizado de uma única implementação generalista que busca aprender diferentes objetivos em cenários indistinguíveis pelo estado.
publishDate	2023
dc.date.none.fl_str_mv	2023-04-04
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-01062023-160931/
url	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-01062023-160931/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1809090276215488512

Descoberta de Options Multi-tarefas: Um estudo em StarCraft II

Registros relacionados