Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRN |
Texto Completo: | https://repositorio.ufrn.br/handle/123456789/49829 |
Resumo: | Action Branching é um tipo de arquitetura de Redes Neurais Profundas que utiliza múltiplas saídas, em que cada uma representa uma dimensão do espaço de ações, para reduzir o tamanho final da saída. A arquitetura Action Branching foi proposta e utilizada para solucionar problemas com espaços de ação contínuos, especificamente problemas de controle contínuo em ambientes virtuais. No entanto, os autores dessa arquitetura afirmam que ela também poderia ser utilizada para problemas com espaço de ações discreto, contanto que esses problemas tivessem alta dimensionalidade de ações. Um problema de alta dimensionalidade com espaço de ações discreto é o problema de escolher uma posição (x, y) em um ambiente bidimensional, já que a quantidade de posições possíveis cresce quadraticamente com o aumento do tamanho máximo de x e y. Esse problema de escolha de posições se faz tangível em contextos como o de jogos de estratégia em tempo real, nos quais existem milhares de posições possíveis para realização de ações a cada instante do jogo. O objetivo deste trabalho é utilizar uma arquitetura Action Branching para reduzir a dimensionalidade da saída de Redes Neurais Profundas com espaços de ação discretos, e avaliar o efeito dessa modificação arquitetural no treinamento e aprendizado das redes. Os espaços de ações discretos utilizados neste trabalho representam posições em um ambiente bidimensional, ou seja, uma ação ou uma combinação de ações representa a escolha de uma posição espacial específica no ambiente. Os ambientes utilizados para realizar o treinamento e avaliação das redes neurais foram dois ambientes virtuais. O primeiro é StarCraft II, um jogo eletrônico de estratégia em tempo real, publicado pela Blizzard Entertainment. O segundo é o ambiente Clickgame, desenvolvido pelo autor a fim de realizar experimentos em ambientes mais simples. Como parte da realização deste trabalho, foram desenvolvidos pelo autor dois algoritmos de Aprendizagem por Reforço profundo com uma arquitetura de Action Branching, o algoritmo DDQNmo e o algoritmo BDQKeras. Foram, então, realizados diversos experimentos aplicando esses algoritmos em alguns minigames do StarCraft II, e também no ambiente Clickgame. Através dos experimentos foi possível constatar que os algoritmos implementados conseguem treinar redes menores, mais rápidas e mais eficientes que algoritmos tradicionais para os ambientes propostos. No entanto, foram identificados problemas de escalabilidade e de estabilidade nesses algoritmos quando aplicados em problemas mais complexos, indicando a necessidade de investigações e melhorias futuras. |
id |
UFRN_a95854108fd28b7a20f2b954f009674b |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/49829 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Alves, Luiz Paulo de Carvalhohttp://lattes.cnpq.br/9968066104677553http://lattes.cnpq.br/2381782879955327Oliveira, Luiz Affonso Henderson Guedes dehttp://lattes.cnpq.br/7987212907837941Araújo, Daniel Sabino Amorim dehttp://lattes.cnpq.br/4744754780165354Madeira, Charles Andryê Galvão2022-11-22T16:21:35Z2022-11-22T16:21:35Z2022-07-21ALVES, Luiz Paulo de Carvalho. Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto. Orientador: Charles Andryê Galvão Madeira. 2022. 78 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2022.https://repositorio.ufrn.br/handle/123456789/49829Action Branching é um tipo de arquitetura de Redes Neurais Profundas que utiliza múltiplas saídas, em que cada uma representa uma dimensão do espaço de ações, para reduzir o tamanho final da saída. A arquitetura Action Branching foi proposta e utilizada para solucionar problemas com espaços de ação contínuos, especificamente problemas de controle contínuo em ambientes virtuais. No entanto, os autores dessa arquitetura afirmam que ela também poderia ser utilizada para problemas com espaço de ações discreto, contanto que esses problemas tivessem alta dimensionalidade de ações. Um problema de alta dimensionalidade com espaço de ações discreto é o problema de escolher uma posição (x, y) em um ambiente bidimensional, já que a quantidade de posições possíveis cresce quadraticamente com o aumento do tamanho máximo de x e y. Esse problema de escolha de posições se faz tangível em contextos como o de jogos de estratégia em tempo real, nos quais existem milhares de posições possíveis para realização de ações a cada instante do jogo. O objetivo deste trabalho é utilizar uma arquitetura Action Branching para reduzir a dimensionalidade da saída de Redes Neurais Profundas com espaços de ação discretos, e avaliar o efeito dessa modificação arquitetural no treinamento e aprendizado das redes. Os espaços de ações discretos utilizados neste trabalho representam posições em um ambiente bidimensional, ou seja, uma ação ou uma combinação de ações representa a escolha de uma posição espacial específica no ambiente. Os ambientes utilizados para realizar o treinamento e avaliação das redes neurais foram dois ambientes virtuais. O primeiro é StarCraft II, um jogo eletrônico de estratégia em tempo real, publicado pela Blizzard Entertainment. O segundo é o ambiente Clickgame, desenvolvido pelo autor a fim de realizar experimentos em ambientes mais simples. Como parte da realização deste trabalho, foram desenvolvidos pelo autor dois algoritmos de Aprendizagem por Reforço profundo com uma arquitetura de Action Branching, o algoritmo DDQNmo e o algoritmo BDQKeras. Foram, então, realizados diversos experimentos aplicando esses algoritmos em alguns minigames do StarCraft II, e também no ambiente Clickgame. Através dos experimentos foi possível constatar que os algoritmos implementados conseguem treinar redes menores, mais rápidas e mais eficientes que algoritmos tradicionais para os ambientes propostos. No entanto, foram identificados problemas de escalabilidade e de estabilidade nesses algoritmos quando aplicados em problemas mais complexos, indicando a necessidade de investigações e melhorias futuras.Action Branching is a type of Deep Neural Network architecture that uses multiple outputs, each representing a dimension of the action space, to reduce the final size of the output. The Action Branching architecture was proposed and used to solve problems with continuous action spaces, specifically continuous control problems in virtual environments. However, the authors of this architecture claim that it could also be used for problems with discrete action spaces, as long as these problems have high action dimensionality. A high-dimensional problem with a discrete action space is the problem of choosing a position (x, y) in a two-dimensional environment, since the number of possible positions grows quadratically as we increase the maximum size of x and y. This problem of choosing positions becomes tangible in contexts such as real-time strategy games, in which there are thousands of possible positions for carrying out actions at every moment of the game. The objective of this work is to use an Action Branching architecture to reduce the dimensionality of the output of Deep Neural Networks with discrete action spaces, and to evaluate the effect of this architectural modification on the training and learning of the networks. The discrete action spaces used in this work represent positions in a two-dimensional environment, that is, an action or a combination of actions represents the choice of a specific spatial position in the environment. The environments used to carry out the training and evaluation of neural networks were two virtual environments. The first is StarCraft II, a real-time strategy video game published by Blizzard Entertainment. The second is the Clickgame environment, developed by the author in order to carry out experiments in simpler environments. As part of this work, the author developed two Deep Reinforcement Learning algorithms with an Action Branching architecture, the DDQNmo algorithm and the BDQKeras algorithm. Then, several experiments were carried out applying these algorithms in some StarCraft II minigames, and also in the Clickgame environment. Through the experiments it was possible to verify that the implemented algorithms are able to train smaller, faster and more efficient networks than traditional algorithms for the proposed environments. However, scalability and stability problems were identified in these algorithms when applied to more complex problems, indicating the need for future investigations and improvements.Universidade Federal do Rio Grande do NorteEngenharia de ComputaçãoUFRNBrasilDepartamento de Engenharia de Computação e AutomaçãoAprendizado ProfundoAprendizagem por ReforçoAction BranchingStarCraft IIDeep LearningReinforcement LearningAction BranchingAction Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discretoAction Branching in Deep Reinforcement Learning networks to reduce dimensionality of discrete action spaceinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNinfo:eu-repo/semantics/openAccessORIGINALActionBranching_Alves_2022.pdfActionBranching_Alves_2022.pdfapplication/pdf10341389https://repositorio.ufrn.br/bitstream/123456789/49829/1/ActionBranching_Alves_2022.pdf708b3b09e3192c3167cc3fabf7ccdb82MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81484https://repositorio.ufrn.br/bitstream/123456789/49829/2/license.txte9597aa2854d128fd968be5edc8a28d9MD52123456789/498292022-11-22 13:21:36.619oai:https://repositorio.ufrn.br:123456789/49829Tk9OLUVYQ0xVU0lWRSBESVNUUklCVVRJT04gTElDRU5TRQoKCkJ5IHNpZ25pbmcgYW5kIGRlbGl2ZXJpbmcgdGhpcyBsaWNlbnNlLCBNci4gKGF1dGhvciBvciBjb3B5cmlnaHQgaG9sZGVyKToKCgphKSBHcmFudHMgdGhlIFVuaXZlcnNpZGFkZSBGZWRlcmFsIFJpbyBHcmFuZGUgZG8gTm9ydGUgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgb2YKcmVwcm9kdWNlLCBjb252ZXJ0IChhcyBkZWZpbmVkIGJlbG93KSwgY29tbXVuaWNhdGUgYW5kIC8gb3IKZGlzdHJpYnV0ZSB0aGUgZGVsaXZlcmVkIGRvY3VtZW50IChpbmNsdWRpbmcgYWJzdHJhY3QgLyBhYnN0cmFjdCkgaW4KZGlnaXRhbCBvciBwcmludGVkIGZvcm1hdCBhbmQgaW4gYW55IG1lZGl1bS4KCmIpIERlY2xhcmVzIHRoYXQgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBpdHMgb3JpZ2luYWwgd29yaywgYW5kIHRoYXQKeW91IGhhdmUgdGhlIHJpZ2h0IHRvIGdyYW50IHRoZSByaWdodHMgY29udGFpbmVkIGluIHRoaXMgbGljZW5zZS4gRGVjbGFyZXMKdGhhdCB0aGUgZGVsaXZlcnkgb2YgdGhlIGRvY3VtZW50IGRvZXMgbm90IGluZnJpbmdlLCBhcyBmYXIgYXMgaXQgaXMKdGhlIHJpZ2h0cyBvZiBhbnkgb3RoZXIgcGVyc29uIG9yIGVudGl0eS4KCmMpIElmIHRoZSBkb2N1bWVudCBkZWxpdmVyZWQgY29udGFpbnMgbWF0ZXJpYWwgd2hpY2ggZG9lcyBub3QKcmlnaHRzLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBvYnRhaW5lZCBhdXRob3JpemF0aW9uIGZyb20gdGhlIGhvbGRlciBvZiB0aGUKY29weXJpZ2h0IHRvIGdyYW50IHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCB0aGlzIG1hdGVyaWFsIHdob3NlIHJpZ2h0cyBhcmUgb2YKdGhpcmQgcGFydGllcyBpcyBjbGVhcmx5IGlkZW50aWZpZWQgYW5kIHJlY29nbml6ZWQgaW4gdGhlIHRleHQgb3IKY29udGVudCBvZiB0aGUgZG9jdW1lbnQgZGVsaXZlcmVkLgoKSWYgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBiYXNlZCBvbiBmdW5kZWQgb3Igc3VwcG9ydGVkIHdvcmsKYnkgYW5vdGhlciBpbnN0aXR1dGlvbiBvdGhlciB0aGFuIHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBmdWxmaWxsZWQgYW55IG9ibGlnYXRpb25zIHJlcXVpcmVkIGJ5IHRoZSByZXNwZWN0aXZlIGFncmVlbWVudCBvciBhZ3JlZW1lbnQuCgpUaGUgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZG8gUmlvIEdyYW5kZSBkbyBOb3J0ZSB3aWxsIGNsZWFybHkgaWRlbnRpZnkgaXRzIG5hbWUgKHMpIGFzIHRoZSBhdXRob3IgKHMpIG9yIGhvbGRlciAocykgb2YgdGhlIGRvY3VtZW50J3MgcmlnaHRzCmRlbGl2ZXJlZCwgYW5kIHdpbGwgbm90IG1ha2UgYW55IGNoYW5nZXMsIG90aGVyIHRoYW4gdGhvc2UgcGVybWl0dGVkIGJ5CnRoaXMgbGljZW5zZQo=Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2022-11-22T16:21:36Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.pt_BR.fl_str_mv |
Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto |
dc.title.alternative.pt_BR.fl_str_mv |
Action Branching in Deep Reinforcement Learning networks to reduce dimensionality of discrete action space |
title |
Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto |
spellingShingle |
Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto Alves, Luiz Paulo de Carvalho Aprendizado Profundo Aprendizagem por Reforço Action Branching StarCraft II Deep Learning Reinforcement Learning Action Branching |
title_short |
Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto |
title_full |
Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto |
title_fullStr |
Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto |
title_full_unstemmed |
Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto |
title_sort |
Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto |
author |
Alves, Luiz Paulo de Carvalho |
author_facet |
Alves, Luiz Paulo de Carvalho |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/9968066104677553 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/2381782879955327 |
dc.contributor.referees1.none.fl_str_mv |
Oliveira, Luiz Affonso Henderson Guedes de |
dc.contributor.referees1Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/7987212907837941 |
dc.contributor.referees2.none.fl_str_mv |
Araújo, Daniel Sabino Amorim de |
dc.contributor.referees2Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/4744754780165354 |
dc.contributor.author.fl_str_mv |
Alves, Luiz Paulo de Carvalho |
dc.contributor.advisor1.fl_str_mv |
Madeira, Charles Andryê Galvão |
contributor_str_mv |
Madeira, Charles Andryê Galvão |
dc.subject.por.fl_str_mv |
Aprendizado Profundo Aprendizagem por Reforço Action Branching StarCraft II Deep Learning Reinforcement Learning Action Branching |
topic |
Aprendizado Profundo Aprendizagem por Reforço Action Branching StarCraft II Deep Learning Reinforcement Learning Action Branching |
description |
Action Branching é um tipo de arquitetura de Redes Neurais Profundas que utiliza múltiplas saídas, em que cada uma representa uma dimensão do espaço de ações, para reduzir o tamanho final da saída. A arquitetura Action Branching foi proposta e utilizada para solucionar problemas com espaços de ação contínuos, especificamente problemas de controle contínuo em ambientes virtuais. No entanto, os autores dessa arquitetura afirmam que ela também poderia ser utilizada para problemas com espaço de ações discreto, contanto que esses problemas tivessem alta dimensionalidade de ações. Um problema de alta dimensionalidade com espaço de ações discreto é o problema de escolher uma posição (x, y) em um ambiente bidimensional, já que a quantidade de posições possíveis cresce quadraticamente com o aumento do tamanho máximo de x e y. Esse problema de escolha de posições se faz tangível em contextos como o de jogos de estratégia em tempo real, nos quais existem milhares de posições possíveis para realização de ações a cada instante do jogo. O objetivo deste trabalho é utilizar uma arquitetura Action Branching para reduzir a dimensionalidade da saída de Redes Neurais Profundas com espaços de ação discretos, e avaliar o efeito dessa modificação arquitetural no treinamento e aprendizado das redes. Os espaços de ações discretos utilizados neste trabalho representam posições em um ambiente bidimensional, ou seja, uma ação ou uma combinação de ações representa a escolha de uma posição espacial específica no ambiente. Os ambientes utilizados para realizar o treinamento e avaliação das redes neurais foram dois ambientes virtuais. O primeiro é StarCraft II, um jogo eletrônico de estratégia em tempo real, publicado pela Blizzard Entertainment. O segundo é o ambiente Clickgame, desenvolvido pelo autor a fim de realizar experimentos em ambientes mais simples. Como parte da realização deste trabalho, foram desenvolvidos pelo autor dois algoritmos de Aprendizagem por Reforço profundo com uma arquitetura de Action Branching, o algoritmo DDQNmo e o algoritmo BDQKeras. Foram, então, realizados diversos experimentos aplicando esses algoritmos em alguns minigames do StarCraft II, e também no ambiente Clickgame. Através dos experimentos foi possível constatar que os algoritmos implementados conseguem treinar redes menores, mais rápidas e mais eficientes que algoritmos tradicionais para os ambientes propostos. No entanto, foram identificados problemas de escalabilidade e de estabilidade nesses algoritmos quando aplicados em problemas mais complexos, indicando a necessidade de investigações e melhorias futuras. |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-11-22T16:21:35Z |
dc.date.available.fl_str_mv |
2022-11-22T16:21:35Z |
dc.date.issued.fl_str_mv |
2022-07-21 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
ALVES, Luiz Paulo de Carvalho. Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto. Orientador: Charles Andryê Galvão Madeira. 2022. 78 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2022. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/handle/123456789/49829 |
identifier_str_mv |
ALVES, Luiz Paulo de Carvalho. Action Branching em redes de Aprendizado por Reforço profundo para reduzir dimensionalidade de espaço de ações discreto. Orientador: Charles Andryê Galvão Madeira. 2022. 78 f. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) - Centro de Tecnologia, Universidade Federal do Rio Grande do Norte, Natal, 2022. |
url |
https://repositorio.ufrn.br/handle/123456789/49829 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.publisher.program.fl_str_mv |
Engenharia de Computação |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Departamento de Engenharia de Computação e Automação |
publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/49829/1/ActionBranching_Alves_2022.pdf https://repositorio.ufrn.br/bitstream/123456789/49829/2/license.txt |
bitstream.checksum.fl_str_mv |
708b3b09e3192c3167cc3fabf7ccdb82 e9597aa2854d128fd968be5edc8a28d9 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1814832903157186560 |