Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go

Detalhes bibliográficos
Autor(a) principal: Sakurai, Rafael Guimarães
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFABC
Texto Completo: http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651
Resumo: Orientador: Prof. Dr. Fabrício Olivetti de França
id UFBC_f031f65c00d70b6e7cb08b47b533be4c
oai_identifier_str oai:BDTD:106651
network_acronym_str UFBC
network_name_str Repositório Institucional da UFABC
repository_id_str
spelling Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo GoNEUROEVOLUÇÃOREDES NEURAIS CONVOLUCIONAISJOGO GONEUROEVOLUTIONCONVOLUTIONAL NEURAL NETWORKSGO GAMEPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABCOrientador: Prof. Dr. Fabrício Olivetti de FrançaDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017.Go é um jogo de tabuleiro que chama muita atenção na área de Inteligência Artificial, por ser um problema complexo de resolver e precisar de diferentes estratégias para obter um bom nível de habilidade no jogo. Até 2015, todos os melhores programas de Go precisavam começar a partida com vantagem para poder ganhar de um jogador profissional, mas no final de 2015, o programa AlphaGo foi o primeiro e único até o momento capaz de vencer um jogador profissional sem precisar de vantagem, combinando o uso de redes neurais convolucionais profundas para direcionar as buscas em árvores de Monte-Carlo. Esta dissertação tem como objetivo principal criar um agente inteligente de Go que decide seus próximos movimentoscom base no cenário atual do tabuleiro e em modelos de predição criados para três estratégias específicas do jogo. Para isso, duas hipóteses foram testadas: i) é possívelespecializar agentes inteligentes para o aprendizado de estratégias parciais do jogo de Go, ii) a combinação dessas estratégias permitem a construção de um agente inteligente para o jogo de Go. Para a primeira hipótese um agente foi treinado para aprender, com base em um jogador heurístico e posteriormente com base nos melhores agentes treinados, a posicionar as pedras para permitir a expansão do território, este agente aprendeu a generalizar esta estratégia contra os indivíduos treinados em diferentes estágios e também a capturar pedras. Também foram treinados dois agentes com base na resolução de problemas, com objetivo de aprenderem as estratégias específicas de captura e defesa das pedras. Em ambos os treinamentos foi possível notar que o conhecimento para resolver um problema era propagado para as próximas gerações de indivíduos, mas o nível de aprendizado foi baixo devido ao pouco treinamento. Para a segunda hipótese, um agente foi treinado para decidir qual das três estratégias específicas utilizar de acordo com o estado atual do tabuleiro. Foi possível constatar que este agente, jogando contra outros indivíduos da população, evoluiu na escolha de melhores estratégias, permitindo a dominação de territórios, captura e defensa das pedras. Os agentes foram criados utilizando Redes Neurais Convolucionais, sem qualquer conhecimento prévio sobre como jogar Go, e o treinamento foi feito com Neuroevolução. Como resultado foi possível perceber a evolução dos agentes para aprender as estratégias e comportamentos distintos de forma segmentada. O nível do agente inteligente gerado ainda está distante de um jogador profissional, porém ainda existem opções de melhorias para serem testadas com parametrização, reformulação da função de aptidão, entre outros. Esses resultados propõem novas possibilidades para a criação de agentes inteligentes para jogos complexos.Go is a board game that draws a lot of attention in the Artificial Intelligence area, because it is a complex problem to solve and needs different strategies in order to obtain a good skill level in the game. By 2015, all the Go¿s best programs must start the match with advantage to win over a professional player, but in the end of 2015, the AlphaGo program was the first and, so far, the only one capable of beating a professional player without needing advantage, combining the use of deep convolutional neural networks to orientate the searches on Monte-Carlo trees. This dissertation has as main objective to create an intelligent agent of Go that decides its next movements based on current scenario of the board and in prediction models created for three specific strategies of the game. For this purpose, two hypothesis were tested: i) whether it is possible to specialize intelligent agents to learn partial strategies of Go game, ii) whether the combination of these strategies allows the construction of an intelligent agent to play Go. For the first hyphotesis, an agent was trained to learn, based on matches again a heuristic player and later based on the best trained agents, to position the stones to allow the expansion of territory, this agent learn to generalize this strategy against individuals trained in different stages and capture stones too. Two agents were also trained based on problem solving, in order to learn the specific strategies of catching and defense of stones. In both trainings were possible to note that the knowledge to solve a problem was propagated to the next generations of individuals, but the level of learning was low due to the short training. For the second hyphotesis, an agent was trained to decide which of the three specific strategies to use according to the current state of the board. It was possible to verify that this agent, playing against other individuals population, evolved in choosing better strategies, allowing territories domination, capture and defend stones. The agents was created using Convolution Neural Networks, without any previous knowledge about how to play Go, and the training was performed using Neuroevolution. As a result, it was possible to perceive the evolution of agents to learn different strategies and behaviours in a segmented way. The intelligent agent generated¿s skill still far from a professional player, however there are still options for improvement to be tested with parameterization, reformulation of fitness function, and others. These results propose new opportunities for the creation of intelligent agents for complex games.França, Fabricio Olivetti deMartins Junior, David CorrêaPeres, Sarajane MarquesSakurai, Rafael Guimarães2017info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf122 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74730http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74729Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=106651porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2017-11-27T15:31:18Zoai:BDTD:106651Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2017-11-27T15:31:18Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false
dc.title.none.fl_str_mv Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
spellingShingle Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
Sakurai, Rafael Guimarães
NEUROEVOLUÇÃO
REDES NEURAIS CONVOLUCIONAIS
JOGO GO
NEUROEVOLUTION
CONVOLUTIONAL NEURAL NETWORKS
GO GAME
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC
title_short Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_full Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_fullStr Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_full_unstemmed Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_sort Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
author Sakurai, Rafael Guimarães
author_facet Sakurai, Rafael Guimarães
author_role author
dc.contributor.none.fl_str_mv França, Fabricio Olivetti de
Martins Junior, David Corrêa
Peres, Sarajane Marques
dc.contributor.author.fl_str_mv Sakurai, Rafael Guimarães
dc.subject.por.fl_str_mv NEUROEVOLUÇÃO
REDES NEURAIS CONVOLUCIONAIS
JOGO GO
NEUROEVOLUTION
CONVOLUTIONAL NEURAL NETWORKS
GO GAME
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC
topic NEUROEVOLUÇÃO
REDES NEURAIS CONVOLUCIONAIS
JOGO GO
NEUROEVOLUTION
CONVOLUTIONAL NEURAL NETWORKS
GO GAME
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC
description Orientador: Prof. Dr. Fabrício Olivetti de França
publishDate 2017
dc.date.none.fl_str_mv 2017
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651
url http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74730
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74729
Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=106651
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
122 f. : il.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFABC
instname:Universidade Federal do ABC (UFABC)
instacron:UFABC
instname_str Universidade Federal do ABC (UFABC)
instacron_str UFABC
institution UFABC
reponame_str Repositório Institucional da UFABC
collection Repositório Institucional da UFABC
repository.name.fl_str_mv Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)
repository.mail.fl_str_mv
_version_ 1801502099681312768