Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go

Sakurai, Rafael Guimarães

Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go

Detalhes bibliográficos
Autor(a) principal:	Sakurai, Rafael Guimarães
Data de Publicação:	2017
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFABC
Texto Completo:	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651
Resumo:	Orientador: Prof. Dr. Fabrício Olivetti de França

Metadados do item

id	UFBC_f031f65c00d70b6e7cb08b47b533be4c
oai_identifier_str	oai:BDTD:106651
network_acronym_str	UFBC
network_name_str	Repositório Institucional da UFABC
repository_id_str
spelling	Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo GoNEUROEVOLUÇÃOREDES NEURAIS CONVOLUCIONAISJOGO GONEUROEVOLUTIONCONVOLUTIONAL NEURAL NETWORKSGO GAMEPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABCOrientador: Prof. Dr. Fabrício Olivetti de FrançaDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, 2017.Go é um jogo de tabuleiro que chama muita atenção na área de Inteligência Artificial, por ser um problema complexo de resolver e precisar de diferentes estratégias para obter um bom nível de habilidade no jogo. Até 2015, todos os melhores programas de Go precisavam começar a partida com vantagem para poder ganhar de um jogador profissional, mas no final de 2015, o programa AlphaGo foi o primeiro e único até o momento capaz de vencer um jogador profissional sem precisar de vantagem, combinando o uso de redes neurais convolucionais profundas para direcionar as buscas em árvores de Monte-Carlo. Esta dissertação tem como objetivo principal criar um agente inteligente de Go que decide seus próximos movimentoscom base no cenário atual do tabuleiro e em modelos de predição criados para três estratégias específicas do jogo. Para isso, duas hipóteses foram testadas: i) é possívelespecializar agentes inteligentes para o aprendizado de estratégias parciais do jogo de Go, ii) a combinação dessas estratégias permitem a construção de um agente inteligente para o jogo de Go. Para a primeira hipótese um agente foi treinado para aprender, com base em um jogador heurístico e posteriormente com base nos melhores agentes treinados, a posicionar as pedras para permitir a expansão do território, este agente aprendeu a generalizar esta estratégia contra os indivíduos treinados em diferentes estágios e também a capturar pedras. Também foram treinados dois agentes com base na resolução de problemas, com objetivo de aprenderem as estratégias específicas de captura e defesa das pedras. Em ambos os treinamentos foi possível notar que o conhecimento para resolver um problema era propagado para as próximas gerações de indivíduos, mas o nível de aprendizado foi baixo devido ao pouco treinamento. Para a segunda hipótese, um agente foi treinado para decidir qual das três estratégias específicas utilizar de acordo com o estado atual do tabuleiro. Foi possível constatar que este agente, jogando contra outros indivíduos da população, evoluiu na escolha de melhores estratégias, permitindo a dominação de territórios, captura e defensa das pedras. Os agentes foram criados utilizando Redes Neurais Convolucionais, sem qualquer conhecimento prévio sobre como jogar Go, e o treinamento foi feito com Neuroevolução. Como resultado foi possível perceber a evolução dos agentes para aprender as estratégias e comportamentos distintos de forma segmentada. O nível do agente inteligente gerado ainda está distante de um jogador profissional, porém ainda existem opções de melhorias para serem testadas com parametrização, reformulação da função de aptidão, entre outros. Esses resultados propõem novas possibilidades para a criação de agentes inteligentes para jogos complexos.Go is a board game that draws a lot of attention in the Artificial Intelligence area, because it is a complex problem to solve and needs different strategies in order to obtain a good skill level in the game. By 2015, all the Go¿s best programs must start the match with advantage to win over a professional player, but in the end of 2015, the AlphaGo program was the first and, so far, the only one capable of beating a professional player without needing advantage, combining the use of deep convolutional neural networks to orientate the searches on Monte-Carlo trees. This dissertation has as main objective to create an intelligent agent of Go that decides its next movements based on current scenario of the board and in prediction models created for three specific strategies of the game. For this purpose, two hypothesis were tested: i) whether it is possible to specialize intelligent agents to learn partial strategies of Go game, ii) whether the combination of these strategies allows the construction of an intelligent agent to play Go. For the first hyphotesis, an agent was trained to learn, based on matches again a heuristic player and later based on the best trained agents, to position the stones to allow the expansion of territory, this agent learn to generalize this strategy against individuals trained in different stages and capture stones too. Two agents were also trained based on problem solving, in order to learn the specific strategies of catching and defense of stones. In both trainings were possible to note that the knowledge to solve a problem was propagated to the next generations of individuals, but the level of learning was low due to the short training. For the second hyphotesis, an agent was trained to decide which of the three specific strategies to use according to the current state of the board. It was possible to verify that this agent, playing against other individuals population, evolved in choosing better strategies, allowing territories domination, capture and defend stones. The agents was created using Convolution Neural Networks, without any previous knowledge about how to play Go, and the training was performed using Neuroevolution. As a result, it was possible to perceive the evolution of agents to learn different strategies and behaviours in a segmented way. The intelligent agent generated¿s skill still far from a professional player, however there are still options for improvement to be tested with parameterization, reformulation of fitness function, and others. These results propose new opportunities for the creation of intelligent agents for complex games.França, Fabricio Olivetti deMartins Junior, David CorrêaPeres, Sarajane MarquesSakurai, Rafael Guimarães2017info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf122 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74730http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74729Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=106651porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2017-11-27T15:31:18Zoai:BDTD:106651Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2017-11-27T15:31:18Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false
dc.title.none.fl_str_mv	Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title	Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
spellingShingle	Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go Sakurai, Rafael Guimarães NEUROEVOLUÇÃO REDES NEURAIS CONVOLUCIONAIS JOGO GO NEUROEVOLUTION CONVOLUTIONAL NEURAL NETWORKS GO GAME PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC
title_short	Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_full	Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_fullStr	Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_full_unstemmed	Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
title_sort	Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go
author	Sakurai, Rafael Guimarães
author_facet	Sakurai, Rafael Guimarães
author_role	author
dc.contributor.none.fl_str_mv	França, Fabricio Olivetti de Martins Junior, David Corrêa Peres, Sarajane Marques
dc.contributor.author.fl_str_mv	Sakurai, Rafael Guimarães
dc.subject.por.fl_str_mv	NEUROEVOLUÇÃO REDES NEURAIS CONVOLUCIONAIS JOGO GO NEUROEVOLUTION CONVOLUTIONAL NEURAL NETWORKS GO GAME PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC
topic	NEUROEVOLUÇÃO REDES NEURAIS CONVOLUCIONAIS JOGO GO NEUROEVOLUTION CONVOLUTIONAL NEURAL NETWORKS GO GAME PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC
description	Orientador: Prof. Dr. Fabrício Olivetti de França
publishDate	2017
dc.date.none.fl_str_mv	2017
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651
url	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74730 http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=106651&midiaext=74729 Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=106651
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf 122 f. : il.
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFABC instname:Universidade Federal do ABC (UFABC) instacron:UFABC
instname_str	Universidade Federal do ABC (UFABC)
instacron_str	UFABC
institution	UFABC
reponame_str	Repositório Institucional da UFABC
collection	Repositório Institucional da UFABC
repository.name.fl_str_mv	Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)
repository.mail.fl_str_mv
_version_	1813263942601932800

Neuroevolução aplicada no treinamento de redes neurais convolucionais para aprender estratégias específicas do jogo Go

Registros relacionados