BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço

Lopes, Henrique de Paula

BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço

Detalhes bibliográficos
Autor(a) principal:	Lopes, Henrique de Paula
Data de Publicação:	2019
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/212941
Resumo:	Métodos de aprendizado por reforço tratam de problemas que compreendem uma subárea da inteligência artificial onde um agente, inserido dentro de um ambiente, tenta solucionar um determinado problema através de uma sequência de ações. Cada ação resulta em uma recompensa, e é com base apenas no acúmulo destas recompensas que o agente deve se guiar em busca da melhor solução para o problema. Problemas de aprendizado por reforço exigem, portanto, que o agente desenvolva um comportamento capaz de encontrar a melhor ação a ser tomada em um dado momento, a fim de maximizar o valor total das recompensas recebidas. Normalmente, o processo de busca por uma solução aceitável é bastante custoso, pois é exigido do agente que este avalie diversas sequências possíveis de ações, refinando sequências encontradas anteriormente e buscando outras sequências completamente novas. Para acelerar a avaliação de soluções encontradas e, portanto, o treinamento do agente, é comum o emprego de simuladores, que constroem virtualmente o ambiente e o agente nele inserido. Já existem diversos conjuntos de ferramentas (ou frameworks) que permitem que sejam construídos simuladores com certo grau de fidelidade e que não possuam uma acentuada curva de aprendizado. Há também, entretanto, um custo associado à adoção de um framework para construção de simuladores em um projeto que envolva aprendizado por reforço: este custo refere-se ao tempo necessário para que as ferramentas fornecidas pelo framework sejam compreendidas e o cenário proposto seja fielmente reproduzido utilizando-se de todas as funções fornecidas por ele. Este trabalho descreve o processo de criação de um framework de uso simples e que produz cenários padronizados, compatíveis com a API do Gym, software que vem sendo adotado como padrão no que diz respeito a ferramentas de benchmark de algoritmos de aprendizado por reforço (AR). Na ferramenta proposta por este trabalho, cenários são descritos através de uma linguagem de especificação de alto nível, permitindo que simulações de problemas de AR sejam modelados de maneira eficiente e que o resultado produzido esteja de acordo com ferramentas amplamente utilizadas na área.

Metadados do item

id	UFRGS-2_6bd18c2440dceb518c20948e431902e7
oai_identifier_str	oai:www.lume.ufrgs.br:10183/212941
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Lopes, Henrique de PaulaSilva, Bruno Castro da2020-08-18T03:41:55Z2019http://hdl.handle.net/10183/212941001116926Métodos de aprendizado por reforço tratam de problemas que compreendem uma subárea da inteligência artificial onde um agente, inserido dentro de um ambiente, tenta solucionar um determinado problema através de uma sequência de ações. Cada ação resulta em uma recompensa, e é com base apenas no acúmulo destas recompensas que o agente deve se guiar em busca da melhor solução para o problema. Problemas de aprendizado por reforço exigem, portanto, que o agente desenvolva um comportamento capaz de encontrar a melhor ação a ser tomada em um dado momento, a fim de maximizar o valor total das recompensas recebidas. Normalmente, o processo de busca por uma solução aceitável é bastante custoso, pois é exigido do agente que este avalie diversas sequências possíveis de ações, refinando sequências encontradas anteriormente e buscando outras sequências completamente novas. Para acelerar a avaliação de soluções encontradas e, portanto, o treinamento do agente, é comum o emprego de simuladores, que constroem virtualmente o ambiente e o agente nele inserido. Já existem diversos conjuntos de ferramentas (ou frameworks) que permitem que sejam construídos simuladores com certo grau de fidelidade e que não possuam uma acentuada curva de aprendizado. Há também, entretanto, um custo associado à adoção de um framework para construção de simuladores em um projeto que envolva aprendizado por reforço: este custo refere-se ao tempo necessário para que as ferramentas fornecidas pelo framework sejam compreendidas e o cenário proposto seja fielmente reproduzido utilizando-se de todas as funções fornecidas por ele. Este trabalho descreve o processo de criação de um framework de uso simples e que produz cenários padronizados, compatíveis com a API do Gym, software que vem sendo adotado como padrão no que diz respeito a ferramentas de benchmark de algoritmos de aprendizado por reforço (AR). Na ferramenta proposta por este trabalho, cenários são descritos através de uma linguagem de especificação de alto nível, permitindo que simulações de problemas de AR sejam modelados de maneira eficiente e que o resultado produzido esteja de acordo com ferramentas amplamente utilizadas na área.Reinforcement learning methods deal with problems that comprise a subarea of artificial intelligence where an agent, inside an environment, tries to solve a problem through a sequence of actions. Every action results in a reward, and it is based only in the accumulated sum of these rewards that the agent must guide itself in search of the best possible solution for the problem. Reinforcement learning problems require, therefore, that the agent develop a behavior able to find the best possible action to be taken at a given moment, in order to maximize the total value of the rewards. Usually, the process of search for an acceptable solution is costful, because the agent is required to evaluate several possible sequences of actions, refining sequences previously found and searching for other entirely new sequences. To speed up the evaluation of the found solutions, and, therefore, the training of the agent, it is common the use of simulators, that build virtually the environment and the agent in it. There is already several frameworks that allow the building of simulators with certain degree of fidelity and that do not have a steep learning curve. There is, however, a cost associated to the adoption of such frameworks: this cost is related to the time needed to understand the tools provided by the framework and to reproduce the problem’s environment using them. This work describes a framework of simple use and that produces standardized scenarios, compatible with the interface of Gym, a software that has been adopted as a standard on which concerns benchmark tools for reinforcement learning algorithms. By using the tool proposed by this work, one can describe scenarios through a specification language, allowing reinforcement learning simulations to be modeled efficiently and also guaranteeing that the produced results are compatible with tools that are broadly used in the field.application/pdfporInformáticaElectronic documentBARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforçoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RSCiência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001116926.pdf.txt001116926.pdf.txtExtracted Texttext/plain182208http://www.lume.ufrgs.br/bitstream/10183/212941/2/001116926.pdf.txt10d504a9cc6fd88c67c41c8be8478a24MD52ORIGINAL001116926.pdfTexto completoapplication/pdf3697913http://www.lume.ufrgs.br/bitstream/10183/212941/1/001116926.pdf2750b677fde2a9cfba1e68d654f933fcMD5110183/2129412020-08-19 03:39:00.666345oai:www.lume.ufrgs.br:10183/212941Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2020-08-19T06:39Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
title	BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
spellingShingle	BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço Lopes, Henrique de Paula Informática Electronic document
title_short	BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
title_full	BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
title_fullStr	BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
title_full_unstemmed	BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
title_sort	BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
author	Lopes, Henrique de Paula
author_facet	Lopes, Henrique de Paula
author_role	author
dc.contributor.author.fl_str_mv	Lopes, Henrique de Paula
dc.contributor.advisor1.fl_str_mv	Silva, Bruno Castro da
contributor_str_mv	Silva, Bruno Castro da
dc.subject.por.fl_str_mv	Informática
topic	Informática Electronic document
dc.subject.eng.fl_str_mv	Electronic document
description	Métodos de aprendizado por reforço tratam de problemas que compreendem uma subárea da inteligência artificial onde um agente, inserido dentro de um ambiente, tenta solucionar um determinado problema através de uma sequência de ações. Cada ação resulta em uma recompensa, e é com base apenas no acúmulo destas recompensas que o agente deve se guiar em busca da melhor solução para o problema. Problemas de aprendizado por reforço exigem, portanto, que o agente desenvolva um comportamento capaz de encontrar a melhor ação a ser tomada em um dado momento, a fim de maximizar o valor total das recompensas recebidas. Normalmente, o processo de busca por uma solução aceitável é bastante custoso, pois é exigido do agente que este avalie diversas sequências possíveis de ações, refinando sequências encontradas anteriormente e buscando outras sequências completamente novas. Para acelerar a avaliação de soluções encontradas e, portanto, o treinamento do agente, é comum o emprego de simuladores, que constroem virtualmente o ambiente e o agente nele inserido. Já existem diversos conjuntos de ferramentas (ou frameworks) que permitem que sejam construídos simuladores com certo grau de fidelidade e que não possuam uma acentuada curva de aprendizado. Há também, entretanto, um custo associado à adoção de um framework para construção de simuladores em um projeto que envolva aprendizado por reforço: este custo refere-se ao tempo necessário para que as ferramentas fornecidas pelo framework sejam compreendidas e o cenário proposto seja fielmente reproduzido utilizando-se de todas as funções fornecidas por ele. Este trabalho descreve o processo de criação de um framework de uso simples e que produz cenários padronizados, compatíveis com a API do Gym, software que vem sendo adotado como padrão no que diz respeito a ferramentas de benchmark de algoritmos de aprendizado por reforço (AR). Na ferramenta proposta por este trabalho, cenários são descritos através de uma linguagem de especificação de alto nível, permitindo que simulações de problemas de AR sejam modelados de maneira eficiente e que o resultado produzido esteja de acordo com ferramentas amplamente utilizadas na área.
publishDate	2019
dc.date.issued.fl_str_mv	2019
dc.date.accessioned.fl_str_mv	2020-08-18T03:41:55Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/212941
dc.identifier.nrb.pt_BR.fl_str_mv	001116926
url	http://hdl.handle.net/10183/212941
identifier_str_mv	001116926
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/212941/2/001116926.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/212941/1/001116926.pdf
bitstream.checksum.fl_str_mv	10d504a9cc6fd88c67c41c8be8478a24 2750b677fde2a9cfba1e68d654f933fc
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224597766406144

BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço

Registros relacionados