BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço

Detalhes bibliográficos
Autor(a) principal: Lopes, Henrique de Paula
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/212941
Resumo: Métodos de aprendizado por reforço tratam de problemas que compreendem uma subárea da inteligência artificial onde um agente, inserido dentro de um ambiente, tenta solucionar um determinado problema através de uma sequência de ações. Cada ação resulta em uma recompensa, e é com base apenas no acúmulo destas recompensas que o agente deve se guiar em busca da melhor solução para o problema. Problemas de aprendizado por reforço exigem, portanto, que o agente desenvolva um comportamento capaz de encontrar a melhor ação a ser tomada em um dado momento, a fim de maximizar o valor total das recompensas recebidas. Normalmente, o processo de busca por uma solução aceitável é bastante custoso, pois é exigido do agente que este avalie diversas sequências possíveis de ações, refinando sequências encontradas anteriormente e buscando outras sequências completamente novas. Para acelerar a avaliação de soluções encontradas e, portanto, o treinamento do agente, é comum o emprego de simuladores, que constroem virtualmente o ambiente e o agente nele inserido. Já existem diversos conjuntos de ferramentas (ou frameworks) que permitem que sejam construídos simuladores com certo grau de fidelidade e que não possuam uma acentuada curva de aprendizado. Há também, entretanto, um custo associado à adoção de um framework para construção de simuladores em um projeto que envolva aprendizado por reforço: este custo refere-se ao tempo necessário para que as ferramentas fornecidas pelo framework sejam compreendidas e o cenário proposto seja fielmente reproduzido utilizando-se de todas as funções fornecidas por ele. Este trabalho descreve o processo de criação de um framework de uso simples e que produz cenários padronizados, compatíveis com a API do Gym, software que vem sendo adotado como padrão no que diz respeito a ferramentas de benchmark de algoritmos de aprendizado por reforço (AR). Na ferramenta proposta por este trabalho, cenários são descritos através de uma linguagem de especificação de alto nível, permitindo que simulações de problemas de AR sejam modelados de maneira eficiente e que o resultado produzido esteja de acordo com ferramentas amplamente utilizadas na área.
id UFRGS-2_6bd18c2440dceb518c20948e431902e7
oai_identifier_str oai:www.lume.ufrgs.br:10183/212941
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Lopes, Henrique de PaulaSilva, Bruno Castro da2020-08-18T03:41:55Z2019http://hdl.handle.net/10183/212941001116926Métodos de aprendizado por reforço tratam de problemas que compreendem uma subárea da inteligência artificial onde um agente, inserido dentro de um ambiente, tenta solucionar um determinado problema através de uma sequência de ações. Cada ação resulta em uma recompensa, e é com base apenas no acúmulo destas recompensas que o agente deve se guiar em busca da melhor solução para o problema. Problemas de aprendizado por reforço exigem, portanto, que o agente desenvolva um comportamento capaz de encontrar a melhor ação a ser tomada em um dado momento, a fim de maximizar o valor total das recompensas recebidas. Normalmente, o processo de busca por uma solução aceitável é bastante custoso, pois é exigido do agente que este avalie diversas sequências possíveis de ações, refinando sequências encontradas anteriormente e buscando outras sequências completamente novas. Para acelerar a avaliação de soluções encontradas e, portanto, o treinamento do agente, é comum o emprego de simuladores, que constroem virtualmente o ambiente e o agente nele inserido. Já existem diversos conjuntos de ferramentas (ou frameworks) que permitem que sejam construídos simuladores com certo grau de fidelidade e que não possuam uma acentuada curva de aprendizado. Há também, entretanto, um custo associado à adoção de um framework para construção de simuladores em um projeto que envolva aprendizado por reforço: este custo refere-se ao tempo necessário para que as ferramentas fornecidas pelo framework sejam compreendidas e o cenário proposto seja fielmente reproduzido utilizando-se de todas as funções fornecidas por ele. Este trabalho descreve o processo de criação de um framework de uso simples e que produz cenários padronizados, compatíveis com a API do Gym, software que vem sendo adotado como padrão no que diz respeito a ferramentas de benchmark de algoritmos de aprendizado por reforço (AR). Na ferramenta proposta por este trabalho, cenários são descritos através de uma linguagem de especificação de alto nível, permitindo que simulações de problemas de AR sejam modelados de maneira eficiente e que o resultado produzido esteja de acordo com ferramentas amplamente utilizadas na área.Reinforcement learning methods deal with problems that comprise a subarea of artificial intelligence where an agent, inside an environment, tries to solve a problem through a sequence of actions. Every action results in a reward, and it is based only in the accumulated sum of these rewards that the agent must guide itself in search of the best possible solution for the problem. Reinforcement learning problems require, therefore, that the agent develop a behavior able to find the best possible action to be taken at a given moment, in order to maximize the total value of the rewards. Usually, the process of search for an acceptable solution is costful, because the agent is required to evaluate several possible sequences of actions, refining sequences previously found and searching for other entirely new sequences. To speed up the evaluation of the found solutions, and, therefore, the training of the agent, it is common the use of simulators, that build virtually the environment and the agent in it. There is already several frameworks that allow the building of simulators with certain degree of fidelity and that do not have a steep learning curve. There is, however, a cost associated to the adoption of such frameworks: this cost is related to the time needed to understand the tools provided by the framework and to reproduce the problem’s environment using them. This work describes a framework of simple use and that produces standardized scenarios, compatible with the interface of Gym, a software that has been adopted as a standard on which concerns benchmark tools for reinforcement learning algorithms. By using the tool proposed by this work, one can describe scenarios through a specification language, allowing reinforcement learning simulations to be modeled efficiently and also guaranteeing that the produced results are compatible with tools that are broadly used in the field.application/pdfporInformáticaElectronic documentBARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforçoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RSCiência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001116926.pdf.txt001116926.pdf.txtExtracted Texttext/plain182208http://www.lume.ufrgs.br/bitstream/10183/212941/2/001116926.pdf.txt10d504a9cc6fd88c67c41c8be8478a24MD52ORIGINAL001116926.pdfTexto completoapplication/pdf3697913http://www.lume.ufrgs.br/bitstream/10183/212941/1/001116926.pdf2750b677fde2a9cfba1e68d654f933fcMD5110183/2129412020-08-19 03:39:00.666345oai:www.lume.ufrgs.br:10183/212941Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2020-08-19T06:39Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
title BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
spellingShingle BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
Lopes, Henrique de Paula
Informática
Electronic document
title_short BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
title_full BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
title_fullStr BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
title_full_unstemmed BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
title_sort BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
author Lopes, Henrique de Paula
author_facet Lopes, Henrique de Paula
author_role author
dc.contributor.author.fl_str_mv Lopes, Henrique de Paula
dc.contributor.advisor1.fl_str_mv Silva, Bruno Castro da
contributor_str_mv Silva, Bruno Castro da
dc.subject.por.fl_str_mv Informática
topic Informática
Electronic document
dc.subject.eng.fl_str_mv Electronic document
description Métodos de aprendizado por reforço tratam de problemas que compreendem uma subárea da inteligência artificial onde um agente, inserido dentro de um ambiente, tenta solucionar um determinado problema através de uma sequência de ações. Cada ação resulta em uma recompensa, e é com base apenas no acúmulo destas recompensas que o agente deve se guiar em busca da melhor solução para o problema. Problemas de aprendizado por reforço exigem, portanto, que o agente desenvolva um comportamento capaz de encontrar a melhor ação a ser tomada em um dado momento, a fim de maximizar o valor total das recompensas recebidas. Normalmente, o processo de busca por uma solução aceitável é bastante custoso, pois é exigido do agente que este avalie diversas sequências possíveis de ações, refinando sequências encontradas anteriormente e buscando outras sequências completamente novas. Para acelerar a avaliação de soluções encontradas e, portanto, o treinamento do agente, é comum o emprego de simuladores, que constroem virtualmente o ambiente e o agente nele inserido. Já existem diversos conjuntos de ferramentas (ou frameworks) que permitem que sejam construídos simuladores com certo grau de fidelidade e que não possuam uma acentuada curva de aprendizado. Há também, entretanto, um custo associado à adoção de um framework para construção de simuladores em um projeto que envolva aprendizado por reforço: este custo refere-se ao tempo necessário para que as ferramentas fornecidas pelo framework sejam compreendidas e o cenário proposto seja fielmente reproduzido utilizando-se de todas as funções fornecidas por ele. Este trabalho descreve o processo de criação de um framework de uso simples e que produz cenários padronizados, compatíveis com a API do Gym, software que vem sendo adotado como padrão no que diz respeito a ferramentas de benchmark de algoritmos de aprendizado por reforço (AR). Na ferramenta proposta por este trabalho, cenários são descritos através de uma linguagem de especificação de alto nível, permitindo que simulações de problemas de AR sejam modelados de maneira eficiente e que o resultado produzido esteja de acordo com ferramentas amplamente utilizadas na área.
publishDate 2019
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2020-08-18T03:41:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/212941
dc.identifier.nrb.pt_BR.fl_str_mv 001116926
url http://hdl.handle.net/10183/212941
identifier_str_mv 001116926
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/212941/2/001116926.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/212941/1/001116926.pdf
bitstream.checksum.fl_str_mv 10d504a9cc6fd88c67c41c8be8478a24
2750b677fde2a9cfba1e68d654f933fc
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224597766406144