BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/212941 |
Resumo: | Métodos de aprendizado por reforço tratam de problemas que compreendem uma subárea da inteligência artificial onde um agente, inserido dentro de um ambiente, tenta solucionar um determinado problema através de uma sequência de ações. Cada ação resulta em uma recompensa, e é com base apenas no acúmulo destas recompensas que o agente deve se guiar em busca da melhor solução para o problema. Problemas de aprendizado por reforço exigem, portanto, que o agente desenvolva um comportamento capaz de encontrar a melhor ação a ser tomada em um dado momento, a fim de maximizar o valor total das recompensas recebidas. Normalmente, o processo de busca por uma solução aceitável é bastante custoso, pois é exigido do agente que este avalie diversas sequências possíveis de ações, refinando sequências encontradas anteriormente e buscando outras sequências completamente novas. Para acelerar a avaliação de soluções encontradas e, portanto, o treinamento do agente, é comum o emprego de simuladores, que constroem virtualmente o ambiente e o agente nele inserido. Já existem diversos conjuntos de ferramentas (ou frameworks) que permitem que sejam construídos simuladores com certo grau de fidelidade e que não possuam uma acentuada curva de aprendizado. Há também, entretanto, um custo associado à adoção de um framework para construção de simuladores em um projeto que envolva aprendizado por reforço: este custo refere-se ao tempo necessário para que as ferramentas fornecidas pelo framework sejam compreendidas e o cenário proposto seja fielmente reproduzido utilizando-se de todas as funções fornecidas por ele. Este trabalho descreve o processo de criação de um framework de uso simples e que produz cenários padronizados, compatíveis com a API do Gym, software que vem sendo adotado como padrão no que diz respeito a ferramentas de benchmark de algoritmos de aprendizado por reforço (AR). Na ferramenta proposta por este trabalho, cenários são descritos através de uma linguagem de especificação de alto nível, permitindo que simulações de problemas de AR sejam modelados de maneira eficiente e que o resultado produzido esteja de acordo com ferramentas amplamente utilizadas na área. |
id |
UFRGS-2_6bd18c2440dceb518c20948e431902e7 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/212941 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Lopes, Henrique de PaulaSilva, Bruno Castro da2020-08-18T03:41:55Z2019http://hdl.handle.net/10183/212941001116926Métodos de aprendizado por reforço tratam de problemas que compreendem uma subárea da inteligência artificial onde um agente, inserido dentro de um ambiente, tenta solucionar um determinado problema através de uma sequência de ações. Cada ação resulta em uma recompensa, e é com base apenas no acúmulo destas recompensas que o agente deve se guiar em busca da melhor solução para o problema. Problemas de aprendizado por reforço exigem, portanto, que o agente desenvolva um comportamento capaz de encontrar a melhor ação a ser tomada em um dado momento, a fim de maximizar o valor total das recompensas recebidas. Normalmente, o processo de busca por uma solução aceitável é bastante custoso, pois é exigido do agente que este avalie diversas sequências possíveis de ações, refinando sequências encontradas anteriormente e buscando outras sequências completamente novas. Para acelerar a avaliação de soluções encontradas e, portanto, o treinamento do agente, é comum o emprego de simuladores, que constroem virtualmente o ambiente e o agente nele inserido. Já existem diversos conjuntos de ferramentas (ou frameworks) que permitem que sejam construídos simuladores com certo grau de fidelidade e que não possuam uma acentuada curva de aprendizado. Há também, entretanto, um custo associado à adoção de um framework para construção de simuladores em um projeto que envolva aprendizado por reforço: este custo refere-se ao tempo necessário para que as ferramentas fornecidas pelo framework sejam compreendidas e o cenário proposto seja fielmente reproduzido utilizando-se de todas as funções fornecidas por ele. Este trabalho descreve o processo de criação de um framework de uso simples e que produz cenários padronizados, compatíveis com a API do Gym, software que vem sendo adotado como padrão no que diz respeito a ferramentas de benchmark de algoritmos de aprendizado por reforço (AR). Na ferramenta proposta por este trabalho, cenários são descritos através de uma linguagem de especificação de alto nível, permitindo que simulações de problemas de AR sejam modelados de maneira eficiente e que o resultado produzido esteja de acordo com ferramentas amplamente utilizadas na área.Reinforcement learning methods deal with problems that comprise a subarea of artificial intelligence where an agent, inside an environment, tries to solve a problem through a sequence of actions. Every action results in a reward, and it is based only in the accumulated sum of these rewards that the agent must guide itself in search of the best possible solution for the problem. Reinforcement learning problems require, therefore, that the agent develop a behavior able to find the best possible action to be taken at a given moment, in order to maximize the total value of the rewards. Usually, the process of search for an acceptable solution is costful, because the agent is required to evaluate several possible sequences of actions, refining sequences previously found and searching for other entirely new sequences. To speed up the evaluation of the found solutions, and, therefore, the training of the agent, it is common the use of simulators, that build virtually the environment and the agent in it. There is already several frameworks that allow the building of simulators with certain degree of fidelity and that do not have a steep learning curve. There is, however, a cost associated to the adoption of such frameworks: this cost is related to the time needed to understand the tools provided by the framework and to reproduce the problem’s environment using them. This work describes a framework of simple use and that produces standardized scenarios, compatible with the interface of Gym, a software that has been adopted as a standard on which concerns benchmark tools for reinforcement learning algorithms. By using the tool proposed by this work, one can describe scenarios through a specification language, allowing reinforcement learning simulations to be modeled efficiently and also guaranteeing that the produced results are compatible with tools that are broadly used in the field.application/pdfporInteligência artificialAprendizado por reforçoAprendizado de máquinaElectronic documentBARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforçoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RSCiência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001116926.pdf.txt001116926.pdf.txtExtracted Texttext/plain182208http://www.lume.ufrgs.br/bitstream/10183/212941/2/001116926.pdf.txt10d504a9cc6fd88c67c41c8be8478a24MD52ORIGINAL001116926.pdfTexto completoapplication/pdf3697913http://www.lume.ufrgs.br/bitstream/10183/212941/1/001116926.pdf2750b677fde2a9cfba1e68d654f933fcMD5110183/2129412024-07-12 06:10:12.79738oai:www.lume.ufrgs.br:10183/212941Repositório InstitucionalPUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.bropendoar:2024-07-12T09:10:12Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço |
title |
BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço |
spellingShingle |
BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço Lopes, Henrique de Paula Inteligência artificial Aprendizado por reforço Aprendizado de máquina Electronic document |
title_short |
BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço |
title_full |
BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço |
title_fullStr |
BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço |
title_full_unstemmed |
BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço |
title_sort |
BARBELL : um Framework para modelagem e simulação de ambientes de aprendizado por reforço |
author |
Lopes, Henrique de Paula |
author_facet |
Lopes, Henrique de Paula |
author_role |
author |
dc.contributor.author.fl_str_mv |
Lopes, Henrique de Paula |
dc.contributor.advisor1.fl_str_mv |
Silva, Bruno Castro da |
contributor_str_mv |
Silva, Bruno Castro da |
dc.subject.por.fl_str_mv |
Inteligência artificial Aprendizado por reforço Aprendizado de máquina |
topic |
Inteligência artificial Aprendizado por reforço Aprendizado de máquina Electronic document |
dc.subject.eng.fl_str_mv |
Electronic document |
description |
Métodos de aprendizado por reforço tratam de problemas que compreendem uma subárea da inteligência artificial onde um agente, inserido dentro de um ambiente, tenta solucionar um determinado problema através de uma sequência de ações. Cada ação resulta em uma recompensa, e é com base apenas no acúmulo destas recompensas que o agente deve se guiar em busca da melhor solução para o problema. Problemas de aprendizado por reforço exigem, portanto, que o agente desenvolva um comportamento capaz de encontrar a melhor ação a ser tomada em um dado momento, a fim de maximizar o valor total das recompensas recebidas. Normalmente, o processo de busca por uma solução aceitável é bastante custoso, pois é exigido do agente que este avalie diversas sequências possíveis de ações, refinando sequências encontradas anteriormente e buscando outras sequências completamente novas. Para acelerar a avaliação de soluções encontradas e, portanto, o treinamento do agente, é comum o emprego de simuladores, que constroem virtualmente o ambiente e o agente nele inserido. Já existem diversos conjuntos de ferramentas (ou frameworks) que permitem que sejam construídos simuladores com certo grau de fidelidade e que não possuam uma acentuada curva de aprendizado. Há também, entretanto, um custo associado à adoção de um framework para construção de simuladores em um projeto que envolva aprendizado por reforço: este custo refere-se ao tempo necessário para que as ferramentas fornecidas pelo framework sejam compreendidas e o cenário proposto seja fielmente reproduzido utilizando-se de todas as funções fornecidas por ele. Este trabalho descreve o processo de criação de um framework de uso simples e que produz cenários padronizados, compatíveis com a API do Gym, software que vem sendo adotado como padrão no que diz respeito a ferramentas de benchmark de algoritmos de aprendizado por reforço (AR). Na ferramenta proposta por este trabalho, cenários são descritos através de uma linguagem de especificação de alto nível, permitindo que simulações de problemas de AR sejam modelados de maneira eficiente e que o resultado produzido esteja de acordo com ferramentas amplamente utilizadas na área. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019 |
dc.date.accessioned.fl_str_mv |
2020-08-18T03:41:55Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/212941 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001116926 |
url |
http://hdl.handle.net/10183/212941 |
identifier_str_mv |
001116926 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/212941/2/001116926.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/212941/1/001116926.pdf |
bitstream.checksum.fl_str_mv |
10d504a9cc6fd88c67c41c8be8478a24 2750b677fde2a9cfba1e68d654f933fc |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br |
_version_ |
1817724687023603712 |