Continuous reinforcement learning with incremental Gaussian mixture models

Detalhes bibliográficos
Autor(a) principal: Pinto, Rafael Coimbra
Data de Publicação: 2017
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/157591
Resumo: A contribução original desta tese é um novo algoritmo que integra um aproximador de funções com alta eficiência amostral com aprendizagem por reforço em espaços de estados contínuos. A pesquisa completa inclui o desenvolvimento de um algoritmo online e incremental capaz de aprender por meio de uma única passada sobre os dados. Este algoritmo, chamado de Fast Incremental Gaussian Mixture Network (FIGMN) foi empregado como um aproximador de funções eficiente para o espaço de estados de tarefas contínuas de aprendizagem por reforço, que, combinado com Q-learning linear, resulta em performance competitiva. Então, este mesmo aproximador de funções foi empregado para modelar o espaço conjunto de estados e valores Q, todos em uma única FIGMN, resultando em um algoritmo conciso e com alta eficiência amostral, i.e., um algoritmo de aprendizagem por reforço capaz de aprender por meio de pouquíssimas interações com o ambiente. Um único episódio é suficiente para aprender as tarefas investigadas na maioria dos experimentos. Os resultados são analisados a fim de explicar as propriedades do algoritmo obtido, e é observado que o uso da FIGMN como aproximador de funções oferece algumas importantes vantagens para aprendizagem por reforço em relação a redes neurais convencionais.
id URGS_ef1a82c78fc777c20012d4c5711aeb50
oai_identifier_str oai:www.lume.ufrgs.br:10183/157591
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Pinto, Rafael CoimbraEngel, Paulo Martins2017-05-09T02:24:13Z2017http://hdl.handle.net/10183/157591001019595A contribução original desta tese é um novo algoritmo que integra um aproximador de funções com alta eficiência amostral com aprendizagem por reforço em espaços de estados contínuos. A pesquisa completa inclui o desenvolvimento de um algoritmo online e incremental capaz de aprender por meio de uma única passada sobre os dados. Este algoritmo, chamado de Fast Incremental Gaussian Mixture Network (FIGMN) foi empregado como um aproximador de funções eficiente para o espaço de estados de tarefas contínuas de aprendizagem por reforço, que, combinado com Q-learning linear, resulta em performance competitiva. Então, este mesmo aproximador de funções foi empregado para modelar o espaço conjunto de estados e valores Q, todos em uma única FIGMN, resultando em um algoritmo conciso e com alta eficiência amostral, i.e., um algoritmo de aprendizagem por reforço capaz de aprender por meio de pouquíssimas interações com o ambiente. Um único episódio é suficiente para aprender as tarefas investigadas na maioria dos experimentos. Os resultados são analisados a fim de explicar as propriedades do algoritmo obtido, e é observado que o uso da FIGMN como aproximador de funções oferece algumas importantes vantagens para aprendizagem por reforço em relação a redes neurais convencionais.This thesis’ original contribution is a novel algorithm which integrates a data-efficient function approximator with reinforcement learning in continuous state spaces. The complete research includes the development of a scalable online and incremental algorithm capable of learning from a single pass through data. This algorithm, called Fast Incremental Gaussian Mixture Network (FIGMN), was employed as a sample-efficient function approximator for the state space of continuous reinforcement learning tasks, which, combined with linear Q-learning, results in competitive performance. Then, this same function approximator was employed to model the joint state and Q-values space, all in a single FIGMN, resulting in a concise and data-efficient algorithm, i.e., a reinforcement learning algorithm that learns from very few interactions with the environment. A single episode is enough to learn the investigated tasks in most trials. Results are analysed in order to explain the properties of the obtained algorithm, and it is observed that the use of the FIGMN function approximator brings some important advantages to reinforcement learning in relation to conventional neural networks.application/pdfengInformática : EducaçãoAprendizagem : Computador na educaçãoRedes neuraisReinforcement learningNeural networksGaussian mixture modelsContinuous reinforcement learning with incremental Gaussian mixture modelsAprendizagem por reforço contínua com modelos de mistura gaussianas incrementais info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2017doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001019595.pdf001019595.pdfTexto completo (inglês)application/pdf2082215http://www.lume.ufrgs.br/bitstream/10183/157591/1/001019595.pdf17dbdd2521e22553864b20c8735c0224MD51TEXT001019595.pdf.txt001019595.pdf.txtExtracted Texttext/plain240360http://www.lume.ufrgs.br/bitstream/10183/157591/2/001019595.pdf.txt22900c6a891b5cd86628f8f8c184a1afMD52THUMBNAIL001019595.pdf.jpg001019595.pdf.jpgGenerated Thumbnailimage/jpeg1056http://www.lume.ufrgs.br/bitstream/10183/157591/3/001019595.pdf.jpge824bee028428d253ddd7a1bb4cc8b77MD5310183/1575912021-05-26 04:44:28.524865oai:www.lume.ufrgs.br:10183/157591Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-05-26T07:44:28Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Continuous reinforcement learning with incremental Gaussian mixture models
dc.title.alternative.pt.fl_str_mv Aprendizagem por reforço contínua com modelos de mistura gaussianas incrementais
title Continuous reinforcement learning with incremental Gaussian mixture models
spellingShingle Continuous reinforcement learning with incremental Gaussian mixture models
Pinto, Rafael Coimbra
Informática : Educação
Aprendizagem : Computador na educação
Redes neurais
Reinforcement learning
Neural networks
Gaussian mixture models
title_short Continuous reinforcement learning with incremental Gaussian mixture models
title_full Continuous reinforcement learning with incremental Gaussian mixture models
title_fullStr Continuous reinforcement learning with incremental Gaussian mixture models
title_full_unstemmed Continuous reinforcement learning with incremental Gaussian mixture models
title_sort Continuous reinforcement learning with incremental Gaussian mixture models
author Pinto, Rafael Coimbra
author_facet Pinto, Rafael Coimbra
author_role author
dc.contributor.author.fl_str_mv Pinto, Rafael Coimbra
dc.contributor.advisor1.fl_str_mv Engel, Paulo Martins
contributor_str_mv Engel, Paulo Martins
dc.subject.por.fl_str_mv Informática : Educação
Aprendizagem : Computador na educação
Redes neurais
topic Informática : Educação
Aprendizagem : Computador na educação
Redes neurais
Reinforcement learning
Neural networks
Gaussian mixture models
dc.subject.eng.fl_str_mv Reinforcement learning
Neural networks
Gaussian mixture models
description A contribução original desta tese é um novo algoritmo que integra um aproximador de funções com alta eficiência amostral com aprendizagem por reforço em espaços de estados contínuos. A pesquisa completa inclui o desenvolvimento de um algoritmo online e incremental capaz de aprender por meio de uma única passada sobre os dados. Este algoritmo, chamado de Fast Incremental Gaussian Mixture Network (FIGMN) foi empregado como um aproximador de funções eficiente para o espaço de estados de tarefas contínuas de aprendizagem por reforço, que, combinado com Q-learning linear, resulta em performance competitiva. Então, este mesmo aproximador de funções foi empregado para modelar o espaço conjunto de estados e valores Q, todos em uma única FIGMN, resultando em um algoritmo conciso e com alta eficiência amostral, i.e., um algoritmo de aprendizagem por reforço capaz de aprender por meio de pouquíssimas interações com o ambiente. Um único episódio é suficiente para aprender as tarefas investigadas na maioria dos experimentos. Os resultados são analisados a fim de explicar as propriedades do algoritmo obtido, e é observado que o uso da FIGMN como aproximador de funções oferece algumas importantes vantagens para aprendizagem por reforço em relação a redes neurais convencionais.
publishDate 2017
dc.date.accessioned.fl_str_mv 2017-05-09T02:24:13Z
dc.date.issued.fl_str_mv 2017
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/157591
dc.identifier.nrb.pt_BR.fl_str_mv 001019595
url http://hdl.handle.net/10183/157591
identifier_str_mv 001019595
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/157591/1/001019595.pdf
http://www.lume.ufrgs.br/bitstream/10183/157591/2/001019595.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/157591/3/001019595.pdf.jpg
bitstream.checksum.fl_str_mv 17dbdd2521e22553864b20c8735c0224
22900c6a891b5cd86628f8f8c184a1af
e824bee028428d253ddd7a1bb4cc8b77
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085401323372544