Continuous reinforcement learning with incremental Gaussian mixture models
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/157591 |
Resumo: | A contribução original desta tese é um novo algoritmo que integra um aproximador de funções com alta eficiência amostral com aprendizagem por reforço em espaços de estados contínuos. A pesquisa completa inclui o desenvolvimento de um algoritmo online e incremental capaz de aprender por meio de uma única passada sobre os dados. Este algoritmo, chamado de Fast Incremental Gaussian Mixture Network (FIGMN) foi empregado como um aproximador de funções eficiente para o espaço de estados de tarefas contínuas de aprendizagem por reforço, que, combinado com Q-learning linear, resulta em performance competitiva. Então, este mesmo aproximador de funções foi empregado para modelar o espaço conjunto de estados e valores Q, todos em uma única FIGMN, resultando em um algoritmo conciso e com alta eficiência amostral, i.e., um algoritmo de aprendizagem por reforço capaz de aprender por meio de pouquíssimas interações com o ambiente. Um único episódio é suficiente para aprender as tarefas investigadas na maioria dos experimentos. Os resultados são analisados a fim de explicar as propriedades do algoritmo obtido, e é observado que o uso da FIGMN como aproximador de funções oferece algumas importantes vantagens para aprendizagem por reforço em relação a redes neurais convencionais. |
id |
URGS_ef1a82c78fc777c20012d4c5711aeb50 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/157591 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Pinto, Rafael CoimbraEngel, Paulo Martins2017-05-09T02:24:13Z2017http://hdl.handle.net/10183/157591001019595A contribução original desta tese é um novo algoritmo que integra um aproximador de funções com alta eficiência amostral com aprendizagem por reforço em espaços de estados contínuos. A pesquisa completa inclui o desenvolvimento de um algoritmo online e incremental capaz de aprender por meio de uma única passada sobre os dados. Este algoritmo, chamado de Fast Incremental Gaussian Mixture Network (FIGMN) foi empregado como um aproximador de funções eficiente para o espaço de estados de tarefas contínuas de aprendizagem por reforço, que, combinado com Q-learning linear, resulta em performance competitiva. Então, este mesmo aproximador de funções foi empregado para modelar o espaço conjunto de estados e valores Q, todos em uma única FIGMN, resultando em um algoritmo conciso e com alta eficiência amostral, i.e., um algoritmo de aprendizagem por reforço capaz de aprender por meio de pouquíssimas interações com o ambiente. Um único episódio é suficiente para aprender as tarefas investigadas na maioria dos experimentos. Os resultados são analisados a fim de explicar as propriedades do algoritmo obtido, e é observado que o uso da FIGMN como aproximador de funções oferece algumas importantes vantagens para aprendizagem por reforço em relação a redes neurais convencionais.This thesis’ original contribution is a novel algorithm which integrates a data-efficient function approximator with reinforcement learning in continuous state spaces. The complete research includes the development of a scalable online and incremental algorithm capable of learning from a single pass through data. This algorithm, called Fast Incremental Gaussian Mixture Network (FIGMN), was employed as a sample-efficient function approximator for the state space of continuous reinforcement learning tasks, which, combined with linear Q-learning, results in competitive performance. Then, this same function approximator was employed to model the joint state and Q-values space, all in a single FIGMN, resulting in a concise and data-efficient algorithm, i.e., a reinforcement learning algorithm that learns from very few interactions with the environment. A single episode is enough to learn the investigated tasks in most trials. Results are analysed in order to explain the properties of the obtained algorithm, and it is observed that the use of the FIGMN function approximator brings some important advantages to reinforcement learning in relation to conventional neural networks.application/pdfengInformática : EducaçãoAprendizagem : Computador na educaçãoRedes neuraisReinforcement learningNeural networksGaussian mixture modelsContinuous reinforcement learning with incremental Gaussian mixture modelsAprendizagem por reforço contínua com modelos de mistura gaussianas incrementais info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2017doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001019595.pdf001019595.pdfTexto completo (inglês)application/pdf2082215http://www.lume.ufrgs.br/bitstream/10183/157591/1/001019595.pdf17dbdd2521e22553864b20c8735c0224MD51TEXT001019595.pdf.txt001019595.pdf.txtExtracted Texttext/plain240360http://www.lume.ufrgs.br/bitstream/10183/157591/2/001019595.pdf.txt22900c6a891b5cd86628f8f8c184a1afMD52THUMBNAIL001019595.pdf.jpg001019595.pdf.jpgGenerated Thumbnailimage/jpeg1056http://www.lume.ufrgs.br/bitstream/10183/157591/3/001019595.pdf.jpge824bee028428d253ddd7a1bb4cc8b77MD5310183/1575912021-05-26 04:44:28.524865oai:www.lume.ufrgs.br:10183/157591Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-05-26T07:44:28Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Continuous reinforcement learning with incremental Gaussian mixture models |
dc.title.alternative.pt.fl_str_mv |
Aprendizagem por reforço contínua com modelos de mistura gaussianas incrementais |
title |
Continuous reinforcement learning with incremental Gaussian mixture models |
spellingShingle |
Continuous reinforcement learning with incremental Gaussian mixture models Pinto, Rafael Coimbra Informática : Educação Aprendizagem : Computador na educação Redes neurais Reinforcement learning Neural networks Gaussian mixture models |
title_short |
Continuous reinforcement learning with incremental Gaussian mixture models |
title_full |
Continuous reinforcement learning with incremental Gaussian mixture models |
title_fullStr |
Continuous reinforcement learning with incremental Gaussian mixture models |
title_full_unstemmed |
Continuous reinforcement learning with incremental Gaussian mixture models |
title_sort |
Continuous reinforcement learning with incremental Gaussian mixture models |
author |
Pinto, Rafael Coimbra |
author_facet |
Pinto, Rafael Coimbra |
author_role |
author |
dc.contributor.author.fl_str_mv |
Pinto, Rafael Coimbra |
dc.contributor.advisor1.fl_str_mv |
Engel, Paulo Martins |
contributor_str_mv |
Engel, Paulo Martins |
dc.subject.por.fl_str_mv |
Informática : Educação Aprendizagem : Computador na educação Redes neurais |
topic |
Informática : Educação Aprendizagem : Computador na educação Redes neurais Reinforcement learning Neural networks Gaussian mixture models |
dc.subject.eng.fl_str_mv |
Reinforcement learning Neural networks Gaussian mixture models |
description |
A contribução original desta tese é um novo algoritmo que integra um aproximador de funções com alta eficiência amostral com aprendizagem por reforço em espaços de estados contínuos. A pesquisa completa inclui o desenvolvimento de um algoritmo online e incremental capaz de aprender por meio de uma única passada sobre os dados. Este algoritmo, chamado de Fast Incremental Gaussian Mixture Network (FIGMN) foi empregado como um aproximador de funções eficiente para o espaço de estados de tarefas contínuas de aprendizagem por reforço, que, combinado com Q-learning linear, resulta em performance competitiva. Então, este mesmo aproximador de funções foi empregado para modelar o espaço conjunto de estados e valores Q, todos em uma única FIGMN, resultando em um algoritmo conciso e com alta eficiência amostral, i.e., um algoritmo de aprendizagem por reforço capaz de aprender por meio de pouquíssimas interações com o ambiente. Um único episódio é suficiente para aprender as tarefas investigadas na maioria dos experimentos. Os resultados são analisados a fim de explicar as propriedades do algoritmo obtido, e é observado que o uso da FIGMN como aproximador de funções oferece algumas importantes vantagens para aprendizagem por reforço em relação a redes neurais convencionais. |
publishDate |
2017 |
dc.date.accessioned.fl_str_mv |
2017-05-09T02:24:13Z |
dc.date.issued.fl_str_mv |
2017 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/157591 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001019595 |
url |
http://hdl.handle.net/10183/157591 |
identifier_str_mv |
001019595 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/157591/1/001019595.pdf http://www.lume.ufrgs.br/bitstream/10183/157591/2/001019595.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/157591/3/001019595.pdf.jpg |
bitstream.checksum.fl_str_mv |
17dbdd2521e22553864b20c8735c0224 22900c6a891b5cd86628f8f8c184a1af e824bee028428d253ddd7a1bb4cc8b77 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085401323372544 |