Continuous reinforcement learning with incremental Gaussian mixture models

Pinto, Rafael Coimbra

Continuous reinforcement learning with incremental Gaussian mixture models

Detalhes bibliográficos
Autor(a) principal:	Pinto, Rafael Coimbra
Data de Publicação:	2017
Tipo de documento:	Tese
Idioma:	eng
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/157591
Resumo:	A contribução original desta tese é um novo algoritmo que integra um aproximador de funções com alta eficiência amostral com aprendizagem por reforço em espaços de estados contínuos. A pesquisa completa inclui o desenvolvimento de um algoritmo online e incremental capaz de aprender por meio de uma única passada sobre os dados. Este algoritmo, chamado de Fast Incremental Gaussian Mixture Network (FIGMN) foi empregado como um aproximador de funções eficiente para o espaço de estados de tarefas contínuas de aprendizagem por reforço, que, combinado com Q-learning linear, resulta em performance competitiva. Então, este mesmo aproximador de funções foi empregado para modelar o espaço conjunto de estados e valores Q, todos em uma única FIGMN, resultando em um algoritmo conciso e com alta eficiência amostral, i.e., um algoritmo de aprendizagem por reforço capaz de aprender por meio de pouquíssimas interações com o ambiente. Um único episódio é suficiente para aprender as tarefas investigadas na maioria dos experimentos. Os resultados são analisados a fim de explicar as propriedades do algoritmo obtido, e é observado que o uso da FIGMN como aproximador de funções oferece algumas importantes vantagens para aprendizagem por reforço em relação a redes neurais convencionais.

Metadados do item

id	URGS_ef1a82c78fc777c20012d4c5711aeb50
oai_identifier_str	oai:www.lume.ufrgs.br:10183/157591
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Pinto, Rafael CoimbraEngel, Paulo Martins2017-05-09T02:24:13Z2017http://hdl.handle.net/10183/157591001019595A contribução original desta tese é um novo algoritmo que integra um aproximador de funções com alta eficiência amostral com aprendizagem por reforço em espaços de estados contínuos. A pesquisa completa inclui o desenvolvimento de um algoritmo online e incremental capaz de aprender por meio de uma única passada sobre os dados. Este algoritmo, chamado de Fast Incremental Gaussian Mixture Network (FIGMN) foi empregado como um aproximador de funções eficiente para o espaço de estados de tarefas contínuas de aprendizagem por reforço, que, combinado com Q-learning linear, resulta em performance competitiva. Então, este mesmo aproximador de funções foi empregado para modelar o espaço conjunto de estados e valores Q, todos em uma única FIGMN, resultando em um algoritmo conciso e com alta eficiência amostral, i.e., um algoritmo de aprendizagem por reforço capaz de aprender por meio de pouquíssimas interações com o ambiente. Um único episódio é suficiente para aprender as tarefas investigadas na maioria dos experimentos. Os resultados são analisados a fim de explicar as propriedades do algoritmo obtido, e é observado que o uso da FIGMN como aproximador de funções oferece algumas importantes vantagens para aprendizagem por reforço em relação a redes neurais convencionais.This thesis’ original contribution is a novel algorithm which integrates a data-efficient function approximator with reinforcement learning in continuous state spaces. The complete research includes the development of a scalable online and incremental algorithm capable of learning from a single pass through data. This algorithm, called Fast Incremental Gaussian Mixture Network (FIGMN), was employed as a sample-efficient function approximator for the state space of continuous reinforcement learning tasks, which, combined with linear Q-learning, results in competitive performance. Then, this same function approximator was employed to model the joint state and Q-values space, all in a single FIGMN, resulting in a concise and data-efficient algorithm, i.e., a reinforcement learning algorithm that learns from very few interactions with the environment. A single episode is enough to learn the investigated tasks in most trials. Results are analysed in order to explain the properties of the obtained algorithm, and it is observed that the use of the FIGMN function approximator brings some important advantages to reinforcement learning in relation to conventional neural networks.application/pdfengInformática : EducaçãoAprendizagem : Computador na educaçãoRedes neuraisReinforcement learningNeural networksGaussian mixture modelsContinuous reinforcement learning with incremental Gaussian mixture modelsAprendizagem por reforço contínua com modelos de mistura gaussianas incrementais info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2017doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001019595.pdf001019595.pdfTexto completo (inglês)application/pdf2082215http://www.lume.ufrgs.br/bitstream/10183/157591/1/001019595.pdf17dbdd2521e22553864b20c8735c0224MD51TEXT001019595.pdf.txt001019595.pdf.txtExtracted Texttext/plain240360http://www.lume.ufrgs.br/bitstream/10183/157591/2/001019595.pdf.txt22900c6a891b5cd86628f8f8c184a1afMD52THUMBNAIL001019595.pdf.jpg001019595.pdf.jpgGenerated Thumbnailimage/jpeg1056http://www.lume.ufrgs.br/bitstream/10183/157591/3/001019595.pdf.jpge824bee028428d253ddd7a1bb4cc8b77MD5310183/1575912021-05-26 04:44:28.524865oai:www.lume.ufrgs.br:10183/157591Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532021-05-26T07:44:28Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Continuous reinforcement learning with incremental Gaussian mixture models
dc.title.alternative.pt.fl_str_mv	Aprendizagem por reforço contínua com modelos de mistura gaussianas incrementais
title	Continuous reinforcement learning with incremental Gaussian mixture models
spellingShingle	Continuous reinforcement learning with incremental Gaussian mixture models Pinto, Rafael Coimbra Informática : Educação Aprendizagem : Computador na educação Redes neurais Reinforcement learning Neural networks Gaussian mixture models
title_short	Continuous reinforcement learning with incremental Gaussian mixture models
title_full	Continuous reinforcement learning with incremental Gaussian mixture models
title_fullStr	Continuous reinforcement learning with incremental Gaussian mixture models
title_full_unstemmed	Continuous reinforcement learning with incremental Gaussian mixture models
title_sort	Continuous reinforcement learning with incremental Gaussian mixture models
author	Pinto, Rafael Coimbra
author_facet	Pinto, Rafael Coimbra
author_role	author
dc.contributor.author.fl_str_mv	Pinto, Rafael Coimbra
dc.contributor.advisor1.fl_str_mv	Engel, Paulo Martins
contributor_str_mv	Engel, Paulo Martins
dc.subject.por.fl_str_mv	Informática : Educação Aprendizagem : Computador na educação Redes neurais
topic	Informática : Educação Aprendizagem : Computador na educação Redes neurais Reinforcement learning Neural networks Gaussian mixture models
dc.subject.eng.fl_str_mv	Reinforcement learning Neural networks Gaussian mixture models
description	A contribução original desta tese é um novo algoritmo que integra um aproximador de funções com alta eficiência amostral com aprendizagem por reforço em espaços de estados contínuos. A pesquisa completa inclui o desenvolvimento de um algoritmo online e incremental capaz de aprender por meio de uma única passada sobre os dados. Este algoritmo, chamado de Fast Incremental Gaussian Mixture Network (FIGMN) foi empregado como um aproximador de funções eficiente para o espaço de estados de tarefas contínuas de aprendizagem por reforço, que, combinado com Q-learning linear, resulta em performance competitiva. Então, este mesmo aproximador de funções foi empregado para modelar o espaço conjunto de estados e valores Q, todos em uma única FIGMN, resultando em um algoritmo conciso e com alta eficiência amostral, i.e., um algoritmo de aprendizagem por reforço capaz de aprender por meio de pouquíssimas interações com o ambiente. Um único episódio é suficiente para aprender as tarefas investigadas na maioria dos experimentos. Os resultados são analisados a fim de explicar as propriedades do algoritmo obtido, e é observado que o uso da FIGMN como aproximador de funções oferece algumas importantes vantagens para aprendizagem por reforço em relação a redes neurais convencionais.
publishDate	2017
dc.date.accessioned.fl_str_mv	2017-05-09T02:24:13Z
dc.date.issued.fl_str_mv	2017
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/157591
dc.identifier.nrb.pt_BR.fl_str_mv	001019595
url	http://hdl.handle.net/10183/157591
identifier_str_mv	001019595
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/157591/1/001019595.pdf http://www.lume.ufrgs.br/bitstream/10183/157591/2/001019595.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/157591/3/001019595.pdf.jpg
bitstream.checksum.fl_str_mv	17dbdd2521e22553864b20c8735c0224 22900c6a891b5cd86628f8f8c184a1af e824bee028428d253ddd7a1bb4cc8b77
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085401323372544

Continuous reinforcement learning with incremental Gaussian mixture models

Registros relacionados