Hierarchical reinforcement learning: learning sub-goals and state-abstraction

Jardim, David Walter Figueira

Hierarchical reinforcement learning: learning sub-goals and state-abstraction

Detalhes bibliográficos
Autor(a) principal:	Jardim, David Walter Figueira
Data de Publicação:	2010
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10071/2866
Resumo:	Os seres humanos possuem a incrível capacidade de criar e utilizar abstracções. Com essas abstracções somos capazes de resolver tarefas extremamente complexas que requerem muita antevisão e planeamento. A pesquisa efectuada em Hierarchical Reinforcement Learning demonstrou a utilidade das abstracções, mas também introduziu um novo problema. Como encontrar uma maneira de descobrir de forma autónoma abstracções úteis e criá-las enquanto aprende? Neste trabalho, apresentamos um novo método que permite a um agente descobrir e criar abstracções temporais de forma autónoma. Essas abstracções são baseadas na framework das Options. O nosso método é baseado no conceito de que para alcançar o objectivo, o agente deve passar por determinados estados. Ao longo do tempo estes estados vão começar a diferenciar-se dos restantes, e serão identificados como sub-objectivos úteis. Poderão ser utilizados pelo agente para criar novas abstracções temporais, cujo objectivo é ajudar a atingir esses objectivos secundários. Para detectar subobjectivos, o nosso método cria intersecções entre os vários caminhos que levam ao objectivo principal. Para que uma tarefa seja resolvida com sucesso, o agente deve passar por certas regiões do espaço de estados, estas regiões correspondem à nossa definição de sub-objectivos. A nossa investigação focou-se no problema da navegação em salas, e também no problema do táxi. Concluímos que um agente pode aprender mais rapidamente em problemas mais complexos, ao automaticamente descobrir sub-objectivos e criar abstracções sem precisar de um programador para fornecer informações adicionais e de criar as abstracções manualmente.

Metadados do item

id	RCAP_679dc1558fbc3334a18709ceecf6408c
oai_identifier_str	oai:repositorio.iscte-iul.pt:10071/2866
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Hierarchical reinforcement learning: learning sub-goals and state-abstractionAprendizagem automáticaAprendizagem hierárquica por reforçoAbstraçõesSub-objectivosMachine LearningReinforcement LearningAbstractionsSubgoalsOs seres humanos possuem a incrível capacidade de criar e utilizar abstracções. Com essas abstracções somos capazes de resolver tarefas extremamente complexas que requerem muita antevisão e planeamento. A pesquisa efectuada em Hierarchical Reinforcement Learning demonstrou a utilidade das abstracções, mas também introduziu um novo problema. Como encontrar uma maneira de descobrir de forma autónoma abstracções úteis e criá-las enquanto aprende? Neste trabalho, apresentamos um novo método que permite a um agente descobrir e criar abstracções temporais de forma autónoma. Essas abstracções são baseadas na framework das Options. O nosso método é baseado no conceito de que para alcançar o objectivo, o agente deve passar por determinados estados. Ao longo do tempo estes estados vão começar a diferenciar-se dos restantes, e serão identificados como sub-objectivos úteis. Poderão ser utilizados pelo agente para criar novas abstracções temporais, cujo objectivo é ajudar a atingir esses objectivos secundários. Para detectar subobjectivos, o nosso método cria intersecções entre os vários caminhos que levam ao objectivo principal. Para que uma tarefa seja resolvida com sucesso, o agente deve passar por certas regiões do espaço de estados, estas regiões correspondem à nossa definição de sub-objectivos. A nossa investigação focou-se no problema da navegação em salas, e também no problema do táxi. Concluímos que um agente pode aprender mais rapidamente em problemas mais complexos, ao automaticamente descobrir sub-objectivos e criar abstracções sem precisar de um programador para fornecer informações adicionais e de criar as abstracções manualmente.Human beings have the incredible capability of creating and using abstractions. With these abstractions we are able to solve extremely complex tasks that require a lot of foresight and planning. Research in Hierarchical Reinforcement Learning has demonstrated the utility of abstractions, but, it also has introduced a new problem. How can we find a way to autonomously discover and create useful abstractions while learning? In this dissertation we present a new method that allows an agent to discover and create temporal abstractions autonomously based in the options framework. Our method is based on the concept that to reach the goal, the agent must pass through certain states. Throughout time these states will begin to differentiate from others, and will be detected as useful subgoals and be used by the agent to create new temporal abstractions, whose objective is to help achieve these subgoals. To detect useful subgoals, our method creates intersections between several paths leading to a goal. In order for a task to be solved successfully the agent must pass through certain regions of the state space, these regions will correspond to our definition of subgoals. Our research focused on domains largely used in the study of the utility of temporal abstractions, which is the room-to-room navigation problem, and also the taxi problem. We determined that, in the problems tested, an agent can learn more rapidly in more complex problems by automatically discovering subgoals and creating abstractions without needing a programmer to provide additional information and handcraft the abstractions.2011-08-11T13:38:36Z2011-08-11T00:00:00Z2011-08-112010info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfapplication/octet-streamhttp://hdl.handle.net/10071/2866porJardim, David Walter Figueirainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-09T17:45:51Zoai:repositorio.iscte-iul.pt:10071/2866Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:21:59.511921Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Hierarchical reinforcement learning: learning sub-goals and state-abstraction
title	Hierarchical reinforcement learning: learning sub-goals and state-abstraction
spellingShingle	Hierarchical reinforcement learning: learning sub-goals and state-abstraction Jardim, David Walter Figueira Aprendizagem automática Aprendizagem hierárquica por reforço Abstrações Sub-objectivos Machine Learning Reinforcement Learning Abstractions Subgoals
title_short	Hierarchical reinforcement learning: learning sub-goals and state-abstraction
title_full	Hierarchical reinforcement learning: learning sub-goals and state-abstraction
title_fullStr	Hierarchical reinforcement learning: learning sub-goals and state-abstraction
title_full_unstemmed	Hierarchical reinforcement learning: learning sub-goals and state-abstraction
title_sort	Hierarchical reinforcement learning: learning sub-goals and state-abstraction
author	Jardim, David Walter Figueira
author_facet	Jardim, David Walter Figueira
author_role	author
dc.contributor.author.fl_str_mv	Jardim, David Walter Figueira
dc.subject.por.fl_str_mv	Aprendizagem automática Aprendizagem hierárquica por reforço Abstrações Sub-objectivos Machine Learning Reinforcement Learning Abstractions Subgoals
topic	Aprendizagem automática Aprendizagem hierárquica por reforço Abstrações Sub-objectivos Machine Learning Reinforcement Learning Abstractions Subgoals
description	Os seres humanos possuem a incrível capacidade de criar e utilizar abstracções. Com essas abstracções somos capazes de resolver tarefas extremamente complexas que requerem muita antevisão e planeamento. A pesquisa efectuada em Hierarchical Reinforcement Learning demonstrou a utilidade das abstracções, mas também introduziu um novo problema. Como encontrar uma maneira de descobrir de forma autónoma abstracções úteis e criá-las enquanto aprende? Neste trabalho, apresentamos um novo método que permite a um agente descobrir e criar abstracções temporais de forma autónoma. Essas abstracções são baseadas na framework das Options. O nosso método é baseado no conceito de que para alcançar o objectivo, o agente deve passar por determinados estados. Ao longo do tempo estes estados vão começar a diferenciar-se dos restantes, e serão identificados como sub-objectivos úteis. Poderão ser utilizados pelo agente para criar novas abstracções temporais, cujo objectivo é ajudar a atingir esses objectivos secundários. Para detectar subobjectivos, o nosso método cria intersecções entre os vários caminhos que levam ao objectivo principal. Para que uma tarefa seja resolvida com sucesso, o agente deve passar por certas regiões do espaço de estados, estas regiões correspondem à nossa definição de sub-objectivos. A nossa investigação focou-se no problema da navegação em salas, e também no problema do táxi. Concluímos que um agente pode aprender mais rapidamente em problemas mais complexos, ao automaticamente descobrir sub-objectivos e criar abstracções sem precisar de um programador para fornecer informações adicionais e de criar as abstracções manualmente.
publishDate	2010
dc.date.none.fl_str_mv	2010 2011-08-11T13:38:36Z 2011-08-11T00:00:00Z 2011-08-11
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10071/2866
url	http://hdl.handle.net/10071/2866
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf application/octet-stream
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799134781535944704

Hierarchical reinforcement learning: learning sub-goals and state-abstraction

Registros relacionados