Descoberta e reuso de políticas parciais probabilísticas no aprendizado por reforço.
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/3/3141/tde-18072019-143338/ |
Resumo: | O aprendizado por reforço é uma técnica bem sucedida, porém lenta, para treinar agentes autônomos. Algumas soluções baseadas em políticas parciais podem ser usadas para acelerar o aprendizado e para transferir comportamentos aprendidos entre tarefas encapsulando uma política parcial. No entanto, geralmente essas políticas parciais são específicas para uma única tarefa, não levam em consideração recursos semelhantes entre tarefas e podem não corresponder exatamente a um comportamento ideal quando transferidas para outra tarefa diferente. A transferência descuidada pode fornecer más soluções para o agente, dificultando o processo de aprendizagem. Sendo assim, este trabalho propõe uma maneira de descobrir e reutilizar de modo probabilístico políticas parciais orientadas a objetos aprendidas, a fim de permitir melhores escolhas de atuação para o agente em múltiplas tarefas diferentes. A avaliação experimental mostra que a proposta é capaz de aprender e reutilizar com sucesso políticas parciais em diferentes tarefas. |
id |
USP_32fbb679214b63fe8a55337811363d33 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-18072019-143338 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Descoberta e reuso de políticas parciais probabilísticas no aprendizado por reforço.Discovery and reuse of probabilistic partial policies in reinforcement learning.Aprendizado de máquinaAprendizado por reforçoArtificial intelligenceInteligência artificialMachine learningMarkov decision processPartial policiesPolíticas parciaisProcessos de decisão de MarkovReinforcement learningTransfer learningTransferência de ConhecimentoO aprendizado por reforço é uma técnica bem sucedida, porém lenta, para treinar agentes autônomos. Algumas soluções baseadas em políticas parciais podem ser usadas para acelerar o aprendizado e para transferir comportamentos aprendidos entre tarefas encapsulando uma política parcial. No entanto, geralmente essas políticas parciais são específicas para uma única tarefa, não levam em consideração recursos semelhantes entre tarefas e podem não corresponder exatamente a um comportamento ideal quando transferidas para outra tarefa diferente. A transferência descuidada pode fornecer más soluções para o agente, dificultando o processo de aprendizagem. Sendo assim, este trabalho propõe uma maneira de descobrir e reutilizar de modo probabilístico políticas parciais orientadas a objetos aprendidas, a fim de permitir melhores escolhas de atuação para o agente em múltiplas tarefas diferentes. A avaliação experimental mostra que a proposta é capaz de aprender e reutilizar com sucesso políticas parciais em diferentes tarefas.Reinforcement Learning is a successful yet slow technique to train autonomous agents. Option-based solutions can be used to accelerate learning and to transfer learned behaviors across tasks by encapsulating a partial policy. However, commonly these options are specific for a single task, do not take in account similar features between tasks and may not correspond exactly to an optimal behavior when transferred to another task. Therefore, careless transfer might provide bad options to the agent, hampering the learning process. This work proposes a way to discover and reuse learned objectoriented options in a probabilistic way in order to enable better actuation choices to the agent in multiple different tasks. The experimental evaluation show that the proposal is able to learn and successfully reuse options across different tasks.Biblioteca Digitais de Teses e Dissertações da USPCosta, Anna Helena RealiBonini, Rodrigo Cesar2018-11-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/3/3141/tde-18072019-143338/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T12:45:40Zoai:teses.usp.br:tde-18072019-143338Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T12:45:40Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Descoberta e reuso de políticas parciais probabilísticas no aprendizado por reforço. Discovery and reuse of probabilistic partial policies in reinforcement learning. |
title |
Descoberta e reuso de políticas parciais probabilísticas no aprendizado por reforço. |
spellingShingle |
Descoberta e reuso de políticas parciais probabilísticas no aprendizado por reforço. Bonini, Rodrigo Cesar Aprendizado de máquina Aprendizado por reforço Artificial intelligence Inteligência artificial Machine learning Markov decision process Partial policies Políticas parciais Processos de decisão de Markov Reinforcement learning Transfer learning Transferência de Conhecimento |
title_short |
Descoberta e reuso de políticas parciais probabilísticas no aprendizado por reforço. |
title_full |
Descoberta e reuso de políticas parciais probabilísticas no aprendizado por reforço. |
title_fullStr |
Descoberta e reuso de políticas parciais probabilísticas no aprendizado por reforço. |
title_full_unstemmed |
Descoberta e reuso de políticas parciais probabilísticas no aprendizado por reforço. |
title_sort |
Descoberta e reuso de políticas parciais probabilísticas no aprendizado por reforço. |
author |
Bonini, Rodrigo Cesar |
author_facet |
Bonini, Rodrigo Cesar |
author_role |
author |
dc.contributor.none.fl_str_mv |
Costa, Anna Helena Reali |
dc.contributor.author.fl_str_mv |
Bonini, Rodrigo Cesar |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Aprendizado por reforço Artificial intelligence Inteligência artificial Machine learning Markov decision process Partial policies Políticas parciais Processos de decisão de Markov Reinforcement learning Transfer learning Transferência de Conhecimento |
topic |
Aprendizado de máquina Aprendizado por reforço Artificial intelligence Inteligência artificial Machine learning Markov decision process Partial policies Políticas parciais Processos de decisão de Markov Reinforcement learning Transfer learning Transferência de Conhecimento |
description |
O aprendizado por reforço é uma técnica bem sucedida, porém lenta, para treinar agentes autônomos. Algumas soluções baseadas em políticas parciais podem ser usadas para acelerar o aprendizado e para transferir comportamentos aprendidos entre tarefas encapsulando uma política parcial. No entanto, geralmente essas políticas parciais são específicas para uma única tarefa, não levam em consideração recursos semelhantes entre tarefas e podem não corresponder exatamente a um comportamento ideal quando transferidas para outra tarefa diferente. A transferência descuidada pode fornecer más soluções para o agente, dificultando o processo de aprendizagem. Sendo assim, este trabalho propõe uma maneira de descobrir e reutilizar de modo probabilístico políticas parciais orientadas a objetos aprendidas, a fim de permitir melhores escolhas de atuação para o agente em múltiplas tarefas diferentes. A avaliação experimental mostra que a proposta é capaz de aprender e reutilizar com sucesso políticas parciais em diferentes tarefas. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-11-21 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/3/3141/tde-18072019-143338/ |
url |
http://www.teses.usp.br/teses/disponiveis/3/3141/tde-18072019-143338/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256517227577344 |