Descoberta e reuso de polí­ticas parciais probabilísticas no aprendizado por reforço.

Detalhes bibliográficos
Autor(a) principal: Bonini, Rodrigo Cesar
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/3/3141/tde-18072019-143338/
Resumo: O aprendizado por reforço é uma técnica bem sucedida, porém lenta, para treinar agentes autônomos. Algumas soluções baseadas em políticas parciais podem ser usadas para acelerar o aprendizado e para transferir comportamentos aprendidos entre tarefas encapsulando uma política parcial. No entanto, geralmente essas políticas parciais são específicas para uma única tarefa, não levam em consideração recursos semelhantes entre tarefas e podem não corresponder exatamente a um comportamento ideal quando transferidas para outra tarefa diferente. A transferência descuidada pode fornecer más soluções para o agente, dificultando o processo de aprendizagem. Sendo assim, este trabalho propõe uma maneira de descobrir e reutilizar de modo probabilístico políticas parciais orientadas a objetos aprendidas, a fim de permitir melhores escolhas de atuação para o agente em múltiplas tarefas diferentes. A avaliação experimental mostra que a proposta é capaz de aprender e reutilizar com sucesso políticas parciais em diferentes tarefas.
id USP_32fbb679214b63fe8a55337811363d33
oai_identifier_str oai:teses.usp.br:tde-18072019-143338
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Descoberta e reuso de polí­ticas parciais probabilísticas no aprendizado por reforço.Discovery and reuse of probabilistic partial policies in reinforcement learning.Aprendizado de máquinaAprendizado por reforçoArtificial intelligenceInteligência artificialMachine learningMarkov decision processPartial policiesPolíticas parciaisProcessos de decisão de MarkovReinforcement learningTransfer learningTransferência de ConhecimentoO aprendizado por reforço é uma técnica bem sucedida, porém lenta, para treinar agentes autônomos. Algumas soluções baseadas em políticas parciais podem ser usadas para acelerar o aprendizado e para transferir comportamentos aprendidos entre tarefas encapsulando uma política parcial. No entanto, geralmente essas políticas parciais são específicas para uma única tarefa, não levam em consideração recursos semelhantes entre tarefas e podem não corresponder exatamente a um comportamento ideal quando transferidas para outra tarefa diferente. A transferência descuidada pode fornecer más soluções para o agente, dificultando o processo de aprendizagem. Sendo assim, este trabalho propõe uma maneira de descobrir e reutilizar de modo probabilístico políticas parciais orientadas a objetos aprendidas, a fim de permitir melhores escolhas de atuação para o agente em múltiplas tarefas diferentes. A avaliação experimental mostra que a proposta é capaz de aprender e reutilizar com sucesso políticas parciais em diferentes tarefas.Reinforcement Learning is a successful yet slow technique to train autonomous agents. Option-based solutions can be used to accelerate learning and to transfer learned behaviors across tasks by encapsulating a partial policy. However, commonly these options are specific for a single task, do not take in account similar features between tasks and may not correspond exactly to an optimal behavior when transferred to another task. Therefore, careless transfer might provide bad options to the agent, hampering the learning process. This work proposes a way to discover and reuse learned objectoriented options in a probabilistic way in order to enable better actuation choices to the agent in multiple different tasks. The experimental evaluation show that the proposal is able to learn and successfully reuse options across different tasks.Biblioteca Digitais de Teses e Dissertações da USPCosta, Anna Helena RealiBonini, Rodrigo Cesar2018-11-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/3/3141/tde-18072019-143338/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2019-07-25T23:21:28Zoai:teses.usp.br:tde-18072019-143338Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212019-07-25T23:21:28Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Descoberta e reuso de polí­ticas parciais probabilísticas no aprendizado por reforço.
Discovery and reuse of probabilistic partial policies in reinforcement learning.
title Descoberta e reuso de polí­ticas parciais probabilísticas no aprendizado por reforço.
spellingShingle Descoberta e reuso de polí­ticas parciais probabilísticas no aprendizado por reforço.
Bonini, Rodrigo Cesar
Aprendizado de máquina
Aprendizado por reforço
Artificial intelligence
Inteligência artificial
Machine learning
Markov decision process
Partial policies
Políticas parciais
Processos de decisão de Markov
Reinforcement learning
Transfer learning
Transferência de Conhecimento
title_short Descoberta e reuso de polí­ticas parciais probabilísticas no aprendizado por reforço.
title_full Descoberta e reuso de polí­ticas parciais probabilísticas no aprendizado por reforço.
title_fullStr Descoberta e reuso de polí­ticas parciais probabilísticas no aprendizado por reforço.
title_full_unstemmed Descoberta e reuso de polí­ticas parciais probabilísticas no aprendizado por reforço.
title_sort Descoberta e reuso de polí­ticas parciais probabilísticas no aprendizado por reforço.
author Bonini, Rodrigo Cesar
author_facet Bonini, Rodrigo Cesar
author_role author
dc.contributor.none.fl_str_mv Costa, Anna Helena Reali
dc.contributor.author.fl_str_mv Bonini, Rodrigo Cesar
dc.subject.por.fl_str_mv Aprendizado de máquina
Aprendizado por reforço
Artificial intelligence
Inteligência artificial
Machine learning
Markov decision process
Partial policies
Políticas parciais
Processos de decisão de Markov
Reinforcement learning
Transfer learning
Transferência de Conhecimento
topic Aprendizado de máquina
Aprendizado por reforço
Artificial intelligence
Inteligência artificial
Machine learning
Markov decision process
Partial policies
Políticas parciais
Processos de decisão de Markov
Reinforcement learning
Transfer learning
Transferência de Conhecimento
description O aprendizado por reforço é uma técnica bem sucedida, porém lenta, para treinar agentes autônomos. Algumas soluções baseadas em políticas parciais podem ser usadas para acelerar o aprendizado e para transferir comportamentos aprendidos entre tarefas encapsulando uma política parcial. No entanto, geralmente essas políticas parciais são específicas para uma única tarefa, não levam em consideração recursos semelhantes entre tarefas e podem não corresponder exatamente a um comportamento ideal quando transferidas para outra tarefa diferente. A transferência descuidada pode fornecer más soluções para o agente, dificultando o processo de aprendizagem. Sendo assim, este trabalho propõe uma maneira de descobrir e reutilizar de modo probabilístico políticas parciais orientadas a objetos aprendidas, a fim de permitir melhores escolhas de atuação para o agente em múltiplas tarefas diferentes. A avaliação experimental mostra que a proposta é capaz de aprender e reutilizar com sucesso políticas parciais em diferentes tarefas.
publishDate 2018
dc.date.none.fl_str_mv 2018-11-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/3/3141/tde-18072019-143338/
url http://www.teses.usp.br/teses/disponiveis/3/3141/tde-18072019-143338/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090834184798208