Identifying Reusable Early-Life Options

Weber, Aline

Identifying Reusable Early-Life Options

Detalhes bibliográficos
Autor(a) principal:	Weber, Aline
Data de Publicação:	2020
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	eng
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/218619
Resumo:	Neste trabalho, introduzimos um método para identificar comportamentos motores reutilizáveis e de curta duração, que chamamos de early-life options. Esses comportamentos permitem com que robôs tenham boa performance mesmo nos momentos iniciais de suas vidas. Isso é importante quando agentes precisam interagir em ambientes nos quais o uso de políticas ruins (por exemplo, as políticas aleatórias com as quais os agentes geralmente são inicializados) pode ser catastrófico. Nosso método estende o conjunto de ações original do agente com comportamentos especialmente construídos para maximizar a performance em uma família possivelmente infinita de tarefas motoras relacionadas. Esses comportamentos são similares a reflexos primitivos em mamíferos, presentes no início de suas vidas. Agentes que iniciam suas vidas com a possibilidade de utilizar early-life options, mesmo quando agindo aleatoriamente, são capazes de produzir comportamentos rudimentares comparáveis a comportamentos de agentes que otimizaram suas políticas por centenas de milhares de passos. Nós introduzimos três métricas para identificar earlylife options úteis e mostramos que elas resultam em comportamentos que maximizam o retorno esperado da option, ao mesmo tempo em que minimizam o risco de obter performance significativamente baixa ao executá-la. Nós avaliamos o método proposto em três robôs simulados, cuja tarefa é aprender a caminhar sob diferentes restrições de consumo de bateria. Nós mostramos que mesmo políticas aleatórias sobre o conjunto de early-life options já são suficiente para que o agente tenha performance similar a de agentes que foram treinados por centenas de milhares de passos.

Metadados do item

id	UFRGS-2_41dd388d50fc28b5537b774a7419d897
oai_identifier_str	oai:www.lume.ufrgs.br:10183/218619
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Weber, AlineSilva, Bruno Castro da2021-03-11T04:24:02Z2020http://hdl.handle.net/10183/218619001122992Neste trabalho, introduzimos um método para identificar comportamentos motores reutilizáveis e de curta duração, que chamamos de early-life options. Esses comportamentos permitem com que robôs tenham boa performance mesmo nos momentos iniciais de suas vidas. Isso é importante quando agentes precisam interagir em ambientes nos quais o uso de políticas ruins (por exemplo, as políticas aleatórias com as quais os agentes geralmente são inicializados) pode ser catastrófico. Nosso método estende o conjunto de ações original do agente com comportamentos especialmente construídos para maximizar a performance em uma família possivelmente infinita de tarefas motoras relacionadas. Esses comportamentos são similares a reflexos primitivos em mamíferos, presentes no início de suas vidas. Agentes que iniciam suas vidas com a possibilidade de utilizar early-life options, mesmo quando agindo aleatoriamente, são capazes de produzir comportamentos rudimentares comparáveis a comportamentos de agentes que otimizaram suas políticas por centenas de milhares de passos. Nós introduzimos três métricas para identificar earlylife options úteis e mostramos que elas resultam em comportamentos que maximizam o retorno esperado da option, ao mesmo tempo em que minimizam o risco de obter performance significativamente baixa ao executá-la. Nós avaliamos o método proposto em três robôs simulados, cuja tarefa é aprender a caminhar sob diferentes restrições de consumo de bateria. Nós mostramos que mesmo políticas aleatórias sobre o conjunto de early-life options já são suficiente para que o agente tenha performance similar a de agentes que foram treinados por centenas de milhares de passos.We introduce a method for identifying short-duration reusable motor behaviors, which we call early-life options, that allow robots to perform well even in the very early stages of their lives. This is important when agents need to operate in environments where the use of poor-performing policies (such as the random policies with which they are typically initialized) may be catastrophic. Our method augments the original action set of the agent with specially-constructed behaviors that maximize performance over a possibly infinite family of related motor tasks. These are akin to primitive reflexes in infant mammals— agents born with our early-life options, even if acting randomly, are capable of producing rudimentary behaviors comparable to those acquired by agents that actively optimize a policy for hundreds of thousands of steps. We also introduce three metrics for identifying useful early-life options and show that they result in behaviors that maximize both the option’s expected return while minimizing the risk that executing the option will result in extremely poor performance. We evaluate our technique on three simulated robots tasked with learning to walk under different battery consumption constraints and show that even random policies over early-life options are already sufficient to allow for the agent to perform similarly to agents trained for hundreds of thousands of steps.application/pdfengInformáticaReinforcement LearningOptionsEarly-Life OptionsPrimitive ReflexesIdentifying Reusable Early-Life OptionsIdentificando Early-Life Options Reutilizáveis info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2020Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001122992.pdf.txt001122992.pdf.txtExtracted Texttext/plain98656http://www.lume.ufrgs.br/bitstream/10183/218619/2/001122992.pdf.txt146fb44762373f0b37b2d94643fc7af3MD52ORIGINAL001122992.pdfTexto completo (inglês)application/pdf1519764http://www.lume.ufrgs.br/bitstream/10183/218619/1/001122992.pdf0f86e226144f190964388c42a39e369dMD5110183/2186192021-05-07 04:57:03.240166oai:www.lume.ufrgs.br:10183/218619Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2021-05-07T07:57:03Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Identifying Reusable Early-Life Options
dc.title.alternative.pt.fl_str_mv	Identificando Early-Life Options Reutilizáveis
title	Identifying Reusable Early-Life Options
spellingShingle	Identifying Reusable Early-Life Options Weber, Aline Informática Reinforcement Learning Options Early-Life Options Primitive Reflexes
title_short	Identifying Reusable Early-Life Options
title_full	Identifying Reusable Early-Life Options
title_fullStr	Identifying Reusable Early-Life Options
title_full_unstemmed	Identifying Reusable Early-Life Options
title_sort	Identifying Reusable Early-Life Options
author	Weber, Aline
author_facet	Weber, Aline
author_role	author
dc.contributor.author.fl_str_mv	Weber, Aline
dc.contributor.advisor1.fl_str_mv	Silva, Bruno Castro da
contributor_str_mv	Silva, Bruno Castro da
dc.subject.por.fl_str_mv	Informática
topic	Informática Reinforcement Learning Options Early-Life Options Primitive Reflexes
dc.subject.eng.fl_str_mv	Reinforcement Learning Options Early-Life Options Primitive Reflexes
description	Neste trabalho, introduzimos um método para identificar comportamentos motores reutilizáveis e de curta duração, que chamamos de early-life options. Esses comportamentos permitem com que robôs tenham boa performance mesmo nos momentos iniciais de suas vidas. Isso é importante quando agentes precisam interagir em ambientes nos quais o uso de políticas ruins (por exemplo, as políticas aleatórias com as quais os agentes geralmente são inicializados) pode ser catastrófico. Nosso método estende o conjunto de ações original do agente com comportamentos especialmente construídos para maximizar a performance em uma família possivelmente infinita de tarefas motoras relacionadas. Esses comportamentos são similares a reflexos primitivos em mamíferos, presentes no início de suas vidas. Agentes que iniciam suas vidas com a possibilidade de utilizar early-life options, mesmo quando agindo aleatoriamente, são capazes de produzir comportamentos rudimentares comparáveis a comportamentos de agentes que otimizaram suas políticas por centenas de milhares de passos. Nós introduzimos três métricas para identificar earlylife options úteis e mostramos que elas resultam em comportamentos que maximizam o retorno esperado da option, ao mesmo tempo em que minimizam o risco de obter performance significativamente baixa ao executá-la. Nós avaliamos o método proposto em três robôs simulados, cuja tarefa é aprender a caminhar sob diferentes restrições de consumo de bateria. Nós mostramos que mesmo políticas aleatórias sobre o conjunto de early-life options já são suficiente para que o agente tenha performance similar a de agentes que foram treinados por centenas de milhares de passos.
publishDate	2020
dc.date.issued.fl_str_mv	2020
dc.date.accessioned.fl_str_mv	2021-03-11T04:24:02Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/218619
dc.identifier.nrb.pt_BR.fl_str_mv	001122992
url	http://hdl.handle.net/10183/218619
identifier_str_mv	001122992
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/218619/2/001122992.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/218619/1/001122992.pdf
bitstream.checksum.fl_str_mv	146fb44762373f0b37b2d94643fc7af3 0f86e226144f190964388c42a39e369d
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224603633188864

Identifying Reusable Early-Life Options

Registros relacionados