Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel

Detalhes bibliográficos
Autor(a) principal: Monteiro,Sildomar T.
Data de Publicação: 2004
Outros Autores: Ribeiro,Carlos H. C.
Tipo de documento: Artigo
Idioma: por
Título da fonte: Sba: Controle & Automação Sociedade Brasileira de Automatica
Texto Completo: http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0103-17592004000300008
Resumo: Analisamos a variação de desempenho de algoritmos de aprendizagem por reforço em situações de ambigüidade de estados comumente produzidas pela baixa capacidade sensorial de robôs móveis. Esta variação é produzida pela violação da condição de Markov, importante para garantir a convergência destes algoritmos. As conseqüências práticas desta violação em sistemas reais não estão avaliadas de maneira definitiva na literatura. São estudados neste artigo os algoritmos Q-learning, Sarsa e Q(lambda), em experimentos realizados em um robô móvel Magellan Pro™. De modo a definir um verificador de desempenho para os algoritmos testados, foi implementado um método para criar mapas cognitivos de resolução variável. Os resultados mostram um desempenho satisfatório dos algoritmos, com uma degradação suave em função da ambigüidade sensorial. O algoritmo Q-learning teve o melhor desempenho, seguido do algoritmo Sarsa. O algoritmo Q(lambda) teve seu desempenho limitado pelos parâmetros experimentais. O método de criação de mapas se mostrou bastante eficiente, permitindo uma análise adequada dos algoritmos.
id SBA-2_499533c682a0d450df5cee30cb1cff0f
oai_identifier_str oai:scielo:S0103-17592004000300008
network_acronym_str SBA-2
network_name_str Sba: Controle & Automação Sociedade Brasileira de Automatica
repository_id_str
spelling Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvelRobôs móveis autônomosaprendizagem por reforçoaprendizagem de mapasredes neuraisAnalisamos a variação de desempenho de algoritmos de aprendizagem por reforço em situações de ambigüidade de estados comumente produzidas pela baixa capacidade sensorial de robôs móveis. Esta variação é produzida pela violação da condição de Markov, importante para garantir a convergência destes algoritmos. As conseqüências práticas desta violação em sistemas reais não estão avaliadas de maneira definitiva na literatura. São estudados neste artigo os algoritmos Q-learning, Sarsa e Q(lambda), em experimentos realizados em um robô móvel Magellan Pro™. De modo a definir um verificador de desempenho para os algoritmos testados, foi implementado um método para criar mapas cognitivos de resolução variável. Os resultados mostram um desempenho satisfatório dos algoritmos, com uma degradação suave em função da ambigüidade sensorial. O algoritmo Q-learning teve o melhor desempenho, seguido do algoritmo Sarsa. O algoritmo Q(lambda) teve seu desempenho limitado pelos parâmetros experimentais. O método de criação de mapas se mostrou bastante eficiente, permitindo uma análise adequada dos algoritmos.Sociedade Brasileira de Automática2004-09-01info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontext/htmlhttp://old.scielo.br/scielo.php?script=sci_arttext&pid=S0103-17592004000300008Sba: Controle & Automação Sociedade Brasileira de Automatica v.15 n.3 2004reponame:Sba: Controle & Automação Sociedade Brasileira de Automaticainstname:Sociedade Brasileira de Automática (SBA)instacron:SBA10.1590/S0103-17592004000300008info:eu-repo/semantics/openAccessMonteiro,Sildomar T.Ribeiro,Carlos H. C.por2004-11-22T00:00:00Zoai:scielo:S0103-17592004000300008Revistahttps://www.sba.org.br/revista/PUBhttps://old.scielo.br/oai/scielo-oai.php||revista_sba@fee.unicamp.br1807-03450103-1759opendoar:2004-11-22T00:00Sba: Controle & Automação Sociedade Brasileira de Automatica - Sociedade Brasileira de Automática (SBA)false
dc.title.none.fl_str_mv Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel
title Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel
spellingShingle Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel
Monteiro,Sildomar T.
Robôs móveis autônomos
aprendizagem por reforço
aprendizagem de mapas
redes neurais
title_short Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel
title_full Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel
title_fullStr Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel
title_full_unstemmed Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel
title_sort Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel
author Monteiro,Sildomar T.
author_facet Monteiro,Sildomar T.
Ribeiro,Carlos H. C.
author_role author
author2 Ribeiro,Carlos H. C.
author2_role author
dc.contributor.author.fl_str_mv Monteiro,Sildomar T.
Ribeiro,Carlos H. C.
dc.subject.por.fl_str_mv Robôs móveis autônomos
aprendizagem por reforço
aprendizagem de mapas
redes neurais
topic Robôs móveis autônomos
aprendizagem por reforço
aprendizagem de mapas
redes neurais
description Analisamos a variação de desempenho de algoritmos de aprendizagem por reforço em situações de ambigüidade de estados comumente produzidas pela baixa capacidade sensorial de robôs móveis. Esta variação é produzida pela violação da condição de Markov, importante para garantir a convergência destes algoritmos. As conseqüências práticas desta violação em sistemas reais não estão avaliadas de maneira definitiva na literatura. São estudados neste artigo os algoritmos Q-learning, Sarsa e Q(lambda), em experimentos realizados em um robô móvel Magellan Pro™. De modo a definir um verificador de desempenho para os algoritmos testados, foi implementado um método para criar mapas cognitivos de resolução variável. Os resultados mostram um desempenho satisfatório dos algoritmos, com uma degradação suave em função da ambigüidade sensorial. O algoritmo Q-learning teve o melhor desempenho, seguido do algoritmo Sarsa. O algoritmo Q(lambda) teve seu desempenho limitado pelos parâmetros experimentais. O método de criação de mapas se mostrou bastante eficiente, permitindo uma análise adequada dos algoritmos.
publishDate 2004
dc.date.none.fl_str_mv 2004-09-01
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0103-17592004000300008
url http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0103-17592004000300008
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 10.1590/S0103-17592004000300008
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv text/html
dc.publisher.none.fl_str_mv Sociedade Brasileira de Automática
publisher.none.fl_str_mv Sociedade Brasileira de Automática
dc.source.none.fl_str_mv Sba: Controle & Automação Sociedade Brasileira de Automatica v.15 n.3 2004
reponame:Sba: Controle & Automação Sociedade Brasileira de Automatica
instname:Sociedade Brasileira de Automática (SBA)
instacron:SBA
instname_str Sociedade Brasileira de Automática (SBA)
instacron_str SBA
institution SBA
reponame_str Sba: Controle & Automação Sociedade Brasileira de Automatica
collection Sba: Controle & Automação Sociedade Brasileira de Automatica
repository.name.fl_str_mv Sba: Controle & Automação Sociedade Brasileira de Automatica - Sociedade Brasileira de Automática (SBA)
repository.mail.fl_str_mv ||revista_sba@fee.unicamp.br
_version_ 1754824564289830912