Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel
Autor(a) principal: | |
---|---|
Data de Publicação: | 2004 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Sba: Controle & Automação Sociedade Brasileira de Automatica |
Texto Completo: | http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0103-17592004000300008 |
Resumo: | Analisamos a variação de desempenho de algoritmos de aprendizagem por reforço em situações de ambigüidade de estados comumente produzidas pela baixa capacidade sensorial de robôs móveis. Esta variação é produzida pela violação da condição de Markov, importante para garantir a convergência destes algoritmos. As conseqüências práticas desta violação em sistemas reais não estão avaliadas de maneira definitiva na literatura. São estudados neste artigo os algoritmos Q-learning, Sarsa e Q(lambda), em experimentos realizados em um robô móvel Magellan Pro™. De modo a definir um verificador de desempenho para os algoritmos testados, foi implementado um método para criar mapas cognitivos de resolução variável. Os resultados mostram um desempenho satisfatório dos algoritmos, com uma degradação suave em função da ambigüidade sensorial. O algoritmo Q-learning teve o melhor desempenho, seguido do algoritmo Sarsa. O algoritmo Q(lambda) teve seu desempenho limitado pelos parâmetros experimentais. O método de criação de mapas se mostrou bastante eficiente, permitindo uma análise adequada dos algoritmos. |
id |
SBA-2_499533c682a0d450df5cee30cb1cff0f |
---|---|
oai_identifier_str |
oai:scielo:S0103-17592004000300008 |
network_acronym_str |
SBA-2 |
network_name_str |
Sba: Controle & Automação Sociedade Brasileira de Automatica |
repository_id_str |
|
spelling |
Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvelRobôs móveis autônomosaprendizagem por reforçoaprendizagem de mapasredes neuraisAnalisamos a variação de desempenho de algoritmos de aprendizagem por reforço em situações de ambigüidade de estados comumente produzidas pela baixa capacidade sensorial de robôs móveis. Esta variação é produzida pela violação da condição de Markov, importante para garantir a convergência destes algoritmos. As conseqüências práticas desta violação em sistemas reais não estão avaliadas de maneira definitiva na literatura. São estudados neste artigo os algoritmos Q-learning, Sarsa e Q(lambda), em experimentos realizados em um robô móvel Magellan Pro™. De modo a definir um verificador de desempenho para os algoritmos testados, foi implementado um método para criar mapas cognitivos de resolução variável. Os resultados mostram um desempenho satisfatório dos algoritmos, com uma degradação suave em função da ambigüidade sensorial. O algoritmo Q-learning teve o melhor desempenho, seguido do algoritmo Sarsa. O algoritmo Q(lambda) teve seu desempenho limitado pelos parâmetros experimentais. O método de criação de mapas se mostrou bastante eficiente, permitindo uma análise adequada dos algoritmos.Sociedade Brasileira de Automática2004-09-01info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersiontext/htmlhttp://old.scielo.br/scielo.php?script=sci_arttext&pid=S0103-17592004000300008Sba: Controle & Automação Sociedade Brasileira de Automatica v.15 n.3 2004reponame:Sba: Controle & Automação Sociedade Brasileira de Automaticainstname:Sociedade Brasileira de Automática (SBA)instacron:SBA10.1590/S0103-17592004000300008info:eu-repo/semantics/openAccessMonteiro,Sildomar T.Ribeiro,Carlos H. C.por2004-11-22T00:00:00Zoai:scielo:S0103-17592004000300008Revistahttps://www.sba.org.br/revista/PUBhttps://old.scielo.br/oai/scielo-oai.php||revista_sba@fee.unicamp.br1807-03450103-1759opendoar:2004-11-22T00:00Sba: Controle & Automação Sociedade Brasileira de Automatica - Sociedade Brasileira de Automática (SBA)false |
dc.title.none.fl_str_mv |
Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel |
title |
Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel |
spellingShingle |
Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel Monteiro,Sildomar T. Robôs móveis autônomos aprendizagem por reforço aprendizagem de mapas redes neurais |
title_short |
Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel |
title_full |
Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel |
title_fullStr |
Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel |
title_full_unstemmed |
Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel |
title_sort |
Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel |
author |
Monteiro,Sildomar T. |
author_facet |
Monteiro,Sildomar T. Ribeiro,Carlos H. C. |
author_role |
author |
author2 |
Ribeiro,Carlos H. C. |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Monteiro,Sildomar T. Ribeiro,Carlos H. C. |
dc.subject.por.fl_str_mv |
Robôs móveis autônomos aprendizagem por reforço aprendizagem de mapas redes neurais |
topic |
Robôs móveis autônomos aprendizagem por reforço aprendizagem de mapas redes neurais |
description |
Analisamos a variação de desempenho de algoritmos de aprendizagem por reforço em situações de ambigüidade de estados comumente produzidas pela baixa capacidade sensorial de robôs móveis. Esta variação é produzida pela violação da condição de Markov, importante para garantir a convergência destes algoritmos. As conseqüências práticas desta violação em sistemas reais não estão avaliadas de maneira definitiva na literatura. São estudados neste artigo os algoritmos Q-learning, Sarsa e Q(lambda), em experimentos realizados em um robô móvel Magellan Pro™. De modo a definir um verificador de desempenho para os algoritmos testados, foi implementado um método para criar mapas cognitivos de resolução variável. Os resultados mostram um desempenho satisfatório dos algoritmos, com uma degradação suave em função da ambigüidade sensorial. O algoritmo Q-learning teve o melhor desempenho, seguido do algoritmo Sarsa. O algoritmo Q(lambda) teve seu desempenho limitado pelos parâmetros experimentais. O método de criação de mapas se mostrou bastante eficiente, permitindo uma análise adequada dos algoritmos. |
publishDate |
2004 |
dc.date.none.fl_str_mv |
2004-09-01 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0103-17592004000300008 |
url |
http://old.scielo.br/scielo.php?script=sci_arttext&pid=S0103-17592004000300008 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
10.1590/S0103-17592004000300008 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
text/html |
dc.publisher.none.fl_str_mv |
Sociedade Brasileira de Automática |
publisher.none.fl_str_mv |
Sociedade Brasileira de Automática |
dc.source.none.fl_str_mv |
Sba: Controle & Automação Sociedade Brasileira de Automatica v.15 n.3 2004 reponame:Sba: Controle & Automação Sociedade Brasileira de Automatica instname:Sociedade Brasileira de Automática (SBA) instacron:SBA |
instname_str |
Sociedade Brasileira de Automática (SBA) |
instacron_str |
SBA |
institution |
SBA |
reponame_str |
Sba: Controle & Automação Sociedade Brasileira de Automatica |
collection |
Sba: Controle & Automação Sociedade Brasileira de Automatica |
repository.name.fl_str_mv |
Sba: Controle & Automação Sociedade Brasileira de Automatica - Sociedade Brasileira de Automática (SBA) |
repository.mail.fl_str_mv |
||revista_sba@fee.unicamp.br |
_version_ |
1754824564289830912 |