Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.
Autor(a) principal: | |
---|---|
Data de Publicação: | 2007 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do ITA |
Texto Completo: | http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=382 |
Resumo: | Modelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme dimensão do espaço de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM são baseados em um mapeamento explícito entre estados e ações, tal situação normalmente força o uso de representações do espaço de estados compactas, para as quais não existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho é a análise de mecanismos que permitam o planejamento online eficiente em robótica móvel, em situações realistas nas quais não é possível o uso de uma representação explícita dos estados devido à dimensão do espaço de estados. É considerada uma técnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta técnica é baseada em amostragem esparsa de instâncias simuladas de um modelo do PDM que representa a interação do robô com o seu ambiente, e pode ser combinada ao uso de opções (macro-operadores) que correspondem a seqüências de ações primitivas. O uso de opções pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploração mais efetiva do espaço de estados, o que acelera a convergência do aprendizado. Entretanto, o tempo de execução deste algoritmo é exponencial no nível de exploração e no número de amostras a serem gerados. Deste modo, este trabalho propõe uma melhoria para o algoritmo de AE, através da utilização de informações pré-processadas do ambiente a ser explorado. Tais informações são adquiridas a partir da execução do algoritmo de aprendizado por reforço Q-Leaning sobre uma discretização do espaço de estados deste ambiente. |
id |
ITA_5bd93b66c164525d4b1f4aec9b3c0b01 |
---|---|
oai_identifier_str |
oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:382 |
network_acronym_str |
ITA |
network_name_str |
Biblioteca Digital de Teses e Dissertações do ITA |
spelling |
Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.Dinâmica de robôsPlanejamento de tarefas (robótica)AprendizagemAmostragemInteligência artificialComputaçãoModelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme dimensão do espaço de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM são baseados em um mapeamento explícito entre estados e ações, tal situação normalmente força o uso de representações do espaço de estados compactas, para as quais não existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho é a análise de mecanismos que permitam o planejamento online eficiente em robótica móvel, em situações realistas nas quais não é possível o uso de uma representação explícita dos estados devido à dimensão do espaço de estados. É considerada uma técnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta técnica é baseada em amostragem esparsa de instâncias simuladas de um modelo do PDM que representa a interação do robô com o seu ambiente, e pode ser combinada ao uso de opções (macro-operadores) que correspondem a seqüências de ações primitivas. O uso de opções pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploração mais efetiva do espaço de estados, o que acelera a convergência do aprendizado. Entretanto, o tempo de execução deste algoritmo é exponencial no nível de exploração e no número de amostras a serem gerados. Deste modo, este trabalho propõe uma melhoria para o algoritmo de AE, através da utilização de informações pré-processadas do ambiente a ser explorado. Tais informações são adquiridas a partir da execução do algoritmo de aprendizado por reforço Q-Leaning sobre uma discretização do espaço de estados deste ambiente.Instituto Tecnológico de AeronáuticaCarlos Henrique Costa RibeiroCeleny Fernandes Alves2007-04-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=382reponame:Biblioteca Digital de Teses e Dissertações do ITAinstname:Instituto Tecnológico de Aeronáuticainstacron:ITAporinfo:eu-repo/semantics/openAccessapplication/pdf2019-02-02T14:01:45Zoai:agregador.ibict.br.BDTD_ITA:oai:ita.br:382http://oai.bdtd.ibict.br/requestopendoar:null2020-05-28 19:33:04.125Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáuticatrue |
dc.title.none.fl_str_mv |
Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores. |
title |
Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores. |
spellingShingle |
Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores. Celeny Fernandes Alves Dinâmica de robôs Planejamento de tarefas (robótica) Aprendizagem Amostragem Inteligência artificial Computação |
title_short |
Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores. |
title_full |
Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores. |
title_fullStr |
Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores. |
title_full_unstemmed |
Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores. |
title_sort |
Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores. |
author |
Celeny Fernandes Alves |
author_facet |
Celeny Fernandes Alves |
author_role |
author |
dc.contributor.none.fl_str_mv |
Carlos Henrique Costa Ribeiro |
dc.contributor.author.fl_str_mv |
Celeny Fernandes Alves |
dc.subject.por.fl_str_mv |
Dinâmica de robôs Planejamento de tarefas (robótica) Aprendizagem Amostragem Inteligência artificial Computação |
topic |
Dinâmica de robôs Planejamento de tarefas (robótica) Aprendizagem Amostragem Inteligência artificial Computação |
dc.description.none.fl_txt_mv |
Modelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme dimensão do espaço de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM são baseados em um mapeamento explícito entre estados e ações, tal situação normalmente força o uso de representações do espaço de estados compactas, para as quais não existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho é a análise de mecanismos que permitam o planejamento online eficiente em robótica móvel, em situações realistas nas quais não é possível o uso de uma representação explícita dos estados devido à dimensão do espaço de estados. É considerada uma técnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta técnica é baseada em amostragem esparsa de instâncias simuladas de um modelo do PDM que representa a interação do robô com o seu ambiente, e pode ser combinada ao uso de opções (macro-operadores) que correspondem a seqüências de ações primitivas. O uso de opções pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploração mais efetiva do espaço de estados, o que acelera a convergência do aprendizado. Entretanto, o tempo de execução deste algoritmo é exponencial no nível de exploração e no número de amostras a serem gerados. Deste modo, este trabalho propõe uma melhoria para o algoritmo de AE, através da utilização de informações pré-processadas do ambiente a ser explorado. Tais informações são adquiridas a partir da execução do algoritmo de aprendizado por reforço Q-Leaning sobre uma discretização do espaço de estados deste ambiente. |
description |
Modelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme dimensão do espaço de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM são baseados em um mapeamento explícito entre estados e ações, tal situação normalmente força o uso de representações do espaço de estados compactas, para as quais não existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho é a análise de mecanismos que permitam o planejamento online eficiente em robótica móvel, em situações realistas nas quais não é possível o uso de uma representação explícita dos estados devido à dimensão do espaço de estados. É considerada uma técnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta técnica é baseada em amostragem esparsa de instâncias simuladas de um modelo do PDM que representa a interação do robô com o seu ambiente, e pode ser combinada ao uso de opções (macro-operadores) que correspondem a seqüências de ações primitivas. O uso de opções pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploração mais efetiva do espaço de estados, o que acelera a convergência do aprendizado. Entretanto, o tempo de execução deste algoritmo é exponencial no nível de exploração e no número de amostras a serem gerados. Deste modo, este trabalho propõe uma melhoria para o algoritmo de AE, através da utilização de informações pré-processadas do ambiente a ser explorado. Tais informações são adquiridas a partir da execução do algoritmo de aprendizado por reforço Q-Leaning sobre uma discretização do espaço de estados deste ambiente. |
publishDate |
2007 |
dc.date.none.fl_str_mv |
2007-04-24 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis |
status_str |
publishedVersion |
format |
masterThesis |
dc.identifier.uri.fl_str_mv |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=382 |
url |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=382 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do ITA instname:Instituto Tecnológico de Aeronáutica instacron:ITA |
reponame_str |
Biblioteca Digital de Teses e Dissertações do ITA |
collection |
Biblioteca Digital de Teses e Dissertações do ITA |
instname_str |
Instituto Tecnológico de Aeronáutica |
instacron_str |
ITA |
institution |
ITA |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáutica |
repository.mail.fl_str_mv |
|
subject_por_txtF_mv |
Dinâmica de robôs Planejamento de tarefas (robótica) Aprendizagem Amostragem Inteligência artificial Computação |
_version_ |
1706809257034252288 |