Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.

Detalhes bibliográficos
Autor(a) principal: Celeny Fernandes Alves
Data de Publicação: 2007
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do ITA
Texto Completo: http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=382
Resumo: Modelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme dimensão do espaço de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM são baseados em um mapeamento explícito entre estados e ações, tal situação normalmente força o uso de representações do espaço de estados compactas, para as quais não existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho é a análise de mecanismos que permitam o planejamento online eficiente em robótica móvel, em situações realistas nas quais não é possível o uso de uma representação explícita dos estados devido à dimensão do espaço de estados. É considerada uma técnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta técnica é baseada em amostragem esparsa de instâncias simuladas de um modelo do PDM que representa a interação do robô com o seu ambiente, e pode ser combinada ao uso de opções (macro-operadores) que correspondem a seqüências de ações primitivas. O uso de opções pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploração mais efetiva do espaço de estados, o que acelera a convergência do aprendizado. Entretanto, o tempo de execução deste algoritmo é exponencial no nível de exploração e no número de amostras a serem gerados. Deste modo, este trabalho propõe uma melhoria para o algoritmo de AE, através da utilização de informações pré-processadas do ambiente a ser explorado. Tais informações são adquiridas a partir da execução do algoritmo de aprendizado por reforço Q-Leaning sobre uma discretização do espaço de estados deste ambiente.
id ITA_5bd93b66c164525d4b1f4aec9b3c0b01
oai_identifier_str oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:382
network_acronym_str ITA
network_name_str Biblioteca Digital de Teses e Dissertações do ITA
spelling Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.Dinâmica de robôsPlanejamento de tarefas (robótica)AprendizagemAmostragemInteligência artificialComputaçãoModelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme dimensão do espaço de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM são baseados em um mapeamento explícito entre estados e ações, tal situação normalmente força o uso de representações do espaço de estados compactas, para as quais não existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho é a análise de mecanismos que permitam o planejamento online eficiente em robótica móvel, em situações realistas nas quais não é possível o uso de uma representação explícita dos estados devido à dimensão do espaço de estados. É considerada uma técnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta técnica é baseada em amostragem esparsa de instâncias simuladas de um modelo do PDM que representa a interação do robô com o seu ambiente, e pode ser combinada ao uso de opções (macro-operadores) que correspondem a seqüências de ações primitivas. O uso de opções pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploração mais efetiva do espaço de estados, o que acelera a convergência do aprendizado. Entretanto, o tempo de execução deste algoritmo é exponencial no nível de exploração e no número de amostras a serem gerados. Deste modo, este trabalho propõe uma melhoria para o algoritmo de AE, através da utilização de informações pré-processadas do ambiente a ser explorado. Tais informações são adquiridas a partir da execução do algoritmo de aprendizado por reforço Q-Leaning sobre uma discretização do espaço de estados deste ambiente.Instituto Tecnológico de AeronáuticaCarlos Henrique Costa RibeiroCeleny Fernandes Alves2007-04-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=382reponame:Biblioteca Digital de Teses e Dissertações do ITAinstname:Instituto Tecnológico de Aeronáuticainstacron:ITAporinfo:eu-repo/semantics/openAccessapplication/pdf2019-02-02T14:01:45Zoai:agregador.ibict.br.BDTD_ITA:oai:ita.br:382http://oai.bdtd.ibict.br/requestopendoar:null2020-05-28 19:33:04.125Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáuticatrue
dc.title.none.fl_str_mv Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.
title Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.
spellingShingle Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.
Celeny Fernandes Alves
Dinâmica de robôs
Planejamento de tarefas (robótica)
Aprendizagem
Amostragem
Inteligência artificial
Computação
title_short Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.
title_full Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.
title_fullStr Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.
title_full_unstemmed Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.
title_sort Planejamento online para robô móvel baseado em amostragem esparsa e macro-operadores.
author Celeny Fernandes Alves
author_facet Celeny Fernandes Alves
author_role author
dc.contributor.none.fl_str_mv Carlos Henrique Costa Ribeiro
dc.contributor.author.fl_str_mv Celeny Fernandes Alves
dc.subject.por.fl_str_mv Dinâmica de robôs
Planejamento de tarefas (robótica)
Aprendizagem
Amostragem
Inteligência artificial
Computação
topic Dinâmica de robôs
Planejamento de tarefas (robótica)
Aprendizagem
Amostragem
Inteligência artificial
Computação
dc.description.none.fl_txt_mv Modelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme dimensão do espaço de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM são baseados em um mapeamento explícito entre estados e ações, tal situação normalmente força o uso de representações do espaço de estados compactas, para as quais não existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho é a análise de mecanismos que permitam o planejamento online eficiente em robótica móvel, em situações realistas nas quais não é possível o uso de uma representação explícita dos estados devido à dimensão do espaço de estados. É considerada uma técnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta técnica é baseada em amostragem esparsa de instâncias simuladas de um modelo do PDM que representa a interação do robô com o seu ambiente, e pode ser combinada ao uso de opções (macro-operadores) que correspondem a seqüências de ações primitivas. O uso de opções pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploração mais efetiva do espaço de estados, o que acelera a convergência do aprendizado. Entretanto, o tempo de execução deste algoritmo é exponencial no nível de exploração e no número de amostras a serem gerados. Deste modo, este trabalho propõe uma melhoria para o algoritmo de AE, através da utilização de informações pré-processadas do ambiente a ser explorado. Tais informações são adquiridas a partir da execução do algoritmo de aprendizado por reforço Q-Leaning sobre uma discretização do espaço de estados deste ambiente.
description Modelos baseados na teoria de Processos Decisórios de Markov (PDM) têm sido propostos para situações realistas a serem enfrentadas por robôs móveis aplicados a tarefas que envolvem navegação (vigilância, distribuição de mensagens, etc.). Entretanto, um aspecto crítico em problemas reais é a enorme dimensão do espaço de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM são baseados em um mapeamento explícito entre estados e ações, tal situação normalmente força o uso de representações do espaço de estados compactas, para as quais não existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho é a análise de mecanismos que permitam o planejamento online eficiente em robótica móvel, em situações realistas nas quais não é possível o uso de uma representação explícita dos estados devido à dimensão do espaço de estados. É considerada uma técnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta técnica é baseada em amostragem esparsa de instâncias simuladas de um modelo do PDM que representa a interação do robô com o seu ambiente, e pode ser combinada ao uso de opções (macro-operadores) que correspondem a seqüências de ações primitivas. O uso de opções pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploração mais efetiva do espaço de estados, o que acelera a convergência do aprendizado. Entretanto, o tempo de execução deste algoritmo é exponencial no nível de exploração e no número de amostras a serem gerados. Deste modo, este trabalho propõe uma melhoria para o algoritmo de AE, através da utilização de informações pré-processadas do ambiente a ser explorado. Tais informações são adquiridas a partir da execução do algoritmo de aprendizado por reforço Q-Leaning sobre uma discretização do espaço de estados deste ambiente.
publishDate 2007
dc.date.none.fl_str_mv 2007-04-24
dc.type.driver.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/masterThesis
status_str publishedVersion
format masterThesis
dc.identifier.uri.fl_str_mv http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=382
url http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=382
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Tecnológico de Aeronáutica
publisher.none.fl_str_mv Instituto Tecnológico de Aeronáutica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do ITA
instname:Instituto Tecnológico de Aeronáutica
instacron:ITA
reponame_str Biblioteca Digital de Teses e Dissertações do ITA
collection Biblioteca Digital de Teses e Dissertações do ITA
instname_str Instituto Tecnológico de Aeronáutica
instacron_str ITA
institution ITA
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáutica
repository.mail.fl_str_mv
subject_por_txtF_mv Dinâmica de robôs
Planejamento de tarefas (robótica)
Aprendizagem
Amostragem
Inteligência artificial
Computação
_version_ 1706809257034252288