Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada

Detalhes bibliográficos
Autor(a) principal: Luisa Amaral de Almeida
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do ITA
Texto Completo: http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=3376
Resumo: O planejamento probabilístico busca a tomada de decisões racionais em condições de incerteza. Dentre os diversos algoritmos para planejamento probabilístico, o Upper Confidence bounds applied to Trees (UCT) tem se destacado como um bom planejador para problemas complexos representados como Processos de Decisão Markovianos (Markov Decision Processes - MDPs), quando uma restrição de tempo é imposta ao planejamento. Este trabalho propõe uma variante do algoritmo UCT, como uma alternativa para planejamento probabilístico independente de domínio com restrição de tempo. O algoritmo UCT original constrói progressivamente a árvore decisória que representa um MDP e propaga recompensas médias através da árvore. Como resultado, recompensas altas e singulares podem ficar "escondidas" na árvore parcial gerada pelo UCT. Já o algoritmo proposto, Soft-UCT, utiliza um operador "soft" de média generalizada de ordem na propagação das recompensas pela árvore decisória. Esse operador faz com que políticas que apresentem probabilidade de muitas recompensas altas sejam preferíveis em relação a políticas que apresentem uma única recompensa muito alta. Assim, esta dissertação mostra detalhes sobre a implementação do Soft-UCT, como a definição do parâmetro utilizado no cálculo da média generalizada, além de uma heurística para estimar o horizonte ideal de busca na árvore decisória. O algoritmo é avaliado em dois benchmarks: um problema prático na área de Web Marketing e os domínios da competição International Probabilistic Planning Competition (IPPC) 2011. Os resultados obtidos no MDP relacionado a Web Marketing mostraram que o Soft-UCT pode ser aplicado em problemas reais de alta complexidade. No benchmark da competição IPPC 2011, foi possível verificar ainda que o Soft-UCT obteve um desempenho superior ao UCT em termos de recompensa média com a aplicação das políticas, além de obter um resultado melhor do que o planejador que teve a segunda colocação na competição. De forma geral, o algoritmo pode ser aplicado em qualquer MDP de horizonte finito e os experimentos realizados demonstraram bons resultados em comparação ao UCT original.
id ITA_f8bfeca8353825c7a24b4da9bd98987b
oai_identifier_str oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:3376
network_acronym_str ITA
network_name_str Biblioteca Digital de Teses e Dissertações do ITA
spelling Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizadaProcessos de MarkovTomada de decisõesAlgoritmosÁrvores de decisãoComputaçãoO planejamento probabilístico busca a tomada de decisões racionais em condições de incerteza. Dentre os diversos algoritmos para planejamento probabilístico, o Upper Confidence bounds applied to Trees (UCT) tem se destacado como um bom planejador para problemas complexos representados como Processos de Decisão Markovianos (Markov Decision Processes - MDPs), quando uma restrição de tempo é imposta ao planejamento. Este trabalho propõe uma variante do algoritmo UCT, como uma alternativa para planejamento probabilístico independente de domínio com restrição de tempo. O algoritmo UCT original constrói progressivamente a árvore decisória que representa um MDP e propaga recompensas médias através da árvore. Como resultado, recompensas altas e singulares podem ficar "escondidas" na árvore parcial gerada pelo UCT. Já o algoritmo proposto, Soft-UCT, utiliza um operador "soft" de média generalizada de ordem na propagação das recompensas pela árvore decisória. Esse operador faz com que políticas que apresentem probabilidade de muitas recompensas altas sejam preferíveis em relação a políticas que apresentem uma única recompensa muito alta. Assim, esta dissertação mostra detalhes sobre a implementação do Soft-UCT, como a definição do parâmetro utilizado no cálculo da média generalizada, além de uma heurística para estimar o horizonte ideal de busca na árvore decisória. O algoritmo é avaliado em dois benchmarks: um problema prático na área de Web Marketing e os domínios da competição International Probabilistic Planning Competition (IPPC) 2011. Os resultados obtidos no MDP relacionado a Web Marketing mostraram que o Soft-UCT pode ser aplicado em problemas reais de alta complexidade. No benchmark da competição IPPC 2011, foi possível verificar ainda que o Soft-UCT obteve um desempenho superior ao UCT em termos de recompensa média com a aplicação das políticas, além de obter um resultado melhor do que o planejador que teve a segunda colocação na competição. De forma geral, o algoritmo pode ser aplicado em qualquer MDP de horizonte finito e os experimentos realizados demonstraram bons resultados em comparação ao UCT original.Instituto Tecnológico de AeronáuticaCarlos Henrique Costa RibeiroLuisa Amaral de Almeida2015-11-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=3376reponame:Biblioteca Digital de Teses e Dissertações do ITAinstname:Instituto Tecnológico de Aeronáuticainstacron:ITAporinfo:eu-repo/semantics/openAccessapplication/pdf2019-02-02T14:05:10Zoai:agregador.ibict.br.BDTD_ITA:oai:ita.br:3376http://oai.bdtd.ibict.br/requestopendoar:null2020-05-28 19:41:49.781Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáuticatrue
dc.title.none.fl_str_mv Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada
title Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada
spellingShingle Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada
Luisa Amaral de Almeida
Processos de Markov
Tomada de decisões
Algoritmos
Árvores de decisão
Computação
title_short Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada
title_full Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada
title_fullStr Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada
title_full_unstemmed Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada
title_sort Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada
author Luisa Amaral de Almeida
author_facet Luisa Amaral de Almeida
author_role author
dc.contributor.none.fl_str_mv Carlos Henrique Costa Ribeiro
dc.contributor.author.fl_str_mv Luisa Amaral de Almeida
dc.subject.por.fl_str_mv Processos de Markov
Tomada de decisões
Algoritmos
Árvores de decisão
Computação
topic Processos de Markov
Tomada de decisões
Algoritmos
Árvores de decisão
Computação
dc.description.none.fl_txt_mv O planejamento probabilístico busca a tomada de decisões racionais em condições de incerteza. Dentre os diversos algoritmos para planejamento probabilístico, o Upper Confidence bounds applied to Trees (UCT) tem se destacado como um bom planejador para problemas complexos representados como Processos de Decisão Markovianos (Markov Decision Processes - MDPs), quando uma restrição de tempo é imposta ao planejamento. Este trabalho propõe uma variante do algoritmo UCT, como uma alternativa para planejamento probabilístico independente de domínio com restrição de tempo. O algoritmo UCT original constrói progressivamente a árvore decisória que representa um MDP e propaga recompensas médias através da árvore. Como resultado, recompensas altas e singulares podem ficar "escondidas" na árvore parcial gerada pelo UCT. Já o algoritmo proposto, Soft-UCT, utiliza um operador "soft" de média generalizada de ordem na propagação das recompensas pela árvore decisória. Esse operador faz com que políticas que apresentem probabilidade de muitas recompensas altas sejam preferíveis em relação a políticas que apresentem uma única recompensa muito alta. Assim, esta dissertação mostra detalhes sobre a implementação do Soft-UCT, como a definição do parâmetro utilizado no cálculo da média generalizada, além de uma heurística para estimar o horizonte ideal de busca na árvore decisória. O algoritmo é avaliado em dois benchmarks: um problema prático na área de Web Marketing e os domínios da competição International Probabilistic Planning Competition (IPPC) 2011. Os resultados obtidos no MDP relacionado a Web Marketing mostraram que o Soft-UCT pode ser aplicado em problemas reais de alta complexidade. No benchmark da competição IPPC 2011, foi possível verificar ainda que o Soft-UCT obteve um desempenho superior ao UCT em termos de recompensa média com a aplicação das políticas, além de obter um resultado melhor do que o planejador que teve a segunda colocação na competição. De forma geral, o algoritmo pode ser aplicado em qualquer MDP de horizonte finito e os experimentos realizados demonstraram bons resultados em comparação ao UCT original.
description O planejamento probabilístico busca a tomada de decisões racionais em condições de incerteza. Dentre os diversos algoritmos para planejamento probabilístico, o Upper Confidence bounds applied to Trees (UCT) tem se destacado como um bom planejador para problemas complexos representados como Processos de Decisão Markovianos (Markov Decision Processes - MDPs), quando uma restrição de tempo é imposta ao planejamento. Este trabalho propõe uma variante do algoritmo UCT, como uma alternativa para planejamento probabilístico independente de domínio com restrição de tempo. O algoritmo UCT original constrói progressivamente a árvore decisória que representa um MDP e propaga recompensas médias através da árvore. Como resultado, recompensas altas e singulares podem ficar "escondidas" na árvore parcial gerada pelo UCT. Já o algoritmo proposto, Soft-UCT, utiliza um operador "soft" de média generalizada de ordem na propagação das recompensas pela árvore decisória. Esse operador faz com que políticas que apresentem probabilidade de muitas recompensas altas sejam preferíveis em relação a políticas que apresentem uma única recompensa muito alta. Assim, esta dissertação mostra detalhes sobre a implementação do Soft-UCT, como a definição do parâmetro utilizado no cálculo da média generalizada, além de uma heurística para estimar o horizonte ideal de busca na árvore decisória. O algoritmo é avaliado em dois benchmarks: um problema prático na área de Web Marketing e os domínios da competição International Probabilistic Planning Competition (IPPC) 2011. Os resultados obtidos no MDP relacionado a Web Marketing mostraram que o Soft-UCT pode ser aplicado em problemas reais de alta complexidade. No benchmark da competição IPPC 2011, foi possível verificar ainda que o Soft-UCT obteve um desempenho superior ao UCT em termos de recompensa média com a aplicação das políticas, além de obter um resultado melhor do que o planejador que teve a segunda colocação na competição. De forma geral, o algoritmo pode ser aplicado em qualquer MDP de horizonte finito e os experimentos realizados demonstraram bons resultados em comparação ao UCT original.
publishDate 2015
dc.date.none.fl_str_mv 2015-11-17
dc.type.driver.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/masterThesis
status_str publishedVersion
format masterThesis
dc.identifier.uri.fl_str_mv http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=3376
url http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=3376
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Tecnológico de Aeronáutica
publisher.none.fl_str_mv Instituto Tecnológico de Aeronáutica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do ITA
instname:Instituto Tecnológico de Aeronáutica
instacron:ITA
reponame_str Biblioteca Digital de Teses e Dissertações do ITA
collection Biblioteca Digital de Teses e Dissertações do ITA
instname_str Instituto Tecnológico de Aeronáutica
instacron_str ITA
institution ITA
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáutica
repository.mail.fl_str_mv
subject_por_txtF_mv Processos de Markov
Tomada de decisões
Algoritmos
Árvores de decisão
Computação
_version_ 1706809299625312256