Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do ITA |
Texto Completo: | http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=3376 |
Resumo: | O planejamento probabilístico busca a tomada de decisões racionais em condições de incerteza. Dentre os diversos algoritmos para planejamento probabilístico, o Upper Confidence bounds applied to Trees (UCT) tem se destacado como um bom planejador para problemas complexos representados como Processos de Decisão Markovianos (Markov Decision Processes - MDPs), quando uma restrição de tempo é imposta ao planejamento. Este trabalho propõe uma variante do algoritmo UCT, como uma alternativa para planejamento probabilístico independente de domínio com restrição de tempo. O algoritmo UCT original constrói progressivamente a árvore decisória que representa um MDP e propaga recompensas médias através da árvore. Como resultado, recompensas altas e singulares podem ficar "escondidas" na árvore parcial gerada pelo UCT. Já o algoritmo proposto, Soft-UCT, utiliza um operador "soft" de média generalizada de ordem na propagação das recompensas pela árvore decisória. Esse operador faz com que políticas que apresentem probabilidade de muitas recompensas altas sejam preferíveis em relação a políticas que apresentem uma única recompensa muito alta. Assim, esta dissertação mostra detalhes sobre a implementação do Soft-UCT, como a definição do parâmetro utilizado no cálculo da média generalizada, além de uma heurística para estimar o horizonte ideal de busca na árvore decisória. O algoritmo é avaliado em dois benchmarks: um problema prático na área de Web Marketing e os domínios da competição International Probabilistic Planning Competition (IPPC) 2011. Os resultados obtidos no MDP relacionado a Web Marketing mostraram que o Soft-UCT pode ser aplicado em problemas reais de alta complexidade. No benchmark da competição IPPC 2011, foi possível verificar ainda que o Soft-UCT obteve um desempenho superior ao UCT em termos de recompensa média com a aplicação das políticas, além de obter um resultado melhor do que o planejador que teve a segunda colocação na competição. De forma geral, o algoritmo pode ser aplicado em qualquer MDP de horizonte finito e os experimentos realizados demonstraram bons resultados em comparação ao UCT original. |
id |
ITA_f8bfeca8353825c7a24b4da9bd98987b |
---|---|
oai_identifier_str |
oai:agregador.ibict.br.BDTD_ITA:oai:ita.br:3376 |
network_acronym_str |
ITA |
network_name_str |
Biblioteca Digital de Teses e Dissertações do ITA |
spelling |
Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizadaProcessos de MarkovTomada de decisõesAlgoritmosÁrvores de decisãoComputaçãoO planejamento probabilístico busca a tomada de decisões racionais em condições de incerteza. Dentre os diversos algoritmos para planejamento probabilístico, o Upper Confidence bounds applied to Trees (UCT) tem se destacado como um bom planejador para problemas complexos representados como Processos de Decisão Markovianos (Markov Decision Processes - MDPs), quando uma restrição de tempo é imposta ao planejamento. Este trabalho propõe uma variante do algoritmo UCT, como uma alternativa para planejamento probabilístico independente de domínio com restrição de tempo. O algoritmo UCT original constrói progressivamente a árvore decisória que representa um MDP e propaga recompensas médias através da árvore. Como resultado, recompensas altas e singulares podem ficar "escondidas" na árvore parcial gerada pelo UCT. Já o algoritmo proposto, Soft-UCT, utiliza um operador "soft" de média generalizada de ordem na propagação das recompensas pela árvore decisória. Esse operador faz com que políticas que apresentem probabilidade de muitas recompensas altas sejam preferíveis em relação a políticas que apresentem uma única recompensa muito alta. Assim, esta dissertação mostra detalhes sobre a implementação do Soft-UCT, como a definição do parâmetro utilizado no cálculo da média generalizada, além de uma heurística para estimar o horizonte ideal de busca na árvore decisória. O algoritmo é avaliado em dois benchmarks: um problema prático na área de Web Marketing e os domínios da competição International Probabilistic Planning Competition (IPPC) 2011. Os resultados obtidos no MDP relacionado a Web Marketing mostraram que o Soft-UCT pode ser aplicado em problemas reais de alta complexidade. No benchmark da competição IPPC 2011, foi possível verificar ainda que o Soft-UCT obteve um desempenho superior ao UCT em termos de recompensa média com a aplicação das políticas, além de obter um resultado melhor do que o planejador que teve a segunda colocação na competição. De forma geral, o algoritmo pode ser aplicado em qualquer MDP de horizonte finito e os experimentos realizados demonstraram bons resultados em comparação ao UCT original.Instituto Tecnológico de AeronáuticaCarlos Henrique Costa RibeiroLuisa Amaral de Almeida2015-11-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=3376reponame:Biblioteca Digital de Teses e Dissertações do ITAinstname:Instituto Tecnológico de Aeronáuticainstacron:ITAporinfo:eu-repo/semantics/openAccessapplication/pdf2019-02-02T14:05:10Zoai:agregador.ibict.br.BDTD_ITA:oai:ita.br:3376http://oai.bdtd.ibict.br/requestopendoar:null2020-05-28 19:41:49.781Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáuticatrue |
dc.title.none.fl_str_mv |
Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada |
title |
Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada |
spellingShingle |
Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada Luisa Amaral de Almeida Processos de Markov Tomada de decisões Algoritmos Árvores de decisão Computação |
title_short |
Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada |
title_full |
Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada |
title_fullStr |
Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada |
title_full_unstemmed |
Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada |
title_sort |
Soft-UCT : algoritmo para planejamento probabilístico baseado em um operador de média generalizada |
author |
Luisa Amaral de Almeida |
author_facet |
Luisa Amaral de Almeida |
author_role |
author |
dc.contributor.none.fl_str_mv |
Carlos Henrique Costa Ribeiro |
dc.contributor.author.fl_str_mv |
Luisa Amaral de Almeida |
dc.subject.por.fl_str_mv |
Processos de Markov Tomada de decisões Algoritmos Árvores de decisão Computação |
topic |
Processos de Markov Tomada de decisões Algoritmos Árvores de decisão Computação |
dc.description.none.fl_txt_mv |
O planejamento probabilístico busca a tomada de decisões racionais em condições de incerteza. Dentre os diversos algoritmos para planejamento probabilístico, o Upper Confidence bounds applied to Trees (UCT) tem se destacado como um bom planejador para problemas complexos representados como Processos de Decisão Markovianos (Markov Decision Processes - MDPs), quando uma restrição de tempo é imposta ao planejamento. Este trabalho propõe uma variante do algoritmo UCT, como uma alternativa para planejamento probabilístico independente de domínio com restrição de tempo. O algoritmo UCT original constrói progressivamente a árvore decisória que representa um MDP e propaga recompensas médias através da árvore. Como resultado, recompensas altas e singulares podem ficar "escondidas" na árvore parcial gerada pelo UCT. Já o algoritmo proposto, Soft-UCT, utiliza um operador "soft" de média generalizada de ordem na propagação das recompensas pela árvore decisória. Esse operador faz com que políticas que apresentem probabilidade de muitas recompensas altas sejam preferíveis em relação a políticas que apresentem uma única recompensa muito alta. Assim, esta dissertação mostra detalhes sobre a implementação do Soft-UCT, como a definição do parâmetro utilizado no cálculo da média generalizada, além de uma heurística para estimar o horizonte ideal de busca na árvore decisória. O algoritmo é avaliado em dois benchmarks: um problema prático na área de Web Marketing e os domínios da competição International Probabilistic Planning Competition (IPPC) 2011. Os resultados obtidos no MDP relacionado a Web Marketing mostraram que o Soft-UCT pode ser aplicado em problemas reais de alta complexidade. No benchmark da competição IPPC 2011, foi possível verificar ainda que o Soft-UCT obteve um desempenho superior ao UCT em termos de recompensa média com a aplicação das políticas, além de obter um resultado melhor do que o planejador que teve a segunda colocação na competição. De forma geral, o algoritmo pode ser aplicado em qualquer MDP de horizonte finito e os experimentos realizados demonstraram bons resultados em comparação ao UCT original. |
description |
O planejamento probabilístico busca a tomada de decisões racionais em condições de incerteza. Dentre os diversos algoritmos para planejamento probabilístico, o Upper Confidence bounds applied to Trees (UCT) tem se destacado como um bom planejador para problemas complexos representados como Processos de Decisão Markovianos (Markov Decision Processes - MDPs), quando uma restrição de tempo é imposta ao planejamento. Este trabalho propõe uma variante do algoritmo UCT, como uma alternativa para planejamento probabilístico independente de domínio com restrição de tempo. O algoritmo UCT original constrói progressivamente a árvore decisória que representa um MDP e propaga recompensas médias através da árvore. Como resultado, recompensas altas e singulares podem ficar "escondidas" na árvore parcial gerada pelo UCT. Já o algoritmo proposto, Soft-UCT, utiliza um operador "soft" de média generalizada de ordem na propagação das recompensas pela árvore decisória. Esse operador faz com que políticas que apresentem probabilidade de muitas recompensas altas sejam preferíveis em relação a políticas que apresentem uma única recompensa muito alta. Assim, esta dissertação mostra detalhes sobre a implementação do Soft-UCT, como a definição do parâmetro utilizado no cálculo da média generalizada, além de uma heurística para estimar o horizonte ideal de busca na árvore decisória. O algoritmo é avaliado em dois benchmarks: um problema prático na área de Web Marketing e os domínios da competição International Probabilistic Planning Competition (IPPC) 2011. Os resultados obtidos no MDP relacionado a Web Marketing mostraram que o Soft-UCT pode ser aplicado em problemas reais de alta complexidade. No benchmark da competição IPPC 2011, foi possível verificar ainda que o Soft-UCT obteve um desempenho superior ao UCT em termos de recompensa média com a aplicação das políticas, além de obter um resultado melhor do que o planejador que teve a segunda colocação na competição. De forma geral, o algoritmo pode ser aplicado em qualquer MDP de horizonte finito e os experimentos realizados demonstraram bons resultados em comparação ao UCT original. |
publishDate |
2015 |
dc.date.none.fl_str_mv |
2015-11-17 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/masterThesis |
status_str |
publishedVersion |
format |
masterThesis |
dc.identifier.uri.fl_str_mv |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=3376 |
url |
http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=3376 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
publisher.none.fl_str_mv |
Instituto Tecnológico de Aeronáutica |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do ITA instname:Instituto Tecnológico de Aeronáutica instacron:ITA |
reponame_str |
Biblioteca Digital de Teses e Dissertações do ITA |
collection |
Biblioteca Digital de Teses e Dissertações do ITA |
instname_str |
Instituto Tecnológico de Aeronáutica |
instacron_str |
ITA |
institution |
ITA |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do ITA - Instituto Tecnológico de Aeronáutica |
repository.mail.fl_str_mv |
|
subject_por_txtF_mv |
Processos de Markov Tomada de decisões Algoritmos Árvores de decisão Computação |
_version_ |
1706809299625312256 |