Abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDP

Detalhes bibliográficos
Autor(a) principal: Pais, Dênis Benevolo
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-30012020-115648/
Resumo: Processos de decisão Markovianos (Markov Decision Processes - MDPs) são amplamente utilizados para resolver problemas de tomada de decisão sequencial. O critério de desempenho mais utilizado em MDPs é a minimização do custo total esperado. Porém, esta abordagem não leva em consideração flutuações em torno da média, o que pode afetar significativamente o desempenho geral do processo. MDPs que lidam com esse tipo de problema são chamados de MDPs sensíveis a risco. Um tipo especial de MDP sensível a risco é o CVaR MDP, que inclui a métrica CVaR (Conditional-Value-at-Risk) comumente utilizada na área financeira. Um algoritmo que encontra a política ótima para CVaR MDPs é o algoritmo de Iteração de Valor com Interpolação Linear chamado CVaRVILI. O algoritmo CVaRVILI precisa resolver problemas de programação linear várias vezes, o que faz com que o algoritmo tenha um alto custo computacional. O objetivo principal deste trabalho é projetar abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDPs. Para tal, é proposto um algoritmo que avalia uma política estacionária para CVaR MDPs de custo constante e que não precisa resolver problemas de programação linear, esse algoritmo é chamado de PECVaR. PECVaR é utilizado para inicializar o algoritmo CVaRVILI e também é utilizado para se obter um novo algoritmo heurístico para CVaR MDPs chamado MPCVaR (Multi Policy CVaR)
id USP_1648c3523e86d3999fc75a6e789c559a
oai_identifier_str oai:teses.usp.br:tde-30012020-115648
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDPEfficient and Approximate Approaches with Stationary Policies for CVaR MDPCVaRCVaRMarkov Decision ProcessPolítica EstacionáriaProcesso de Decisão MarkovianoProcesso de Decisão Markoviano Sensível ao RiscoRisk-Sensitive Markovian Decision ProcessStationary PolicyProcessos de decisão Markovianos (Markov Decision Processes - MDPs) são amplamente utilizados para resolver problemas de tomada de decisão sequencial. O critério de desempenho mais utilizado em MDPs é a minimização do custo total esperado. Porém, esta abordagem não leva em consideração flutuações em torno da média, o que pode afetar significativamente o desempenho geral do processo. MDPs que lidam com esse tipo de problema são chamados de MDPs sensíveis a risco. Um tipo especial de MDP sensível a risco é o CVaR MDP, que inclui a métrica CVaR (Conditional-Value-at-Risk) comumente utilizada na área financeira. Um algoritmo que encontra a política ótima para CVaR MDPs é o algoritmo de Iteração de Valor com Interpolação Linear chamado CVaRVILI. O algoritmo CVaRVILI precisa resolver problemas de programação linear várias vezes, o que faz com que o algoritmo tenha um alto custo computacional. O objetivo principal deste trabalho é projetar abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDPs. Para tal, é proposto um algoritmo que avalia uma política estacionária para CVaR MDPs de custo constante e que não precisa resolver problemas de programação linear, esse algoritmo é chamado de PECVaR. PECVaR é utilizado para inicializar o algoritmo CVaRVILI e também é utilizado para se obter um novo algoritmo heurístico para CVaR MDPs chamado MPCVaR (Multi Policy CVaR)Morkov Decision Process - MDPs are widely used to solve sequential decision-making process problems. The objective function or criteria of assessment mostly used in this problem\'s case is the minimization of the expectation of the total cost. However, this approach does not consider the variability of the cost( in other words , fluctuations related to the mean ), that can affect significantly your general performance. MDPs which deal with this kind of problems are called Risk Sensitive MDPs. A special kind of Risk Sensitive MDP is the CVaR MDP, which includes the CVaR (Conditional-Value-at-Risk) metric, a robust way in order to measure risks and commonly used to measure financial risk. One algorithm that finds the optimal policy for CVaR MDPs is the CVaR Value Iteration with linear Interpolation algorithm (CVaRVILI ). The CVaRVILI algorithm needs to solve linear programming problems several times, which makes the algorithm costly to compute. The main objective of this paper is to design efficient and approximate approaches with stationary policies for CVaR MDPs. For this purpose, an algorithm that evaluates a stationary policy for CVaR constant cost MDPs and that does not need to solve linear programming problems is proposed, this algorithm is called PECVaR. PECVaR is used to initialize the CVaRVILI algorithm and is also used to obtain a new heuristic algorithm for CVaR MDPs called MPCVaR (Multi Policy CVaR)Biblioteca Digitais de Teses e Dissertações da USPDelgado, Karina ValdiviaPais, Dênis Benevolo2019-12-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-30012020-115648/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-10-09T13:16:04Zoai:teses.usp.br:tde-30012020-115648Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-10-09T13:16:04Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDP
Efficient and Approximate Approaches with Stationary Policies for CVaR MDP
title Abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDP
spellingShingle Abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDP
Pais, Dênis Benevolo
CVaR
CVaR
Markov Decision Process
Política Estacionária
Processo de Decisão Markoviano
Processo de Decisão Markoviano Sensível ao Risco
Risk-Sensitive Markovian Decision Process
Stationary Policy
title_short Abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDP
title_full Abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDP
title_fullStr Abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDP
title_full_unstemmed Abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDP
title_sort Abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDP
author Pais, Dênis Benevolo
author_facet Pais, Dênis Benevolo
author_role author
dc.contributor.none.fl_str_mv Delgado, Karina Valdivia
dc.contributor.author.fl_str_mv Pais, Dênis Benevolo
dc.subject.por.fl_str_mv CVaR
CVaR
Markov Decision Process
Política Estacionária
Processo de Decisão Markoviano
Processo de Decisão Markoviano Sensível ao Risco
Risk-Sensitive Markovian Decision Process
Stationary Policy
topic CVaR
CVaR
Markov Decision Process
Política Estacionária
Processo de Decisão Markoviano
Processo de Decisão Markoviano Sensível ao Risco
Risk-Sensitive Markovian Decision Process
Stationary Policy
description Processos de decisão Markovianos (Markov Decision Processes - MDPs) são amplamente utilizados para resolver problemas de tomada de decisão sequencial. O critério de desempenho mais utilizado em MDPs é a minimização do custo total esperado. Porém, esta abordagem não leva em consideração flutuações em torno da média, o que pode afetar significativamente o desempenho geral do processo. MDPs que lidam com esse tipo de problema são chamados de MDPs sensíveis a risco. Um tipo especial de MDP sensível a risco é o CVaR MDP, que inclui a métrica CVaR (Conditional-Value-at-Risk) comumente utilizada na área financeira. Um algoritmo que encontra a política ótima para CVaR MDPs é o algoritmo de Iteração de Valor com Interpolação Linear chamado CVaRVILI. O algoritmo CVaRVILI precisa resolver problemas de programação linear várias vezes, o que faz com que o algoritmo tenha um alto custo computacional. O objetivo principal deste trabalho é projetar abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDPs. Para tal, é proposto um algoritmo que avalia uma política estacionária para CVaR MDPs de custo constante e que não precisa resolver problemas de programação linear, esse algoritmo é chamado de PECVaR. PECVaR é utilizado para inicializar o algoritmo CVaRVILI e também é utilizado para se obter um novo algoritmo heurístico para CVaR MDPs chamado MPCVaR (Multi Policy CVaR)
publishDate 2019
dc.date.none.fl_str_mv 2019-12-05
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/100/100131/tde-30012020-115648/
url https://www.teses.usp.br/teses/disponiveis/100/100131/tde-30012020-115648/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256543270010880