Algoritmos assíncronos de iteração de política para Processos de Decisão Markovianos com Probabilidades Intervalares

Reis, Willy Arthur Silva

doi:10.11606/D.45.2019.tde-02092019-212258

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.45.2019.tde-02092019-212258

Documento

Dissertação de Mestrado

Autor

Reis, Willy Arthur Silva (Catálogo USP)

Nome completo

Willy Arthur Silva Reis

E-mail

Unidade da USP

Instituto de Matemática e Estatística

Área do Conhecimento

Ciência da Computação

Data de Defesa

2019-08-02

Imprenta

São Paulo, 2019

Orientador

Delgado, Karina Valdivia (Catálogo USP)

Banca examinadora

Delgado, Karina Valdivia (Presidente)
Bianchi, Reinaldo Augusto da Costa
Costa, Anna Helena Reali

Título em português

Algoritmos assíncronos de iteração de política para Processos de Decisão Markovianos com Probabilidades Intervalares

Palavras-chave em português

Iteração de política assíncrono
Planejamento probabilístico
Processos de Decisão Markovianos com Probabilidades Imprecisas

Resumo em português

Um Processo de Decisão Markoviano (MDP) pode ser usado para modelar problemas de decisão sequencial. No entanto, podem existir limitações na obtenção de probabilidades para modelagem da transição de estados ou falta de confiabilidade nas informações existentes sobre estas probabilidades. Um modelo menos restritivo e que pode resolver este problema é o Processo de Decisão Markoviano com Probabilidades Intervalares (BMDP), que permite a representação imprecisa das probabilidades de transição de estados e raciocínio sobre uma solução robusta. Para resolver BMDPs de horizonte infinito, existem os algoritmos síncronos de Iteração de Valor Intervalar e Iteração de Política Robusto, que são ineficientes quando o tamanho do espaço de estados é grande. Neste trabalho são propostos algoritmos assíncronos de Iteração de Política baseados no particionamento do espaço de estados em subconjuntos aleatórios (Robust Asynchronous Policy Iteration - RAPI) ou em componentes fortemente conexos (Robust Topological Policy Iteration - RTPI). Também são propostas formas de inicializar a função valor e a política dos algoritmos, de forma a melhorar a convergência destes. O desempenho dos algoritmos propostos é avaliado em comparação com o algoritmo de Iteração de Política Robusto para BMDPs para domínios de planejamento existentes e um novo domínio proposto. Os resultados dos experimentos realizados mostram que (i) quanto mais estruturado é o domínio, melhor é o desempenho do algoritmo RTPI; (ii) o uso de computação paralela no algoritmo RAPI possui um pequeno ganho computacional em relação à sua versão sequencial; e (iii) uma boa inicialização da função valor e política pode impactar positivamente o tempo de convergência dos algoritmos.

Título em inglês

Asynchronous policy iteration algorithms for Bounded-parameter Markov Decision Processes

Palavras-chave em inglês

Asynchronous policy iteration
Markov Decision Processes with Imprecise Probabilities
Probabilistic planning

Resumo em inglês

A Markov Decision Process (MDP) can be used to model sequential decision problems. However, there may be limitations in obtaining probabilities for state transition modeling or lack of reliability in existing information on these probabilities. A less restrictive model that can solve this problem is the Bounded-parameter Markov Decision Process (BMDP), which allows the imprecise representation of the transition probabilities and reasoning about a robust solution. To solve infinite horizon BMDPs, there are synchronous algorithms such as Interval Value Iteration and Robust Policy Iteration, which are inefficient for large state spaces. In this work, we propose new asynchronous Policy Iteration algorithms based on state space partitioning in random subsets (Robust Asynchronous Policy Iteration - RAPI) or in strongly connected components (Robust Topological Policy Iteration - RTPI). We also propose ways to initialize the value function and policy of the algorithms, in order to improve their convergence. The performance of the proposed algorithms is evaluated in comparison with the Robust Policy Iteration algorithm for BMDPs for existing planning domains and a proposed new domain. The results of the experiments show that (i) the more structured the domain, the better is the performance of the RTPI algorithm; (ii) the use of parallel computing in the RAPI algorithm has a small computational gain compared to its sequential version; and (iii) a good initialization of the value function and policy can positively impact the convergence time of the algorithms.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

api_bmdp_Willy.pdf (2.57 Mbytes)

Data de Publicação

2019-09-03

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.