Relational transfer across reinforcement learning tasks via abstract policies.

Koga, Marcelo Li

doi:10.11606/D.3.2013.tde-04112014-103827

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.3.2013.tde-04112014-103827

Documento

Dissertação de Mestrado

Autor

Koga, Marcelo Li (Catálogo USP)

Nome completo

Marcelo Li Koga

E-mail

Unidade da USP

Escola Politécnica

Área do Conhecimento

Engenharia de Computação

Data de Defesa

2013-11-21

Imprenta

São Paulo, 2013

Orientador

Reali Costa, Anna Helena (Catálogo USP)

Banca examinadora

Reali Costa, Anna Helena (Presidente)
Bianchi, Reinaldo Augusto da Costa
Delgado, Karina Valdivia

Título em inglês

Relational transfer across reinforcement learning tasks via abstract policies.

Palavras-chave em inglês

Artificial intelligence
Computational relational learning
Knowledge representation
Markov processes

Resumo em inglês

When designing intelligent agents that must solve sequential decision problems, often we do not have enough knowledge to build a complete model for the problems at hand. Reinforcement learning enables an agent to learn behavior by acquiring experience through trial-and-error interactions with the environment. However, knowledge is usually built from scratch and learning the optimal policy may take a long time. In this work, we improve the learning performance by exploring transfer learning; that is, the knowledge acquired in previous source tasks is used to accelerate learning in new target tasks. If the tasks present similarities, then the transferred knowledge guides the agent towards faster learning. We explore the use of a relational representation that allows description of relationships among objects. This representation simplifies the use of abstraction and the extraction of the similarities among tasks, enabling the generalization of solutions that can be used across different, but related, tasks. This work presents two model-free algorithms for online learning of abstract policies: AbsSarsa(λ) and AbsProb-RL. The former builds a deterministic abstract policy from value functions, while the latter builds a stochastic abstract policy through direct search on the space of policies. We also propose the S2L-RL agent architecture, containing two levels of learning: an abstract level and a ground level. The agent simultaneously builds a ground policy and an abstract policy; not only the abstract policy can accelerate learning on the current task, but also it can guide the agent in a future task. Experiments in a robotic navigation environment show that these techniques are effective in improving the agents learning performance, especially during the early stages of the learning process, when the agent is completely unaware of the new task.

Título em português

Transferência relacional entre tarefas de aprendizado por reforço via políticas abstratas.

Palavras-chave em português

Aprendizado computacional relacional
Inteligência artificial
Processos de Markov
Representação do conhecimento

Resumo em português

Na construção de agentes inteligentes para a solução de problemas de decisão sequenciais, o uso de aprendizado por reforço é necessário quando o agente não possui conhecimento suficiente para construir um modelo completo do problema. Entretanto, o aprendizado de uma política ótima é em geral muito lento pois deve ser atingido através de tentativa-e-erro e de repetidas interações do agente com o ambiente. Umas das técnicas para se acelerar esse processo é possibilitar a transferência de aprendizado, ou seja, utilizar o conhecimento adquirido para se resolver tarefas passadas no aprendizado de novas tarefas. Assim, se as tarefas tiverem similaridades, o conhecimento prévio guiará o agente para um aprendizado mais rápido. Neste trabalho é explorado o uso de uma representação relacional, que explicita relações entre objetos e suas propriedades. Essa representação possibilita que se explore abstração e semelhanças estruturais entre as tarefas, possibilitando a generalização de políticas de ação para o uso em tarefas diferentes, porém relacionadas. Este trabalho contribui com dois algoritmos livres de modelo para construção online de políticas abstratas: AbsSarsa(λ) e AbsProb-RL. O primeiro constrói uma política abstrata determinística através de funções-valor, enquanto o segundo constrói uma política abstrata estocástica através de busca direta no espaço de políticas. Também é proposta a arquitetura S2L-RL para o agente, que possui dois níveis de aprendizado: o nível abstrato e o nível concreto. Uma política concreta é construída simultaneamente a uma política abstrata, que pode ser utilizada tanto para guiar o agente no problema atual quanto para guiá-lo em um novo problema futuro. Experimentos com tarefas de navegação robótica mostram que essas técnicas são efetivas na melhoria do desempenho do agente, principalmente nas fases inicias do aprendizado, quando o agente desconhece completamente o novo problema.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

DISSERTACAO_Koga.pdf (1.70 Mbytes)

Data de Publicação

2014-11-04

Trabalhos decorrentes

AVISO: O material descrito abaixo refere-se a trabalhos decorrentes desta tese ou dissertação. O conteúdo desses trabalhos é de inteira responsabilidade do autor da tese ou dissertação.

BEIRIGO, Rafael Lemes, et al. Avaliação de Políticas Abstratas na Transferência de Conhecimento em Navegação Robótica. Revista de Sistemas e Computação [online], 2012, vol. 2, p. 17-25. Dispon?vel em: http://www.revistas.unifacs.br/index.php/rsc/article/view/2420.
SILVA, L.O.L.A., et al. Comparative assessment of feature selection and classification techniques for visual inspection of pot plant seedlings [doi:10.1016/j.compag.2013.07.001]. Computers and Electronics in Agriculture [online], 2013, vol. 97, p. 47-55.
KOGA, M. L., et al. Speeding-up reinforcement learning through abstraction and transfer learning. In International Conference on Autonomous Agents and Multi-Agent Systems, Saint Paul, MN, 2013. Proceedings of the 12th International Conference on Autonomous Agents and Multiagent Systems.New York, NY : ACM & IFAAMAS, 2013.
KOGA, M. L., SILVA, Valdinei Freire da, e COSTA, Anna Helena Reali. Online Learning of Abstract Stochastic Policies with Monte Carlo. In VII Workshop de Tecnologia Adaptativa (WTA 2013), São Paulo, SP, 2013. Anais do VII Workshop de Tecnologia Adaptativa., 2013.
SILVA, L. O. L. A., et al. Automated visual quality sorting of agricultural seedlings. In IX Workshop de Visão Computacional (WVC 2013), Rio de Janeiro, 2013. Anais do IX Workshop de Visão Computacional., 2013. Dispon?vel em: http://iris.sel.eesc.usp.br/wvc/Anais_WVC2013/Oral/3/3.pdf.