CS 285 (Deep Reinforcement Learning) 요약 및 정리 (Lecture 2: Supervised Learning of Behaviors)

 * UC Berkeley CS 285 강의는 David Silver의 UCL Course on RL 강의로 대부분 커버 가능하다. 본 요약 정리 노트에서는 UCL Course on RL에서 다루지 않는 부분만 정리하는 데에 집중한다.

This post covers Lecture 2: Supervised Learning of Behaviors.


Terminology

  • DL 맥락의 classification 문제는 \(\mathbf{a}_t\)가 단순히 데이터의 ground truth label이고, \(\mathbf{a}_t\)가 \(\mathbf{o}_{t+1}\)에 영향을 안준다는 차이점이 있다.
  • 이에 반해, RL 문제나 기타 sequential decision making 문제는, 현재의 액션이 다음 관측에 영향을 준다.

Imitation Learning
  • Nothing but supervised learning
  • Good example만 training dataset에 넣는다면, policy network의 오차 등으로 완벽히 좋은 state paths를 따라갈 수 없고, good example에 나오지 않는 새로운 케이스에 대응하는 법을 배우지 못해 goal을 달성하지 못하게 된다.
  • DAgger: dataset aggregation
    • Learned policy가 실제로 도달한 state 혹은 observation에서 인간이 손수 바람직한 action을 labeling 한다.
    • 다만, 이 방법은 (3) labeling cost가 너무 크고, 자율주행차를 이렇게 훈련시켰다간 (2) 실제로 차량이 몇 번이고 박살 나야 한다. 사람이 운전하는 것과 매우 다른 observation을 줄 때 사람이 제대로 labeling하기 힘든 점도 있다.

Why might we fail to fit the expert?
  • Non-Markovian behavior
    • History 전체를 저장하고 모델 트레이닝에 사용하는 건 cost가 너무 크다.
    • Causal confusion: 인과 관계를 혼동하는 문제가 생긴다.
  • Multi-model behavior: multiple optimal actions for an observation
    • 이 경우, 단순히 평균 action을 취해서는 안된다.
    • \(\Rightarrow\) solutions
      1. Output mixture of Gaussians (easy to implement)
      2. Latent variable models (theoretically rigorous, hard to train)
        • VAE, flow-based model (RealNVP), etc.
      3. Autoregressive discretization (good balance)
        • Action-space가 고차원일수록 action 구간을 bins으로 나누어 이산화하는 방법은 차원에 exponential하게 cost가 증가한다. Autoregressive model은 이를 완화한다.

댓글

이 블로그의 인기 게시물

기록: UCL Course on RL 요약 및 정리 (Lecture 6: Value Function Approximation)

기록: UCL Course on RL 요약 및 정리 (Lecture 9: Exploration and Exploitation)

KAIST 회고 (1): 공부법 정리