[RL勉強会資料] Learning an Embedding Space for Transferable Robot Skills
ICLR2018 poster
新たなタスクが来るたびにフルスクラッチで訓練し直すのではなく,既に学んだ”スキル”を組み合わせてうまいことやって欲しい.ロボットのスキルが潜在空間にうまいこと埋め込まれて欲しい.

強化学習と変分推論をうまいことつなぎたい



4節 Learning Versatile Skills

タスクはT個,タスク毎に報酬関数r_t(s, a).
方策はタスクのidを受け取るπ(a|s, t).

  i) generality: 学習された埋め込み空間でさまざまなタスクが表現可能.
 ii) versatility: 空間中で近いベクトルzは同じタスク(を別の方法で)解くことができる.
iii) identifiabity: action. state tracjectoryから埋め込みベクトルが特定可能であること.

i)とii)は空間にいっぱい多様なタスクを埋め込みたい.iii)多様な空間中からは新たなスキルを生み出したい.


4.1 Policy Learning via a Variational Bound on Entropy Regularized RL

タスクは

本命の目的関数
エントロピー制約付きの目的関数.
一般的なEntropy Regularizationとの違いは,it takes into account not just the entropy of the current but also of future actions.

  • →一般的なEntropy Regularizationは H(π(s))

この潜在変数付きのエントロピー制約項はintractableだが,Barber&Agakov(2003)とかを使うと,以下のように下限を導けるらしい.
(なお付録B)


p(z|a,s,t)もintractableなので,
として,最終的にboundが
こうなる.
・ポリシーの元での埋め込み予測器qψ(z|a, s)の期待値
  • ・これが高いと,異なるzがa,sに異なる影響を与える.
  • ・つまり,a, sからzが予測出来ることを意味する.
・pφ(z|t)のエントロピー(タスクid→タスク埋め込み)
・ポリシーのエントロピーのpφ(z|t)のもとでの期待値.