【論文紹介】 Bridging the Gap Between Value and Policy Based Reinforcement Learning
Nachum et al. 2017

【注】この資料はv1時点でのものです。

貢献

(i) ソフトマックス価値関数と割引エントロピー正則化の定義とそれらの関係性の発見

  1. 最適ベルマン方程式(ハードマックスなベルマン方程式)を拡張する、ソフトマックスなベルマン方程式の提案(3.1節)
  1. 割引 エントロピー正則化付きの(方策勾配法の)目的関数 の提案(3.2節)
  1. そしてそれらの解の間に成り立つ非自明な関係(Theorem 1.とCorollary 2.)を示した。この関係から方策ベースの手法から得られる最適方策もベルマン方程式の解を使って理解できるようなった(Corollary 2.)

(ii) PCLの提案

上記の関係をエピソード内の軌跡に帰納的に拡張した関係(Corollary 3.)を成り立たせるよう最適化を行う強化学習アルゴリズムPCL(Path Consistency Learning)を提案・評価した(3.4, 4.5節、5節)
​​

Motivating Example

問題設定

状態 s0s_0 の価値と次の1stepだけの行動を決める方策 π\pi を何らかの目的関数に従って求める。
  • 現在の状態: s0s_0
  • s0s_0 での行動の候補: {a1,,an}\{a_1, \ldots, a_n\}
  • s0s_0 の次の状態の候補: {s1,,sn}\{s_1, \ldots, s_n\}
  • {s1,,sn}\{ s_1, \ldots, s_n \}で 得られる価値: {v1,,vn}\{v_1, \ldots, v_n \}

目的関数が OMRO_{MR} のとき

(MRはMaximum Reward?)
次のような目的関数を考える(式(7)): 
viv^{\circ}_i はそれぞれ、s1,,sns_1, \ldots, s_n で、上と同じ目的関数を最大化する価値が得られているとして、その値である。
もちろん π\pi は one-hot で ri+γvir_i + \gamma v_i ^{\circ} が最大の行動でだけ 11 他の場合には 00 を取り、もちろん結果としてのような目的関数とベルマン方程式になるが(式(8))、ここではそうした π\pi が上の目的関数の最適化の結果として得られるとして考えている。

目的関数が OENTO_{ENT} のとき

次のような目的関数を考える(式(9)): 
この目的関数を最大にする方策は次のようになる(式(11)):
これを OENTO_{ENT} に戻すと、求める状態価値は次のようになる
これは OENTO_{ENT} の最大化が π\piπ\pi^{\ast} の間のKLの最小化と等しい(スケールと定数シフトを除いて)ことを使うと示せる(付録に手書き証明)。式(11)を両辺対数をとって変形するとと式(12)が得られる
OMRO_{MR} の場合と比べると、max を取る代わりに、logπ\log \pi でバイアスを加えているような感じになっている。OMRO_{MR} の場合と違って、 max に対応する以外の状態についても先に続いていく(打ち切られない)ので、複数ステップへの自然な拡張が出来るとしている。実際、このベルマン方程式っぽいものを軌跡に沿って延ばしたものを使って提案手法PCLを開発している。

この論文で新しく定義している概念

最適価値関数を一般化した (1) ソフトマックス価値関数(及びベルマン方程式)と、(2) 割引エントロピー正則化 の二つの概念を導入し、それらの間に非自明な関係が成り立つことを示している。

3.1. ソフトマックス価値関数


ソフトマックス価値関数 QQ^{\ast}(式(4))が次のソフトマックスなベルマン方程式の解として定義される: 
これは τ0\tau \to 0 で最適価値関数の定義 Q=r(s,a)+maxaQ(s,a)Q^{\circ} = r(s, a) + \max_{a'} Q^{\circ}(s', a') と一致する。

ソフトマックス状態価値関数 VV^{\ast}(式(13))
結果として、Vに関するソフトマックスなベルマン方程式(式(14)):