強化学習勉強会 #66

発表概要・リンク

紹介論文: Trust Region Policy Optimization 
発表者: @shiba24
その他資料
​​

当日のメモ


Appendixにおける次の等式


次を示す: 

Qπ(s,a)Vπ(s)=EsP(ss,a)[R(s,a)+γVπ(s)Vπ(s))]Q_{\pi}(s, a) - V_{\pi}(s) = E_{s^{\prime} \sim P(s^{\prime}|s, a)}\left[R(s, a) + \gamma V_{\pi}(s^{\prime}) - V_{\pi}(s)) \right]

まず、右辺においてss^{\prime}に関する期待値がかかる項は真ん中の項だけなので、右辺は次のようになる

EsP(ss,a)[R(s,a)+γVπ(s)Vπ(s))]=R(s,a)+γsP(ss,a)Vπ(s)Vπ(s)E_{s^{\prime} \sim P(s^{\prime}|s, a)}\left[R(s, a) + \gamma V_{\pi}(s^{\prime}) - V_{\pi}(s)) \right] = R(s, a) + \gamma \sum_{s^{\prime}} P(s^{\prime}|s, a) V_{\pi}(s^{\prime}) - V_{\pi}(s)

この右辺の最初の2項はまさに Q(s,a)Q(s, a) なので証明終

  • この論文,報酬関数が状態・行動の関数ではなくて状態のみの関数を考えてる気がする(?)
R(s,a)r(s)R(s,a)\to r(s)

式(1)の証明

狐につままれるようだが上の等式を踏まえれば下記のように証明できる: 

Lとηが一次近似?

  • (4)の一次近似を適当に示す
η\eta の勾配とって θ=θ0\theta = \theta_0 を入れると,左辺-右辺が sθPπθ(s)θ=θ0aπθAπθ0(s,a)θ=θ0\sum_s \nabla_{\theta} P_{\pi_{\theta}}(s)|_{\theta = \theta_0} \sum_a \pi_{\theta}A_{\pi_{\theta_0}}(s,a)|_{\theta = \theta_0} となり,
aπθ0Aπθ0(s,a)=Eaπθ0[Qπθ0(s,a)Vπθ0(s)]\sum_a \pi_{\theta_0}A_{\pi_{\theta_0}}(s,a) = \mathbb{E}_{a \sim \pi_{\theta_0}}[Q_{\pi_{\theta_0}} (s,a) - V_{\pi_{\theta_0}}(s)]
これは0なので,左辺-右辺=0

式(6)の気持ち




TVとKLの関係

  • これをPinskerの不等式と言う
  • 等号成立条件は?という疑問が出たので軽く調べたが、https://arxiv.org/pdf/1402.3840.pdf で以下の説明がされていた。元論文を見ていないので本当かはわからない。