Loading...
強化学習勉強会 #66
発表概要・リンク
紹介論文:
Trust Region Policy Optimization
発表者: @shiba24
発表資料:
https://docs.google.com/presentation/d/1BUAbeNbO_-cEBpFQgN2mnrSaUeF-QLD9OPIFpai9Gz8/edit?usp=sharing
その他資料
muupanさん資料
AbbeelのNIPS2016チュートリアル
Abbeelの資料
(サマースクール): 上の発展?版
http://roosephu.github.io/2016/11/19/TRPO/
実装:
https://github.com/joschu/modular_rl
当日のメモ
Appendixにおける次の等式
よく見かける等式ではある
次を示す:
Q
π
(
s
,
a
)
−
V
π
(
s
)
=
E
s
′
∼
P
(
s
′
∣
s
,
a
)
[
R
(
s
,
a
)
+
γ
V
π
(
s
′
)
−
V
π
(
s
)
)
]
Q_{\pi}(s, a) - V_{\pi}(s) = E_{s^{\prime} \sim P(s^{\prime}|s, a)}\left[R(s, a) + \gamma V_{\pi}(s^{\prime}) - V_{\pi}(s)) \right]
Q
π
(
s
,
a
)
−
V
π
(
s
)
=
E
s
′
∼
P
(
s
′
∣
s
,
a
)
[
R
(
s
,
a
)
+
γ
V
π
(
s
′
)
−
V
π
(
s
)
)
]
まず、右辺において
s
′
s^{\prime}
s
′
に関する期待値がかかる項は真ん中の項だけなので、右辺は次のようになる
E
s
′
∼
P
(
s
′
∣
s
,
a
)
[
R
(
s
,
a
)
+
γ
V
π
(
s
′
)
−
V
π
(
s
)
)
]
=
R
(
s
,
a
)
+
γ
∑
s
′
P
(
s
′
∣
s
,
a
)
V
π
(
s
′
)
−
V
π
(
s
)
E_{s^{\prime} \sim P(s^{\prime}|s, a)}\left[R(s, a) + \gamma V_{\pi}(s^{\prime}) - V_{\pi}(s)) \right] = R(s, a) + \gamma \sum_{s^{\prime}} P(s^{\prime}|s, a) V_{\pi}(s^{\prime}) - V_{\pi}(s)
E
s
′
∼
P
(
s
′
∣
s
,
a
)
[
R
(
s
,
a
)
+
γ
V
π
(
s
′
)
−
V
π
(
s
)
)
]
=
R
(
s
,
a
)
+
γ
∑
s
′
P
(
s
′
∣
s
,
a
)
V
π
(
s
′
)
−
V
π
(
s
)
この右辺の最初の2項はまさに
Q
(
s
,
a
)
Q(s, a)
Q
(
s
,
a
)
なので証明終
この論文,報酬関数が状態・行動の関数ではなくて状態のみの関数を考えてる気がする(?)
R
(
s
,
a
)
→
r
(
s
)
R(s,a)\to r(s)
R
(
s
,
a
)
→
r
(
s
)
式(1)の証明
狐につままれるようだが上の等式を踏まえれば下記のように証明できる:
Lとηが一次近似?
たぶんおっけー
(4)の一次近似を適当に示す
η
\eta
η
の勾配とって
θ
=
θ
0
\theta = \theta_0
θ
=
θ
0
を入れると,左辺-右辺が
∑
s
∇
θ
P
π
θ
(
s
)
∣
θ
=
θ
0
∑
a
π
θ
A
π
θ
0
(
s
,
a
)
∣
θ
=
θ
0
\sum_s \nabla_{\theta} P_{\pi_{\theta}}(s)|_{\theta = \theta_0} \sum_a \pi_{\theta}A_{\pi_{\theta_0}}(s,a)|_{\theta = \theta_0}
∑
s
∇
θ
P
π
θ
(
s
)
∣
θ
=
θ
0
∑
a
π
θ
A
π
θ
0
(
s
,
a
)
∣
θ
=
θ
0
となり,
∑
a
π
θ
0
A
π
θ
0
(
s
,
a
)
=
E
a
∼
π
θ
0
[
Q
π
θ
0
(
s
,
a
)
−
V
π
θ
0
(
s
)
]
\sum_a \pi_{\theta_0}A_{\pi_{\theta_0}}(s,a) = \mathbb{E}_{a \sim \pi_{\theta_0}}[Q_{\pi_{\theta_0}} (s,a) - V_{\pi_{\theta_0}}(s)]
∑
a
π
θ
0
A
π
θ
0
(
s
,
a
)
=
E
a
∼
π
θ
0
[
Q
π
θ
0
(
s
,
a
)
−
V
π
θ
0
(
s
)
]
これは0なので,左辺-右辺=0
式(6)の気持ち
TVとKLの関係
これをPinskerの不等式と言う
等号成立条件は?という疑問が出たので軽く調べたが、
https://arxiv.org/pdf/1402.3840.pdf
で以下の説明がされていた。元論文を見ていないので本当かはわからない。
Please turn on JavaScript to use Paper in all of its awesomeness. ^_^
発表概要・リンク
当日のメモ
Appendixにおける次の等式
式(1)の証明
Lとηが一次近似?
式(6)の気持ち
TVとKLの関係