論文紹介 A Distributional Perspective on Reinforcement Learning

Abstract

収益の期待値がValue function, VとかQになるが、ここでは収益の分布(Value distribution)を考え、そのvalue distributionの重要性について議論した論文。
AtariのいくつかのゲームでState-of-the-art.

What is value distribution?

普通のBellman方程式
LaTeX parse error
Q(x,a) = E[r(x,a) + γQ(x’,a’)| x,a]
Q(x,a)は決定論的な関数

Value distribution的な見方 (distributional Bellman equation)
Z(x,a)  = R(x,a) + γZ(x',a’)
Z(x,a)は確率変数, Z(x,a)の期待値がQ(x,a)

History and Novelty

分布Bellman方程式自体はBellman方程式と同じぐらい昔からある(Jaquette 1973, Sobel 1982, White 1988)。
でも、Qの分布の情報は特定の目的にしか使われてこなかった。
パラメトリックな不確実性(←重要と思うけどな)とかリスクを考慮するためとか。
それに対して、この論文では強化学習全体に重要な役割を果たすといっている。

  • Distributional Bellman Operatorはpolicy固定のもと(つまりpolicy評価において)では、Wasserstein metricで計算したmax normもとでは縮小写像

  • Distributional Bellman Operatorはpolicy可変のもと(つまりpolicyを学習する際)では、どんなmetricに対しても縮小写像にならず、不安定

  • Distributional Bellman Operatorは価値関数の分布の多峰性を表現できる。
  • このような多峰性は、非定常な環境での学習の難しさを緩和するのに役だったりするので、価値関数の分布の学習は強化学習全般に役立つ

2章 Notation & ordinary Q-learning

Notationとか普通のQ学習とかSARSAのベースになってるBellman Operatorの説明

3章 Theory of distributional Bellman operator

Distributional Bellman Operatorの説明
Z^π は収益R(s,a)の分布を表わすってこと。R(s,a)は収益

Contraction Mapping (縮小写像)
いまのばあい、fがDistributional Bellman Operator
バナッハの不動点定理によると完備距離空間には唯一の不動点が存在する

いまのばあい、距離dとしてWasserstein metricをとるとDistributional Bellman Operatorは縮小写像 (Lemma 3)

4章 Learning algorithm

Algorithmの実装
分布は、VminとVmaxの間をN個に区切ったヒストグラムのような形で表現
zi=Vmin + iΔz (Δz=(Vmax-Vmin)/(N-1)) になる確率がpi(x,a)

Bellman update: Distributional Bellman operatorによるUpdate
パラメトリックな分布は、Bellman updateをすると、もとのパラメトリックな分布族で表現できないものになるので、もとのパラメトリックな分布で表現できるところに射影(projection)する必要あり