強化学習勉強会 #65
教科書: p.50-p.56 by @fullflu

当日のメモ

1. 

  • This bound improves the bound of Thrun (1992). The bound can be shown to be tight in an asymptotic sense.

のtightはここでどういう意味か?

Ortnerの記述↓
​​

2. 報酬関数をepsilon精度で解明する

3. 


?

4. 


γ>0.5\gamma > 0.5 はあってる?逆?

引用されている論文へのリンク

から引用↓

4.2.3 Active learning in Markov Decision Processes

  •  E3アルゴリズムを提案。行動空間・状態空間のサイズ、及び時間T (mixing time or horizon time) の多項式オーダーの行動数と計算時間で探索が終わるアルゴリズム、という理解。
  •  R-MAXアルゴリズムを提案。E3アルゴリズムが洗練されている。

4.2.4 Online learning in Markov DecisionProcesses

  • UCRL2アルゴリズムの提案
  • transient stateをもつMDPに対してのリグレットのバウンドを考えている話(?)
  • (改良版の)R-MAXがPAC-MDPであることを示し、下界も示した。
  • MorMax
  •  遅延Q学習