Loading...
20170614 第63回 強化学習勉強会メモ
教科書: p.45-p.50 4節の制御から
担当: STRatANG
4.2.1
失敗確率
(failure
probability) ?
ohto
[8:08
PM]
http://homes.dsi.unimi.it/~cesabian/Pubblicazioni/ml-02.pdf
Auer et al. 2002 UCB1とか
UCB-V
Rの上限を分散で置き換える話
sotetsuk
[8:19
PM]
Audibert et al. 2009
http://chercheurs.lille.inria.fr/~munos/papers/files/TCS09.pdf
3?↓
Theorem. 1
ベイズ的アプローチ
選択したところでのα、β(だけ)が変わる、という意味で考えると、前に訪れたところだけ考えれば逐次的に計算できるので、MDPっぽい
Gittins Index
A Short Proof of the Gittins Index Theorem
http://www.mit.edu/~jnt/Papers/J048-94-jnt-gittins.pdf
4.2.2
Unimprovable?
Dar et al. 2002
https://pdfs.semanticscholar.org/27d4/8fd1367b0c08c7bd3a8f8e79b7bfef0bc81d.pdf
Tsitsiklis and Mannor
http://www.jmlr.org/papers/volume5/mannor04b/mannor04b.pdf
Mnih et al. 2008
http://www.machinelearning.org/archive/icml2008/papers/523.pdf
Please turn on JavaScript to use Paper in all of its awesomeness. ^_^
4.2.1
失敗確率 (failure probability) ?
UCB-V
ベイズ的アプローチ
Gittins Index
4.2.2
Unimprovable?