20170614 第63回 強化学習勉強会メモ 
教科書: p.45-p.50 4節の制御から
担当: STRatANG

4.2.1

失敗確率 (failure probability) ?

  • ohto [8:08 PM] 
  • Auer et al. 2002 UCB1とか

UCB-V

Rの上限を分散で置き換える話

  • sotetsuk [8:19 PM] 

3?↓

Theorem. 1

ベイズ的アプローチ

選択したところでのα、β(だけ)が変わる、という意味で考えると、前に訪れたところだけ考えれば逐次的に計算できるので、MDPっぽい

Gittins Index

A Short Proof of the Gittins Index Theorem

4.2.2

Unimprovable?