seq2seqモデルと強化学習 (NIPS2017他)
1/17 RL-Tokyo
  • 色々論文まとめたかったけど、断念して2つだけ紹介します
  • RLから他分野へのアイディアの輸出はもう少し色々知りたい感じがする

1/19 deep-gimbocho
  • 1, 2.1, 2.3, 2.4, 3., 5.
  • 15/30分: レビュー・強化学習としての定式化
  • 15/30分: ValueNNのやつ (NIPS2017)
  • Seq2seqのデコード時のビームサイズに対し頑健になる

1. なぜこのトピック?


  • 機械翻訳のような系列生成タスク強化学習の関係に興味があるから(問題としてどういう類似点・差異があり、どのような手法が共通で使え、逆にどういう工夫が追加で必要なのか)

2. seq2seqモデルのクイック・レビュー


seq2seqは機械翻訳・キャプション生成・音声認識など様々なドメインで応用されているアプローチ(NNアーキテクチャ)で、既にとてもポピュラー。ICML2017のチュートリアルが詳しい。

2.1. エンコーダ・デコーダ (encoder-decoder)


TODO: WRITE HERE

2.2. アテンション (attention) 機構


TODO: WRITE HERE
  • NMTではdot, concat, sum?の3つくらいバリエーションがある

2.3. 尤度最大化による学習 (teacher forcing)


  • 入力 xx
  • 日英翻訳タスクなら、x=(x1,,xT)x = (x_1, \ldots, x_{T^\prime})  は x = “私 は A子 です .” 、x1 = 私, …
  • 実際、辞書とかをどのくらい作り込むのが主流なのか気になります・・・ by KT
  • キャプション生成タスクなら xx は単に画像(特徴量)
  • 出力 y
  • 日英翻訳タスクなら、y=(y1,,yT)y = (y_1, \ldots, y_T) は y = “i am A-ko .”、y1 = i, …
  • 画像ならキャプション。同じく y=(y1,,yT)y = (y_1, \ldots, y_T)。 
  • 尤度最適化の目的関数(真の教師文を条件に与える = teacher forcing)
  • L(θ)=(x,y)Dlogpθ(yx)=(x,y)Dtlogpθ(ytx,y<t)L(\theta) = - \sum_{(x, y) \in \mathcal{D}}\log p_\theta(y|x) = - \sum_{(x, y) \in \mathcal{D}}\sum_t \log p_\theta(y_t | x, y_{<t})