Loading...
seq2seqモデルと強化学習
(NIPS2017他)
1/17 RL-Tokyo
色々論文まとめたかったけど、断念して2つだけ紹介します
RLから他分野へのアイディアの輸出はもう少し色々知りたい感じがする
1/19 deep-gimbocho
1, 2.1, 2.3, 2.4, 3., 5.
15/30分: レビュー・強化学習としての定式化
15/30分: ValueNNのやつ
(NIPS2017)
Seq2seqのデコード時のビームサイズに対し頑健になる
1. なぜこのトピック?
機械翻訳のような
系列生成タスク
と
強化学習
の関係に興味があるから(問題としてどういう類似点・差異があり、どのような手法が共通で使え、逆にどういう工夫が追加で必要なのか)
界隈ではこの2つのトピックの関連は既にかなり意識されている。実際、ICML2017のチュートリアルでは、
seq2seqのチュートリアル
では強化学習との関連が、
強化学習のチュートリアル
では、言語・対話との関係が示唆されている。
seq2seqのチュートリアル
https://sites.google.com/view/seq2seq-icml17
強化学習のチュートリアル
https://sites.google.com/view/icml17deeprl
2. seq2seqモデルのクイック・レビュー
seq2seqは機械翻訳・キャプション生成・音声認識など様々なドメインで応用されているアプローチ(NNアーキテクチャ)で、既にとてもポピュラー。
ICML2017のチュートリアル
が詳しい。
2.1. エンコーダ・デコーダ
(encoder-decoder)
TODO: WRITE HERE
Sutskever et al., Sequence to sequence learning with neural networks, NIPS2014
Vinyals et al., Show and Tell: A Neural Image Caption Generator CVPR2015
Cho et al.,
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation
, EMNLP2014
Sutskever et al.,
Sequence to sequence learning with neural networks
, NIPS2014
Vinyals et al.,
Show and Tell: A Neural Image Caption Generator
CVPR2015
2.2. アテンション
(attention)
機構
TODO: WRITE HERE
[Bah式] Bahdanau et al., Neural machine translation by jointly learning to align and translate ICLR2015
[Luong式] Luong et al., Effective Approaches to Attention-based Neural Machine Translation EMNLP2015
Xu et al., Show, Attend and Tell: Neural Image Caption Generation with Visual Attention ICML2015
[Bah式] Bahdanau et al.,
Neural machine translation by jointly learning to align and translate
ICLR 2015
[Luong式]Luong et al.,
Effective Approaches to Attention-based Neural Machine Translation
EMNLP2015
Xu et al.,
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
ICML2015
NMTではdot, concat, sum?の3つくらいバリエーションがある
2.3. 尤度最大化による学習
(teacher
forcing)
入力
x
x
x
日英翻訳タスクなら、
x
=
(
x
1
,
…
,
x
T
′
)
x = (x_1, \ldots, x_{T^\prime})
x
=
(
x
1
,
…
,
x
T
′
)
は x =
“私
は A子 です .” 、x1 = 私, …
実際、辞書とかをどのくらい作り込むのが主流なのか気になります・・・
by KT
キャプション生成タスクなら
x
x
x
は単に画像(特徴量)
出力 y
日英翻訳タスクなら、
y
=
(
y
1
,
…
,
y
T
)
y = (y_1, \ldots, y_T)
y
=
(
y
1
,
…
,
y
T
)
は y =
“i
am A-ko .”、y1 = i, …
画像ならキャプション。同じく
y
=
(
y
1
,
…
,
y
T
)
y = (y_1, \ldots, y_T)
y
=
(
y
1
,
…
,
y
T
)
。
尤度最適化の目的関数
(真の
教師文
を条件に与える = teacher forcing)
L
(
θ
)
=
−
∑
(
x
,
y
)
∈
D
log
p
θ
(
y
∣
x
)
=
−
∑
(
x
,
y
)
∈
D
∑
t
log
p
θ
(
y
t
∣
x
,
y
<
t
)
L(\theta) = - \sum_{(x, y) \in \mathcal{D}}\log p_\theta(y|x) = - \sum_{(x, y) \in \mathcal{D}}\sum_t \log p_\theta(y_t | x, y_{<t})
L
(
θ
)
=
−
∑
(
x
,
y
)
∈
D
lo
g
p
θ
(
y
∣
x
)
=
−
∑
(
x
,
y
)
∈
D
∑
t
lo
g
p
θ
(
y
t
∣
x
,
y
<
t
)
Teacher forcing TODO: CITE(画像はProfessor forcingから TODO: CITE PF)
Please turn on JavaScript to use Paper in all of its awesomeness. ^_^
1. なぜこのトピック?
2. seq2seqモデルのクイック・レビュー
2.1. エンコーダ・デコーダ (encoder-decoder)
2.2. アテンション (attention) 機構
2.3. 尤度最大化による学習 (teacher forcing)