......@@ -2,15 +2,15 @@
## 穷举搜索
我们在描述解码器时提到,输出序列基于输入序列的条件概率是$\prod_{t'=1}^{T'} \mathbb{P}(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c})$。为了搜索该概率最大的输出序列,一种方法是穷举所有可能序列的概率,并输出概率最大的序列。我们将该序列称为最优序列,并将这种搜索方法称为穷举搜索(exhaustive search)。
我们在上一节描述解码器时提到,输出序列基于输入序列的条件概率是$\prod_{t'=1}^{T'} \mathbb{P}(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c})$。为了搜索该条件概率最大的输出序列,一种方法是穷举所有可能输出序列的条件概率,并输出条件概率最大的序列。我们将该序列称为最优序列,并将这种搜索方法称为穷举搜索(exhaustive search)。
虽然穷举搜索可以得到最优的预测序列,但它的计算开销$\mathcal{O}(|\mathcal{Y}|^{T'})$很容易过大。例如,当$|\mathcal{Y}|=10000$且$T'=10$时,我们将评估$10000^{10} = 10^{40}$个序列:这几乎不可能完成。
虽然穷举搜索可以得到最优序列,但它的计算开销$\mathcal{O}(\left|\mathcal{Y}\right|^{T'})$很容易过大。例如,当$|\mathcal{Y}|=10000$且$T'=10$时,我们将评估$10000^{10} = 10^{40}$个序列:这几乎不可能完成。
......@@ -20,37 +20,37 @@
$$y_{t'} = \text{argmax}_{y_{t'} \in \mathcal{Y}} \mathbb{P}(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c}),$$
下面我们来看一个例子。假设输出词典里面有“A”,“B”,“C”和“<eos>”这四个词。图10.3中每个时间步下的四个数字分别代表了该时间步生成“A”,“B”,“C”和“<eos>”这四个词的条件概率。在每个时间步,贪婪搜索选取生成的条件概率最高的词。因此,图10.3中将生成序列“A”、“B”和“C”(舍弃特殊符号“<eos>”)。该输出序列的条件概率是$0.5\times0.4\times0.4 = 0.08$。
下面我们来看一个例子。假设输出词典里面有“A”、“B”、“C”和“<eos>”这四个词。图10.3中每个时间步下的四个数字分别代表了该时间步生成“A”、“B”、“C”和“<eos>”这四个词的条件概率。在每个时间步,贪婪搜索选取生成条件概率最大的词。因此,图10.3中将生成序列“ABC<eos>”。该输出序列的条件概率是$0.5\times0.4\times0.4\times0.6 = 0.048$。
## 束搜索
束搜索(beam search)是比贪婪搜索更加广义的搜索算法。它有一个束宽(beam size)超参数。我们将它设为$k$。在时间步1时,选取当前时间步生成条件概率最大的$k$个词,分别组成$k$个候选输出序列的首词。在之后的每个时间步,基于上个时间步的$k$个候选输出序列,从$k\left|\mathcal{Y}\right|$个可能的输出序列中选取生成条件概率最大的$k$个,作为该时间步的候选输出序列。
$$ \frac{1}{L^\alpha} \log \mathbb{P}(y_1, \ldots, y_{L}) = \frac{1}{L^\alpha} \sum_{t'=1}^L \log \mathbb{P}(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c}),$$
束搜索(beam search)介于两者之间,在筛选时它只保留条件概率最高的$k$条序列,这里$k$叫做束宽(beam size),是一个超参数。当$k=1$时其等价于贪婪搜索,而$k=\infty$时其等价于穷举搜索。束搜索的算法复杂度为$\mathcal{O}(kT'|\mathcal{Y}|)$。实际使用中,我们通过$k$来权衡输出序列质量和计算复杂度。下图演示了束搜索的工作原理
$$ \frac{1}{L^\alpha} \log \mathbb{P}(y_1, \ldots, y_{L}\mid \mathrm{context}) = \frac{1}{L^\alpha} \sum_{t^\prime=1}^L \log \mathbb{P}(y_{t^\prime} \mid y_1, \ldots, y_{t^\prime-1}, \mathrm{context}),$$
图10.5通过一个例子演示了束搜索的过程。假设输出序列的词典中只包含五个元素:$\mathcal{Y} = \{A, B, C, D, E\}$,且其中一个为特殊符号“<eos>”。设束搜索的束宽等于2,输出序列最大长度为3。在输出序列的时间步1时,假设条件概率$\mathbb{P}(y_1 \mid \boldsymbol{c})$最大的两个词为$A$和$C$。我们在时间步2时将对所有的$y_2 \in \mathcal{Y}$都分别计算$\mathbb{P}(y_2 \mid A, \boldsymbol{c})$和$\mathbb{P}(y_2 \mid C, \boldsymbol{c})$,并从计算出的10个条件概率中取最大的两个:假设为$\mathbb{P}(B \mid A, \boldsymbol{c})$和$\mathbb{P}(E \mid C, \boldsymbol{c})$。那么,我们在时间步3时将对所有的$y_3 \in \mathcal{Y}$都分别计算$\mathbb{P}(y_3 \mid A, B, \boldsymbol{c})$和$\mathbb{P}(y_3 \mid C, E, \boldsymbol{c})$,并从计算出的10个条件概率中取最大的两个:假设为$\mathbb{P}(D \mid A, B, \boldsymbol{c})$和$\mathbb{P}(D \mid C, E, \boldsymbol{c})$。接下来,我们可以在6个候选输出序列:$A$、$C$、$AB$、$CE$、$ABD$和$CED$中筛选出包含特殊符号“<eos>”的序列,并将它们中所有特殊符号“<eos>”后面的子序列舍弃,得到最终候选输出序列。我们可以在最终候选输出序列中取分数最高的序列作为输出序列。
## 小结
......@@ -61,13 +61,10 @@ $$ \frac{1}{L^\alpha} \log \mathbb{P}(y_1, \ldots, y_{L}\mid \mathrm{context}) =
## 练习
* 穷举搜索可否看作是特殊束宽的束搜索?为什么?
## 扫码直达[讨论区](https://discuss.gluon.ai/t/topic/6817)
## 参考文献
[1] Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In Advances in neural information processing systems (pp. 3104-3112).
......@@ -201,7 +201,7 @@ class DecoderInitState(nn.Block):
### 训练模型并输出不定长序列
Sutskever等人发现贪婪搜索也可以在机器翻译中也可以取得不错的结果 [1]。我们定义`translate`函数应用训练好的模型,并通过贪婪搜索输出不定长的翻译文本序列。解码器的最初时间步输入来自“<bos>”符号。对于一个输出中的序列,当解码器在某一时间步搜索出“<eos>”符号时,即完成该输出序列。
```{.python .input}
def translate(encoder, decoder, decoder_init_state, fr_ens, ctx, max_seq_len):
......@@ -325,7 +325,7 @@ train(encoder, decoder, decoder_init_state, max_seq_len, ctx, eval_fr_ens)
## 评价翻译结果
2002年,IBM团队提出了一种评价翻译结果的指标,叫BLEU(Bilingual Evaluation Understudy)[1]。
2002年,IBM团队提出了一种评价翻译结果的指标,叫BLEU(Bilingual Evaluation Understudy)[2]。
设$k$为我们希望评价的$n$个连续词的最大长度,例如$k=4$。设$n$个连续词的精度为$p_n$。它是模型预测序列与样本标签序列匹配$n$个连续词的数量与模型预测序列中$n$个连续词数量之比。举个例子,假设标签序列为$ABCDEF$,预测序列为$ABBCD$。那么$p_1 = 4/5, p_2 = 3/4, p_3 = 1/3, p_4 = 0$。设$len_{\text{label}}$和$len_{\text{pred}}$分别为标签序列和模型预测序列的词数。那么,BLEU的定义为
......@@ -341,7 +341,7 @@ $$ \exp(\min(0, 1 - \frac{len_{\text{label}}}{len_{\text{pred}}})) \prod_{i=1}^k
## 练习
* 试着使用更大的翻译数据集来训练模型,例如WMT [2] 和Tatoeba Project [3]。
* 试着使用更大的翻译数据集来训练模型,例如WMT [3] 和Tatoeba Project [4]。
* 在解码器中使用强制教学,观察实现现象。
## 扫码直达[讨论区](https://discuss.gluon.ai/t/topic/4689)
......@@ -350,8 +350,10 @@ $$ \exp(\min(0, 1 - \frac{len_{\text{label}}}{len_{\text{pred}}})) \prod_{i=1}^k
## 参考文献
[1] Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
[1] Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In Advances in neural information processing systems (pp. 3104-3112).
[2] WMT. http://www.statmt.org/wmt14/translation-task.html
[2] Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
[3] Tatoeba Project. http://www.manythings.org/anki/
[3] WMT. http://www.statmt.org/wmt14/translation-task.html
[4] Tatoeba Project. http://www.manythings.org/anki/
