diff --git a/doc/fluid/user_guides/nlp_case/machine_translation/README.cn.md b/doc/fluid/user_guides/nlp_case/machine_translation/README.cn.md index 0b709b78c98d09df62894fc9c630460cefc5031a..9b13cf3da05ee3a92d90b7e1cc677b3d1cae9cb5 100644 --- a/doc/fluid/user_guides/nlp_case/machine_translation/README.cn.md +++ b/doc/fluid/user_guides/nlp_case/machine_translation/README.cn.md @@ -52,7 +52,7 @@ GRU\[[2](#参考文献)\]是Cho等人在LSTM上提出的简化版本,也是RNN - 重置门(reset gate):如果重置门关闭,会忽略掉历史信息,即历史不相干的信息不会影响未来的输出。 - 更新门(update gate):将LSTM的输入门和遗忘门合并,用于控制历史信息对当前时刻隐层输出的影响。如果更新门接近1,会把历史信息传递下去。

-
+
图2. GRU(门控循环单元)

@@ -84,11 +84,11 @@ GRU\[[2](#参考文献)\]是Cho等人在LSTM上提出的简化版本,也是RNN 编码阶段分为三步: -1. one-hot vector表示:将源语言句子$x=\left \{ x_1,x_2,...,x_T \right \}$的每个词$x_i$表示成一个列向量$w_i\epsilon \left \{ 0,1 \right \}^{\left | V \right |},i=1,2,...,T$。这个向量$w_i$的维度与词汇表大小$\left | V \right |$ 相同,并且只有一个维度上有值1(该位置对应该词在词汇表中的位置),其余全是0。 +1. one-hot vector表示:将源语言句子$x = \left(x_1,x_2,...,x_T\right)$的每个词$x_i$表示成一个列向量$w_i$。这个向量$w_i$的维度与词汇表大小$\left | V \right |$ 相同,并且只有一个维度上有值1(该位置对应该词在词汇表中的位置),其余全是0。 2. 映射到低维语义空间的词向量:one-hot vector表示存在两个问题,1)生成的向量维度往往很大,容易造成维数灾难;2)难以刻画词与词之间的关系(如语义相似性,也就是无法很好地表达语义)。因此,需再one-hot vector映射到低维的语义空间,由一个固定维度的稠密向量(称为词向量)表示。记映射矩阵为$C\epsilon R^{K\times \left | V \right |}$,用$s_i=Cw_i$表示第$i$个词的词向量,$K$为向量维度。 -3. 用RNN编码源语言词序列:这一过程的计算公式为$h_i=\varnothing _\theta \left ( h_{i-1}, s_i \right )$,其中$h_0$是一个全零的向量,$\varnothing _\theta$是一个非线性激活函数,最后得到的$\mathbf{h}=\left \{ h_1,..., h_T \right \}$就是RNN依次读入源语言$T$个词的状态编码序列。整句话的向量表示可以采用$\mathbf{h}$在最后一个时间步$T$的状态编码,或使用时间维上的池化(pooling)结果。 +3. 用RNN编码源语言词序列:这一过程的计算公式为$h_i=\phi_{\theta} \left ( h_{i-1}, s_i \right )$,其中$h_0$是一个全零的向量,$\phi _{\theta}$是一个非线性激活函数,最后得到的$\mathbf{h}=\left(h_1,..., h_T \right)$就是RNN依次读入源语言$T$个词的状态编码序列。整句话的向量表示可以采用$\mathbf{h}$在最后一个时间步$T$的状态编码,或使用时间维上的池化(pooling)结果。 第3步也可以使用双向循环神经网络实现更复杂的句编码表示,具体可以用双向GRU实现。前向GRU按照词序列$(x_1,x_2,...,x_T)$的顺序依次编码源语言端词,并得到一系列隐层状态$(\overrightarrow{h_1},\overrightarrow{h_2},...,\overrightarrow{h_T})$。类似的,后向GRU按照$(x_T,x_{T-1},...,x_1)$的顺序依次编码源语言端词,得到$(\overleftarrow{h_1},\overleftarrow{h_2},...,\overleftarrow{h_T})$。最后对于词$x_i$,通过拼接两个GRU的结果得到它的隐层状态,即$h_i=\left [ \overrightarrow{h_i^T},\overleftarrow{h_i^T} \right ]^{T}$。
@@ -107,7 +107,7 @@ GRU\[[2](#参考文献)\]是Cho等人在LSTM上提出的简化版本,也是RNN 其中$\phi _{\theta '}$是一个非线性激活函数;$c$是源语言句子的上下文向量,在不使用注意力机制时,如果[编码器](#编码器)的输出是源语言句子编码后的最后一个元素,则可以定义$c=h_T$;$u_i$是目标语言序列的第$i$个单词,$u_0$是目标语言序列的开始标记``,表示解码开始;$z_i$是$i$时刻解码RNN的隐层状态,$z_0$是一个全零的向量。 -1. 将$z_{i+1}$通过`softmax`归一化,得到目标语言序列的第$i+1$个单词的概率分布$p_{i+1}$。概率分布公式如下: +2. 将$z_{i+1}$通过`softmax`归一化,得到目标语言序列的第$i+1$个单词的概率分布$p_{i+1}$。概率分布公式如下:

@@ -115,9 +115,9 @@ GRU\[[2](#参考文献)\]是Cho等人在LSTM上提出的简化版本,也是RNN 其中$W_sz_{i+1}+b_z$是对每个可能的输出单词进行打分,再用softmax归一化就可以得到第$i+1$个词的概率$p_{i+1}$。 -1. 根据$p_{i+1}$和$u_{i+1}$计算代价。 +3. 根据$p_{i+1}$和$u_{i+1}$计算代价。 -2. 重复步骤1~3,直到目标语言序列中的所有词处理完毕。 +4. 重复步骤1~3,直到目标语言序列中的所有词处理完毕。 机器翻译任务的生成过程,通俗来讲就是根据预先训练的模型来翻译源语言句子。生成过程中的解码阶段和上述训练过程的有所差异,具体介绍请见[柱搜索算法](#柱搜索算法)。 @@ -146,7 +146,7 @@ GRU\[[2](#参考文献)\]是Cho等人在LSTM上提出的简化版本,也是RNN 其中,$align$可以看作是一个对齐模型,用来衡量目标语言中第$i$个词和源语言中第$j$个词的匹配程度。具体而言,这个程度是通过解码RNN的第$i$个隐层状态$z_i$和源语言句子的第$j$个上下文片段$h_j$计算得到的。传统的对齐模型中,目标语言的每个词明确对应源语言的一个或多个词(hard alignment);而在注意力模型中采用的是soft alignment,即任何两个目标语言和源语言词间均存在一定的关联,且这个关联强度是由模型计算得到的实数,因此可以融入整个NMT框架,并通过反向传播算法进行训练。

-
+
图6. 基于注意力机制的解码器

@@ -213,7 +213,7 @@ max_length = 256 # 解码生成句子的最大长度 beam_size = 4 # beam search的柱宽度 batch_size = 64 # batch 中的样本数 -model_save_dir = "machine_translation.inference.model" +model_file = "machine_translation" ``` 接着定义所需要的数据输入: @@ -538,7 +538,7 @@ for pass_id in six.moves.xrange(EPOCH_NUM): (pass_id, batch_id, loss_val)) batch_id += 1 # 保存模型 - fluid.io.save_params(exe, model_save_dir, main_program=train_prog) + fluid.save(train_prog, model_file) ``` ## 应用模型 @@ -572,7 +572,7 @@ loader.set_batch_generator(inputs_generator(batch_size, # 定义执行器,加载参数并绑定Program exe = fluid.Executor(places[0]) exe.run(startup_prog) -fluid.io.load_params(exe, model_save_dir, main_program=infer_prog) +fluid.load(infer_prog, model_file, exe) prog = fluid.CompiledProgram(infer_prog).with_data_parallel() ``` @@ -608,7 +608,7 @@ for data in loader(): ```txt Original sentence: A man in an orange hat starring at something . -Translated score and sentence: +Translated sentence: Ein Mann mit einem orangen Schutzhelm starrt auf etwas . Ein Mann mit einem gelben Schutzhelm starrt auf etwas . Ein Mann mit einem gelben Schutzhelm starrt etwas an . diff --git a/doc/fluid/user_guides/nlp_case/machine_translation/index.cn.html b/doc/fluid/user_guides/nlp_case/machine_translation/index.cn.html index 61a683444976ce59a5acab8eae1dd6566c62c44d..e9c1314690a720dfdd05ea512386d4b458a620ec 100644 --- a/doc/fluid/user_guides/nlp_case/machine_translation/index.cn.html +++ b/doc/fluid/user_guides/nlp_case/machine_translation/index.cn.html @@ -255,7 +255,7 @@ max_length = 256 # 解码生成句子的最大长度 beam_size = 4 # beam search的柱宽度 batch_size = 64 # batch 中的样本数 -model_save_dir = "machine_translation.inference.model" +model_file = "machine_translation" ``` 接着定义所需要的数据输入: @@ -580,7 +580,7 @@ for pass_id in six.moves.xrange(EPOCH_NUM): (pass_id, batch_id, loss_val)) batch_id += 1 # 保存模型 - fluid.io.save_params(exe, model_save_dir, main_program=train_prog) + fluid.save(train_prog, model_file) ``` ## 应用模型 @@ -614,7 +614,7 @@ loader.set_batch_generator(inputs_generator(batch_size, # 定义执行器,加载参数并绑定Program exe = fluid.Executor(places[0]) exe.run(startup_prog) -fluid.io.load_params(exe, model_save_dir, main_program=infer_prog) +fluid.load(infer_prog, model_file, exe) prog = fluid.CompiledProgram(infer_prog).with_data_parallel() ``` diff --git a/doc/fluid/user_guides/nlp_case/machine_translation/seq2seq.py b/doc/fluid/user_guides/nlp_case/machine_translation/seq2seq.py index e4c118e54ad6b7880347e02d0549d11c3c6dc9c8..294dad7abea3bd7085c5e4184a46efd373cf28f7 100644 --- a/doc/fluid/user_guides/nlp_case/machine_translation/seq2seq.py +++ b/doc/fluid/user_guides/nlp_case/machine_translation/seq2seq.py @@ -31,7 +31,7 @@ max_length = 256 beam_size = 4 batch_size = 64 -model_save_dir = "machine_translation.inference.model" +model_file = "machine_translation" class DecoderCell(layers.RNNCell): @@ -289,7 +289,7 @@ def train(use_cuda): print('pass_id: %d, batch_id: %d, loss: %f' % (pass_id, batch_id, loss_val)) batch_id += 1 - fluid.io.save_params(exe, model_save_dir, main_program=train_prog) + fluid.save(train_prog, model_file) def infer(use_cuda): @@ -312,7 +312,7 @@ def infer(use_cuda): exe = fluid.Executor(places[0]) exe.run(startup_prog) - fluid.io.load_params(exe, model_save_dir, main_program=infer_prog) + fluid.load(infer_prog, model_file, exe) prog = fluid.CompiledProgram(infer_prog).with_data_parallel() for data in loader():