diff --git a/scheduled_sampling/scheduled_sampling.py b/scheduled_sampling/scheduled_sampling.py
index 3e58786f36a4aa7ae8a63436bb147bfa98725747..f52ac2151e514e4631be04f5ffc19827fcf17143 100644
--- a/scheduled_sampling/scheduled_sampling.py
+++ b/scheduled_sampling/scheduled_sampling.py
@@ -75,7 +75,12 @@ def seqToseq_net(source_dict_dim, target_dict_dim, is_generating=False):
         generated_word_memory = paddle.layer.memory(
             name='generated_word', size=1, boot_with_const_id=0)
 
-        current_word = paddle.layer.multiplex(input=[true_token_flag, true_word, generated_word_memory])
+        generated_word_emb = embedding(
+            input=generated_word_memory,
+            size=word_vector_dim,
+            param_attr=paddle.attr.ParamAttr(name='_target_language_embedding'))
+
+        current_word = paddle.layer.multiplex(input=[true_token_flag, true_word, generated_word_emb])
 
         with paddle.layer.mixed(size=decoder_size * 3) as decoder_inputs:
             decoder_inputs += paddle.layer.full_matrix_projection(input=context)