Created by: ranqiu92
训练 models/conv_seq2seq时,使用说明中的训练脚本,默认网络配置中embedding的initial_std设置为0.05 。 预测时,beam_size=3, 在第16个pass(从1开始计数)取得 dev集(6969条)上最高BLUE 28.51,此时test集(6750条)上为26.05。 整个训练过程中的网络参数绝对值 及 相应梯度绝对值的统计信息如下(横轴为pass数):