Created by: Lizhengo
paddle版本的transformer,如果修改了超参数(max_length改为64,d_model改为256,d_inner_hid改为512,n_head改成12),训练可以正常训练,但是预测时会出这个错误