Created by: dashulu
paddle model zoo中language_model/gru模型训练时,用float进行训练ppl收敛到125左右,但是gemm的精度改为int16进行训练时,到第六轮就出现了NaN,请问这个应该怎么去调整?