Created by: zhengzhe97
训练到一定阶段时出现nan,尝试调低学习率和LinearWarmup都会出现这种问题
尝试过输出每次迭代的loss和模型输出,loss和模型输出都比较正常, 会出现这种情况,上次迭代还是正常,下次模型就输出nan