Created by: Heavenlinguistics
训练完成之后报了无法分配内存的错误: 由下图可知训练已经完成: 只训练了两个epoch,且上面的log已经显示输出了最后的验证结果和测试结果。且查看checkpoints文件夹也输出了训练到最后一个step的checkpoint。 所以为什么已经成功训练完了还会报出无法分配内存的错误呢?这样的错误是否会影响已经保存的checkpoint的效果呢?