Created by: apphpp
paddle 模型训练完,预测时遇到这个错误;并且是在预测完N个step之后报的错。 报错位置固定:即相同配置和数据下,多次运行都是到N step后报错;但修改batch大小 具体报错位置发生变化。 错误稳定复现,在P4/P40机器上都复现,位置固定如上述。 环境为:python3, paddle1.5; nccl2.3.7_cuda9.0, cudnn_v7, cuda-9.0 并行方式:单机单卡