多卡训练loss出现nan,且报错an illegal memory access was encountered
Created by: junior-talk
为使您的问题得到快速解决,在建立Issues前,请您先通过如下方式搜索是否有相似问题:【搜索issue关键字】【使用labels筛选】【官方文档】
如果您没有查询到相似问题,为快速解决您的提问,建立issue时请提供如下细节信息:
-
标题:多卡训练loss出现nan,且报错an illegal memory access was encountered
-
版本、环境信息: 1)PaddlePaddle版本:1.7.1 2)CPU:预测若用CPU,请提供CPU型号,MKL/OpenBlas/MKLDNN/等数学库使用情况 3)GPU:预测若用GPU,请提供GPU型号、CUDA和CUDNN版本号 4)系统环境:CentOS release 6.10 (Final) , python3 注:您可以通过执行summary_env.py获取以上信息。
-
训练信息 1)多卡 2)显存信息 3)Operator信息
-
复现信息:如为报错,请给出复现环境、复现步骤
-
问题描述:请详细描述您的问题,同步贴出报错信息、日志、可复现的代码片段
job-0bb5f04109ba3a52多卡任务失败。
job-0bb5f042b11dabdb相同任务,单卡下在正常执行。