多GPU出现nan及Reduce策略出错
Created by: Bond-H
- 版本、环境信息: 1)PaddlePaddle版本:1.5 2)GPU:预测若用GPU,GPU:K40m,Cuda9.0,cuDNN7.3,nccl_2.2.12-1 3)系统环境:CentOS6.3, Python2.7
- 训练信息 1)单机多卡,多CPU
- 问题描述: 1) 程序在单机单GPU【或单CPU】能正常运行 2)在使用多CPU或多GPU时,设置使用Reduce策略,出现报错信息如下图一所示 3)使用多GPU,ALLReduce策略,训练几个batch后,loss出现nan,而使用单GPU或多CPU无此问题。
上述问题代码复现如下:
git clone https://github.com/Bond-SYSU/models.git
cd models/PaddleNLP/lexical_analysis
sh run_new.sh train # 多GPU, ALLReduce策略