动态图resnet的分布式训练卡住跑不动
Created by: LKKlein
问题
按照模型库中resnet动态图的README进行分布式训练,执行了python -m paddle.distributed.launch --selected_gpus=0,5,6,7 --log_dir ./mylog train.py --use_data_parallel 1
命令后,就一直卡在start data reader
,没有再输出任何内容。
输出结果
环境
分别尝试了两套环境
-
物理机环境: PaddlePaddle-gpu:1.8.1-post107 cuda:9.0 cudnn:7.6.5 nccl:2.5.6
-
docker环境 docker版本:1.8.1-gpu-cuda10.0-cudnn7