slurm分布式训练使用nccl2会卡在run
Created by: yxzero
使用model里面的transformer在集群训练时,发现任务会卡在exe.run,是否现在分布式训练方式变了,需要改成下图paddle文档上的样子么?
附slurm任务:http://yq01-sys-hic-v100-box-a225-0015.yq01.baidu.com:8388/v1/slurmjobs/47690/workspace
Created by: yxzero
使用model里面的transformer在集群训练时,发现任务会卡在exe.run,是否现在分布式训练方式变了,需要改成下图paddle文档上的样子么?
附slurm任务:http://yq01-sys-hic-v100-box-a225-0015.yq01.baidu.com:8388/v1/slurmjobs/47690/workspace