Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • Paddle
  • Issue
  • #20637

P
Paddle
  • 项目概览

PaddlePaddle / Paddle
大约 2 年 前同步成功

通知 2325
Star 20933
Fork 5424
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 1423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
P
Paddle
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 1,423
    • Issue 1,423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
    • 合并请求 543
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
已关闭
开放中
Opened 10月 15, 2019 by saxon_zh@saxon_zhGuest

分布式训练中出现 关于分布式通信的错误 SendRPC name:[NCCLID], ep:[10.255.66.20:9184], status:[-1] meets grpc error, error_code:14 error_message:Socket closed error_details

Created by: bit-pku-zdf

  • 版本、环境信息:    1)PaddlePaddle版本:1.5.1    3)GPU:孔明集群训练,cuda 9.0,cudnn 7.0    4)系统环境:孔明集群gpu p40
  • 训练信息    1)多机训练,采用 fluid.DistributeTranspiler的nccl模式(allreduce分布式方式)进行训练 2)错误信息:

worker_endpoints:10.255.76.23:9184,10.255.66.20:9184 trainers_num:2 current_endpoint:10.255.76.23:9184 trainer_id:0 yq01-sys-hic-p40-0030:19866:19866 [0] NCCL INFO NCCL_IB_DISABLE set by environment to 1. yq01-sys-hic-p40-0030:19866:19866 [0] NCCL INFO Using internal Network Socket yq01-sys-hic-p40-0030:19866:19866 [0] NCCL INFO NET : Using interface eth2:10.255.76.23<0> yq01-sys-hic-p40-0030:19866:19866 [0] NCCL INFO NET/Socket : 1 interfaces found I1015 12:24:49.366034 19866 rpc_client.h:101] init rpc client with trainer_id 0 F1015 12:24:49.371834 27437 grpc_client.cc:424] SendRPC name:[NCCLID], ep:[10.255.66.20:9184], status:[-1] meets grpc error, error_code:14 error_message:Socket closed error_details: *** Check failure stack trace: *** @ 0x7fc3573f355d google::LogMessage::Fail() @ 0x7fc3573f700c google::LogMessage::SendToLog() @ 0x7fc3573f3083 google::LogMessage::Flush() @ 0x7fc3573f851e google::LogMessageFatal::~LogMessageFatal() @ 0x7fc358d2a61a paddle::operators::distributed::GRPCClient::Proceed() @ 0x7fc377bb88a0 execute_native_thread_routine @ 0x7fc3ff6841c3 start_thread @ 0x7fc3fecac12d __clone @ (nil) (unknown)

关于nccl的相关参数设置(通过shell脚本export)

export NCCL_DEBUG=INFO export NCCL_IB_DISABLE=1 #export NCCL_IB_GDR_LEVEL=4 export NCCL_IB_GID_INDEX=3 #export NCCL_SOCKET_IFNAME=eth2

export NCCL_IB_CUDA_SUPPORT=1

export NCCL_P2P_DISABLE=1

以及这个错误并不稳定出现,例如今天连续提交5次任务,前四次出现了该错误,第5次没有出现过这个错误,能够正常训练(5次提交的机器的ip是一样的 10.255.76.23 和10.255.66.20) 且在孔明集群中训练

指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/Paddle#20637
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7