Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
FluidDoc
提交
d335c67a
F
FluidDoc
项目概览
PaddlePaddle
/
FluidDoc
通知
7
Star
2
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
23
列表
看板
标记
里程碑
合并请求
111
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
F
FluidDoc
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
23
Issue
23
列表
看板
标记
里程碑
合并请求
111
合并请求
111
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
d335c67a
编写于
6月 28, 2018
作者:
T
typhoonzero
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
update
上级
666b4079
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
6 addition
and
7 deletion
+6
-7
source/user_guides/howto/training/cluster_howto.rst
source/user_guides/howto/training/cluster_howto.rst
+6
-7
未找到文件。
source/user_guides/howto/training/cluster_howto.rst
浏览文件 @
d335c67a
...
...
@@ -17,9 +17,9 @@ Fluid分布式训练使用手册
在数据并行模式的训练中,Fluid使用了两种通信模式,用于应对不同训练任务对分布式训练的要求,分别为RPC通信和Collective
通信。其中RPC通信方式使用 `gRPC <https://github.com/grpc/grpc/>`_ ,Collective通信方式使用
`NCCL2 <https://developer.nvidia.com/nccl)`_ 。下面是一个RPC通信和Collective通信的横向对比:
`NCCL2 <https://developer.nvidia.com/nccl>`_ 。
.. csv-table::
通信对比
.. csv-table::
下面是一个RPC通信和Collective通信的横向对比:
:header: "Feature", "Coolective", "RPC"
"Ring-Based通信", "Yes", "No"
...
...
@@ -39,9 +39,9 @@ Fluid分布式训练使用手册
使用parameter server方式的训练
---------------------------
使用"trainer" API,程序可以自动的通过识别环境变量决定是否已分布式方式执行
,需要在您的分布式环境中配置的环境变量包括:
使用"trainer" API,程序可以自动的通过识别环境变量决定是否已分布式方式执行
。
.. csv-table::
pserver模式环境变量
.. csv-table::
需要在您的分布式环境中配置的环境变量包括:
:header: "环境变量", "说明"
"PADDLE_TRAINING_ROLE", "当前进程的角色,可以是PSERVER或TRAINER"
...
...
@@ -115,16 +115,15 @@ parameter server上。如果需要使用其他,可以传入其他的方法,
t.transpile(trainer_id, pservers=pserver_endpoints, trainers=trainers, slice_var_up=False)
使用NCCL2通信方式的训练
--------------------
注NCCL2模式目前仅支持trainer API,NCCL2方式并没有很多可选项,也没有"transpiler",所以并没有底层API。
使用NCCL2方式同样需要配置每个节点的环境变量,此处与parameter server模式有所不同,并不需要启动独立的
parameter server的进程,只需要启动多个trainer进程即可
:
parameter server的进程,只需要启动多个trainer进程即可
。
.. csv-table::
pserver模式环境变量
.. csv-table::
NCCL2模式环境变量说明:
:header: "环境变量", "说明"
"PADDLE_TRAINER_IPS", "所有Trainer节点的IP列表,用逗号分隔"
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录