Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
FluidDoc
提交
993dfd79
F
FluidDoc
项目概览
PaddlePaddle
/
FluidDoc
通知
10
Star
2
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
23
列表
看板
标记
里程碑
合并请求
111
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
F
FluidDoc
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
23
Issue
23
列表
看板
标记
里程碑
合并请求
111
合并请求
111
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
993dfd79
编写于
6月 26, 2018
作者:
Y
Yancey1989
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
move cluster quick_start to howto folder
上级
2f594956
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
20 addition
and
24 deletion
+20
-24
source/beginners_guide/quick_start/quick_start.rst
source/beginners_guide/quick_start/quick_start.rst
+0
-1
source/user_guides/howto/training/cluster_quick_start.md
source/user_guides/howto/training/cluster_quick_start.md
+20
-23
未找到文件。
source/beginners_guide/quick_start/quick_start.rst
浏览文件 @
993dfd79
...
@@ -15,4 +15,3 @@ PaddlePaddle Fluid 是PaddlePaddle的新版本。他使用类似于编程语言
...
@@ -15,4 +15,3 @@ PaddlePaddle Fluid 是PaddlePaddle的新版本。他使用类似于编程语言
fit_a_line/index.md
fit_a_line/index.md
recognize_digits/index.md
recognize_digits/index.md
cluster/index.md
\ No newline at end of file
source/
beginners_guide/quick_start/cluster/index
.md
→
source/
user_guides/howto/training/cluster_quick_start
.md
浏览文件 @
993dfd79
```
eval_rst
```
eval_rst
.. _
quick_start_cluster
:
.. _
cluster_quick_start
:
```
```
# 分布式训练快速开始
# 分布式训练快速开始
...
@@ -16,18 +16,16 @@
...
@@ -16,18 +16,16 @@
在启动集群训练脚本时,需要在不同的节点上指定不同的环境变量,具体如下:
在启动集群训练脚本时,需要在不同的节点上指定不同的环境变量,具体如下:
环境变量 | 类型 | 样例 | 描述
| 环境变量 | 数据类型 | 样例 | 描述 |
-- | -- | -- | -- | --
| -- | -- | -- | -- |
PADDLE_TRAINING_ROLE | str | PSERVER,TRAINER | 训练节点的角色
| PADDLE_TRAINING_ROLE | str | PSERVER,TRAINER | 训练节点的角色 |
PADDLE_PSERVER_IPS | str | ps0.paddlepaddle.com,ps1.paddlepaddle.com... | 所有 pserver 节点的 IP 地址或 hostname, 用","分隔
| PADDLE_PSERVER_IPS | str | ps0.paddlepaddle.com,ps1.paddlepaddle.com... | 所有 pserver 节点的 IP 地址或 hostname, 用","分隔 |
PADDLE_PSERVER_PORT | int | 6174 | 6174 | pserver 节点监听的端口
| PADDLE_PSERVER_PORT | int | 6174 | pserver 节点监听的端口 |
PADDLE_TRAINERS | int | 2 | - | 训练任务中 trainer 节点的数量
| PADDLE_TRAINERS | int | 2 | 训练任务中 trainer 节点的数量 |
PADDLE_CURRENT_IP | str | ps0.paddlepaddle.com | - | 当前 pserver 节点的 IP 地址或 hostanme
| PADDLE_CURRENT_IP | str | ps0.paddlepaddle.com | 当前 pserver 节点的 IP 地址或 hostanme |
PADDLE_TRAINER_ID | int | 0 | 0 | 当前 trainer 节点的唯一 ID, 取值范围为从0开始到PADDLE_TRAINERS-1
| PADDLE_TRAINER_ID | int | 0 | 当前 trainer 节点的唯一 ID, 取值范围为从0开始到PADDLE_TRAINERS-1 |
### 如何启动
### 样例代码
1.
样例代码
将下面程序代码保存为
`fluid_dist.py`
将下面程序代码保存为
`fluid_dist.py`
...
@@ -88,21 +86,20 @@ def train(use_cuda, train_program):
...
@@ -88,21 +86,20 @@ def train(use_cuda, train_program):
train
(
False
,
train_program
)
train
(
False
,
train_program
)
```
```
2.
启动trainer节点和pserver节点
### 启动trainer节点和pserver节点
节点 | 启动命令
-- | -- | --
ps0.paddlepaddle.com | PADDLE_TRAINING_ROLE=PSERVER PADDLE_CURRENT_IP=ps0.paddlepaddle.com PADDLE_PSERVER_IPS=ps0.paddlepaddle.com,ps1.paddlepaddle.com PADDLE_TRAINERS=2 PADDLE_PSERVER_PORT=6174 python fluid_dist.py | 启动 pserver 节点
ps1.paddlepaddle.com | PADDLE_TRAINING_ROLE=PSERVER PADDLE_CURRENT_IP=ps1.paddlepaddle.com PADDLE_PSERVER_IPS=ps0.paddlepaddle.com,ps1.paddlepaddle.com PADDLE_TRAINERS=2 PADDLE_PSERVER_PORT=6174 python fluid_dist.py | 启动 pserver 节点
trainer0.paddlepaddle.com | PADDLE_TRAINING_ROLE=TRAINER PADDLE_CURRENT_IP=ps0.paddlepaddle.com PADDLE_PSERVER_IPS=ps0.paddlepaddle.com,ps1.paddlepaddle.com PADDLE_TRAINERS=2 PADDLE_TRAINER_ID=0 PADDLE_PSERVER_PORT=6174 python fluid_dist.py | 启动第0号 trainer 节点
trainer1.paddlepaddle.com | PADDLE_TRAINING_ROLE=TRAINER PADDLE_CURRENT_IP=ps0.paddlepaddle.com PADDLE_PSERVER_IPS=ps0.paddlepaddle.com,ps1.paddlepaddle.com PADDLE_TRAINERS=2 PADDLE_TRAINER_ID=1 PADDLE_PSERVER_PORT=6174 python fluid_dist.py | 启动第1号 trainer 节点
| 启动节点 | 启动命令 | 说明 |
| -- | -- | -- |
| ps0.paddlepaddle.com | PADDLE_TRAINING_ROLE=PSERVER PADDLE_CURRENT_IP=ps0.paddlepaddle.com PADDLE_PSERVER_IPS=ps0.paddlepaddle.com,ps1.paddlepaddle.com PADDLE_TRAINERS=2 PADDLE_PSERVER_PORT=6174 python fluid_dist.py | 启动 pserver 节点 |
| ps1.paddlepaddle.com | PADDLE_TRAINING_ROLE=PSERVER PADDLE_CURRENT_IP=ps1.paddlepaddle.com PADDLE_PSERVER_IPS=ps0.paddlepaddle.com,ps1.paddlepaddle.com PADDLE_TRAINERS=2 PADDLE_PSERVER_PORT=6174 python fluid_dist.py | 启动 pserver 节点 |
| trainer0.paddlepaddle.com | PADDLE_TRAINING_ROLE=TRAINER PADDLE_CURRENT_IP=ps0.paddlepaddle.com PADDLE_PSERVER_IPS=ps0.paddlepaddle.com,ps1.paddlepaddle.com PADDLE_TRAINERS=2 PADDLE_TRAINER_ID=0 PADDLE_PSERVER_PORT=6174 python fluid_dist.py | 启动第0号 trainer 节点 |
| trainer1.paddlepaddle.com | PADDLE_TRAINING_ROLE=TRAINER PADDLE_CURRENT_IP=ps0.paddlepaddle.com PADDLE_PSERVER_IPS=ps0.paddlepaddle.com,ps1.paddlepaddle.com PADDLE_TRAINERS=2 PADDLE_TRAINER_ID=1 PADDLE_PSERVER_PORT=6174 python fluid_dist.py | 启动第1号 trainer 节点 |
**注意**
**注意**
-
需要先启动pserver节点再启动trainer节点
-
需要先启动pserver节点再启动trainer节点
-
看到trainer节点输出如下日志表示训练任务执行正确
-
看到trainer节点输出如下日志表示训练任务执行正确
```
bash
```
bash
step 10, loss:
[
258.2326202392578]
step 10, loss:
[
258.2326202392578]
```
```
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录