Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
BaiXuePrincess
PaddleRec
提交
29142e50
P
PaddleRec
项目概览
BaiXuePrincess
/
PaddleRec
与 Fork 源项目一致
Fork自
PaddlePaddle / PaddleRec
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleRec
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
29142e50
编写于
7月 27, 2020
作者:
W
wuzhihua
提交者:
GitHub
7月 27, 2020
浏览文件
操作
浏览文件
下载
差异文件
Merge pull request #154 from MrChengmo/fix_dis_doc
Fix some mistake of distribute_train.md
上级
e95ea8fc
fdfce57e
变更
4
显示空白变更内容
内联
并排
Showing
4 changed file
with
8 addition
and
8 deletion
+8
-8
core/engine/cluster/cloud/k8s_cpu_job.sh.template
core/engine/cluster/cloud/k8s_cpu_job.sh.template
+1
-1
core/engine/cluster/cloud/k8s_job.sh.template
core/engine/cluster/cloud/k8s_job.sh.template
+1
-1
core/engine/cluster/cloud/mpi_job.sh.template
core/engine/cluster/cloud/mpi_job.sh.template
+1
-1
doc/distributed_train.md
doc/distributed_train.md
+5
-5
未找到文件。
core/engine/cluster/cloud/k8s_cpu_job.sh.template
浏览文件 @
29142e50
...
...
@@ -9,7 +9,7 @@ job_name=<$ JOB_NAME $>
group_name
=
"<
$
GROUP_NAME
$>
"
job_version
=
"paddle-fluid-v1.7.1"
start_cmd
=
"<
$
START_CMD
$>
"
wall_time
=
"
1
0:00:00"
wall_time
=
"
200
0:00:00"
k8s_priority
=
<
$
K8S_PRIORITY
$>
k8s_trainers
=
<
$
K8S_TRAINERS
$>
...
...
core/engine/cluster/cloud/k8s_job.sh.template
浏览文件 @
29142e50
...
...
@@ -9,7 +9,7 @@ job_name=<$ JOB_NAME $>
group_name
=
"<
$
GROUP_NAME
$>
"
job_version
=
"paddle-fluid-v1.7.1"
start_cmd
=
"<
$
START_CMD
$>
"
wall_time
=
"
1
0:00:00"
wall_time
=
"
200
0:00:00"
k8s_priority
=
<
$
K8S_PRIORITY
$>
k8s_trainers
=
<
$
K8S_TRAINERS
$>
...
...
core/engine/cluster/cloud/mpi_job.sh.template
浏览文件 @
29142e50
...
...
@@ -9,7 +9,7 @@ job_name=<$ JOB_NAME $>
group_name
=
<
$
GROUP_NAME
$>
job_version
=
"paddle-fluid-v1.7.1"
start_cmd
=
"<
$
START_CMD
$>
"
wall_time
=
"2:00:00"
wall_time
=
"2
000
:00:00"
# 你的ak/sk(可在paddlecloud web页面【个人中心】处获取)
ak
=
<
$
AK
$>
...
...
doc/distributed_train.md
浏览文件 @
29142e50
...
...
@@ -35,9 +35,9 @@
分布式运行首先需要更改
`config.yaml`
,主要调整以下内容:
-
workspace: 调整为在远程点运行时的工作目录,一般设置为
`"./"`
即可
-
runner_class: 从单机的"train"调整为"cluster_train",单机训练->分布式训练(例外情况,k8s上单机单卡训练仍然为train)
-
fleet_mode: 选
则参数服务器模式(ps),抑或
GPU的all-reduce模式(collective)
-
workspace: 调整为在远程
节
点运行时的工作目录,一般设置为
`"./"`
即可
-
runner_class: 从单机的"train"调整为"cluster_train",单机训练->分布式训练(例外情况,k8s上单机单卡训练仍然为train
,后续支持
)
-
fleet_mode: 选
择参数服务器模式(ps),或者
GPU的all-reduce模式(collective)
-
distribute_strategy: 可选项,选择分布式训练的策略,目前只在参数服务器模式下生效,可选项:
`sync、asycn、half_async、geo`
配置选项具体参数,可以参考
[
yaml配置说明
](
./yaml.md
)
...
...
@@ -306,7 +306,7 @@ dataset:
-
name
:
dataloader_train
batch_size
:
2
type
:
DataLoader
data_path
:
"
{workspace}/
train_data
"
data_path
:
"
{workspace}/
afs/挂载数据文件夹的路径
"
sparse_slots
:
"
click
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26"
dense_slots
:
"
dense_var:13"
...
...
@@ -390,7 +390,7 @@ dataset:
-
name
:
dataloader_train
batch_size
:
2
type
:
DataLoader
data_path
:
"
{workspace}/
train_data
"
data_path
:
"
{workspace}/
afs/挂载数据文件夹的路径
"
sparse_slots
:
"
click
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26"
dense_slots
:
"
dense_var:13"
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录