Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
Oneflow-Inc
OneFlow-Benchmark
提交
32ab5cdf
O
OneFlow-Benchmark
项目概览
Oneflow-Inc
/
OneFlow-Benchmark
上一次同步 接近 3 年
通知
1
Star
92
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
O
OneFlow-Benchmark
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
32ab5cdf
编写于
7月 10, 2020
作者:
L
liujuncheng
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Naive multi nodes
上级
643a4248
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
26 addition
and
5 deletion
+26
-5
Classification/cnns/README.md
Classification/cnns/README.md
+26
-5
未找到文件。
Classification/cnns/README.md
浏览文件 @
32ab5cdf
...
...
@@ -179,7 +179,32 @@ Optimizer 配置
#### 多机分布式训练如何配置?
TODO:待补充,多机的配置方式,补充多机的脚本;
使用多机多卡训练,首先要确保每台服务器上都安装了相同版本的 OneFlow,以及相同数据集路径在各个服务器上都可以访问,复制或者使用NFS均可。为启动命令添加以下参数
-
--num_nodes 表示要使用的服务器的数量
-
--node_ips 是每个服务器的 ip 地址,其中第一个将会作为 master
例如:
```
python
python3
of_cnn_train_val
.
py
\
--
train_data_dir
=
$
DATA_ROOT
/
train
\
--
train_data_part_num
=
256
\
--
val_data_dir
=
$
DATA_ROOT
/
validation
\
--
val_data_part_num
=
256
\
--
num_nodes
=
2
\
--
node_ips
=
192.168
.
1.15
,
192.168
.
1.16
\
--
gpu_num_per_node
=
4
\
--
model_update
=
"momentum"
\
--
learning_rate
=
0.256
\
--
loss_print_every_n_iter
=
1
\
--
batch_size_per_device
=
64
\
--
val_batch_size_per_device
=
125
\
--
num_epoch
=
90
\
--
model
=
"resnet50"
```
将本代码库复制到各个服务器,并在每台服务器执行相同的启动命令,即可开始多机训练。
更进一步介绍链接:
分布式策略
...
...
@@ -195,10 +220,6 @@ TODO:shengjian,先略。
### 验证 Validation
#### 如何进行独立的验证过程?
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录