Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
MindSpore
docs
提交
82540aa2
D
docs
项目概览
MindSpore
/
docs
通知
4
Star
2
Fork
2
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
docs
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
82540aa2
编写于
7月 31, 2020
作者:
L
lichenever
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
update distributed training gpu doc
上级
be504c6a
变更
2
显示空白变更内容
内联
并排
Showing
2 changed file
with
6 addition
and
2 deletion
+6
-2
tutorials/source_zh_cn/advanced_use/distributed_training_gpu.md
...als/source_zh_cn/advanced_use/distributed_training_gpu.md
+5
-1
tutorials/tutorial_code/distributed_training/run_gpu.sh
tutorials/tutorial_code/distributed_training/run_gpu.sh
+1
-1
未找到文件。
tutorials/source_zh_cn/advanced_use/distributed_training_gpu.md
浏览文件 @
82540aa2
...
@@ -79,6 +79,10 @@ if __name__ == "__main__":
...
@@ -79,6 +79,10 @@ if __name__ == "__main__":
在GPU硬件平台上,MindSpore采用OpenMPI的
`mpirun`
进行分布式训练。下面以使用8张卡的分布式训练脚本为例,演示如何运行脚本:
在GPU硬件平台上,MindSpore采用OpenMPI的
`mpirun`
进行分布式训练。下面以使用8张卡的分布式训练脚本为例,演示如何运行脚本:
> 你可以在这里找到样例的运行脚本:
>
> <https://gitee.com/mindspore/docs/blob/r0.6/tutorials/tutorial_code/distributed_training/run_gpu.sh>。
```
bash
```
bash
#!/bin/bash
#!/bin/bash
...
@@ -93,7 +97,7 @@ echo "start training"
...
@@ -93,7 +97,7 @@ echo "start training"
mpirun
-n
8 pytest
-s
-v
./resnet50_distributed_training.py
>
train.log 2>&1 &
mpirun
-n
8 pytest
-s
-v
./resnet50_distributed_training.py
>
train.log 2>&1 &
```
```
脚本需要传入变量
`DATA_PATH`
,表示数据集的路径
,resnet50_distributed_training.py是适配GPU后的Python文件
。日志文件保存
`device`
目录下,关于Loss部分结果保存在
`train.log`
中。将loss值
`grep`
出来后,示例如下:
脚本需要传入变量
`DATA_PATH`
,表示数据集的路径
。此外,我们需要修改下
`resnet50_distributed_training.py`
文件,将
`device_target`
设置为
`GPU`
,并调用
`init("nccl")`
来使能NCCL
。日志文件保存
`device`
目录下,关于Loss部分结果保存在
`train.log`
中。将loss值
`grep`
出来后,示例如下:
```
```
epoch: 1 step: 1, loss is 2.3025854
epoch: 1 step: 1, loss is 2.3025854
...
...
tutorials/tutorial_code/distributed_training/run_gpu.sh
浏览文件 @
82540aa2
...
@@ -8,4 +8,4 @@ mkdir device
...
@@ -8,4 +8,4 @@ mkdir device
cp
./resnet50_distributed_training.py ./resnet.py ./device
cp
./resnet50_distributed_training.py ./resnet.py ./device
cd
./device
cd
./device
echo
"start training"
echo
"start training"
pytest
-s
-v
./resnet50_distributed_training.py
>
train.log 2>&1 &
mpirun
-n
8
pytest
-s
-v
./resnet50_distributed_training.py
>
train.log 2>&1 &
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录