Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
MindSpore
docs
提交
eda306bf
D
docs
项目概览
MindSpore
/
docs
通知
4
Star
2
Fork
2
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
docs
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
eda306bf
编写于
5月 28, 2020
作者:
M
mindspore-ci-bot
提交者:
Gitee
5月 28, 2020
浏览文件
操作
浏览文件
下载
差异文件
!173 update english version distributed training tutorial
Merge pull request !173 from gziyan/add_en_distributed_training
上级
8ff0fdbf
46a14103
变更
2
展开全部
隐藏空白更改
内联
并排
Showing
2 changed file
with
171 addition
and
89 deletion
+171
-89
tutorials/source_en/advanced_use/distributed_training.md
tutorials/source_en/advanced_use/distributed_training.md
+169
-87
tutorials/source_zh_cn/advanced_use/distributed_training.md
tutorials/source_zh_cn/advanced_use/distributed_training.md
+2
-2
未找到文件。
tutorials/source_en/advanced_use/distributed_training.md
浏览文件 @
eda306bf
此差异已折叠。
点击以展开。
tutorials/source_zh_cn/advanced_use/distributed_training.md
浏览文件 @
eda306bf
...
...
@@ -181,7 +181,7 @@ def create_dataset(data_path, repeat_num=1, batch_size=32, rank_id=0, rank_size=
### 定义损失函数
自动并行以
展开Loss中的算子为粒度
,通过算法搜索得到最优并行策略,所以与单机训练不同的是,为了有更好的并行训练效果,损失函数建议使用小算子来实现。
自动并行以
算子为粒度切分模型
,通过算法搜索得到最优并行策略,所以与单机训练不同的是,为了有更好的并行训练效果,损失函数建议使用小算子来实现。
在Loss部分,我们采用
`SoftmaxCrossEntropyWithLogits`
的展开形式,即按照数学公式,将其展开为多个小算子进行实现,样例代码如下:
...
...
@@ -234,7 +234,7 @@ class SoftmaxCrossEntropyExpand(nn.Cell):
`context.set_auto_parallel_context()`
是配置并行训练参数的接口,必须在
`Model`
初始化前调用。如用户未指定参数,框架会自动根据并行模式为用户设置参数的经验值。如数据并行模式下,
`parameter_broadcast`
默认打开。主要参数包括:
-
`parallel_mode`
:分布式并行模式,默认为单机模式
`ParallelMode.STAND_ALONE`
。可选数据并行
`ParallelMode.DATA_PARALLEL`
及自动并行
`ParallelMode.AUTO_PARALLEL`
。
-
`param
ater_broadcast`
: 参数初始化广播开关,非数据并行模式下,默认值为
`Fals
e`
。
-
`param
eter_broadcast`
: 参数初始化广播开关,
`DATA_PARALLEL`
和
`HYBRID_PARALLEL`
模式下,默认值为
`Tru
e`
。
-
`mirror_mean`
:反向计算时,框架内部会将数据并行参数分散在多台机器的梯度值进行收集,得到全局梯度值后再传入优化器中更新。默认值为
`False`
,设置为True对应
`allreduce_mean`
操作,False对应
`allreduce_sum`
操作。
> `device_num`和`global_rank`建议采用默认值,框架内会调用HCCL接口获取。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录