Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
MindSpore
docs
提交
2c80b9c4
D
docs
项目概览
MindSpore
/
docs
通知
4
Star
2
Fork
2
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
docs
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
2c80b9c4
编写于
5月 25, 2020
作者:
M
mindspore-ci-bot
提交者:
Gitee
5月 25, 2020
浏览文件
操作
浏览文件
下载
差异文件
!158 fix card description in tutorial
Merge pull request !158 from gziyan/fix_card_description
上级
6532d89f
e2371fac
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
5 addition
and
5 deletion
+5
-5
tutorials/source_zh_cn/advanced_use/distributed_training.md
tutorials/source_zh_cn/advanced_use/distributed_training.md
+5
-5
未找到文件。
tutorials/source_zh_cn/advanced_use/distributed_training.md
浏览文件 @
2c80b9c4
...
...
@@ -89,7 +89,7 @@
-
`server_num`
表示机器数量,
`server_id`
表示本机IP地址。
-
`device_num`
、
`para_plane_nic_num`
及
`instance_count`
表示卡的数量。
-
`rank_id`
表示卡逻辑序号,固定从0开始编号,
`device_id`
表示卡物理序号,即卡所在机器中的实际序号。
-
`device_ip`
表示
网卡
IP地址,可以在当前机器执行指令
`cat /etc/hccn.conf`
,
`address_x`
的键值就是网卡IP地址。
-
`device_ip`
表示
集成网卡的
IP地址,可以在当前机器执行指令
`cat /etc/hccn.conf`
,
`address_x`
的键值就是网卡IP地址。
-
`para_plane_nic_name`
对应网卡名称。
...
...
@@ -98,7 +98,7 @@
MindSpore分布式并行训练的通信使用了华为集合通信库
`Huawei Collective Communication Library`
(以下简称HCCL),可以在Ascend AI处理器配套的软件包中找到。同时
`mindspore.communication.management`
中封装了HCCL提供的集合通信接口,方便用户配置分布式信息。
> HCCL实现了基于Ascend AI处理器的多机多卡通信,有一些使用限制,我们列出使用分布式服务常见的,详细的可以查看HCCL对应的使用文档。
> - 单机场景下支持1、2、4、8卡设备集群,多机场景下支持8*n卡设备集群。
> - 每台机器的0-3卡和4-7卡各为1个组网,2卡和4卡训练时
网
卡必须相连且不支持跨组网创建集群。
> - 每台机器的0-3卡和4-7卡各为1个组网,2卡和4卡训练时卡必须相连且不支持跨组网创建集群。
> - 服务器硬件架构及操作系统需要是SMP(Symmetrical Multi-Processing,对称多处理器)处理模式。
下面是调用集合通信库样例代码:
...
...
@@ -169,7 +169,7 @@ def create_dataset(data_path, repeat_num=1, batch_size=32, rank_id=0, rank_size=
return
data_set
```
其中,与单机不同的是,在数据集接口需要传入
`num_shards`
和
`shard_id`
参数,分别对应
网卡
数量和逻辑序号,建议通过HCCL接口获取:
其中,与单机不同的是,在数据集接口需要传入
`num_shards`
和
`shard_id`
参数,分别对应
卡的
数量和逻辑序号,建议通过HCCL接口获取:
-
`get_rank`
:获取当前设备在集群中的ID。
-
`get_group_size`
:获取集群数量。
...
...
@@ -331,8 +331,8 @@ cd ../
其中必要的环境变量有,
-
`MINDSPORE_HCCL_CONFIG_PATH`
:组网信息文件的路径。
-
`DEVICE_ID`
:当前
网
卡在机器上的实际序号。
-
`RANK_ID`
: 当前
网
卡的逻辑序号。
-
`DEVICE_ID`
:当前卡在机器上的实际序号。
-
`RANK_ID`
: 当前卡的逻辑序号。
其余环境变量请参考安装教程中的配置项。
运行时间大约在5分钟内,主要时间是用于算子的编译,实际训练时间在20秒内。用户可以通过
`ps -ef | grep pytest`
来监控任务进程。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录