update distributed_training.md

f94f0ed3 · leiyuning · 5a2a9bbf · f94f0ed3
隐藏空白更改
内联并排

Showing with 8 addition and 8 deletion

tutorials/source_zh_cn/advanced_use/distributed_training.md tutorials/source_zh_cn/advanced_use/distributed_training.md +8 -8

未找到文件。
--- a/tutorials/source_zh_cn/advanced_use/distributed_training.md
+++ b/tutorials/source_zh_cn/advanced_use/distributed_training.md
@@ -18,15 +18,15 @@
 <!-- /TOC -->
 ## 概述
-在深度学习中，数据集和参数量的规模越大，训练需的时间和硬件资源会随之增加，最后变成制约训练的1个瓶颈。分布式并行训练，可以降低对内存、计算性能等硬件的需求，是进行训练的1个重要优化手段。根据并行的原理及模式不同，业界主流的并行种类有以下几种：
+在深度学习中，当数据集和参数量的规模越来越大，训练所需的时间和硬件资源会随之增加，最后会变成制约训练的瓶颈。分布式并行训练，可以降低对内存、计算性能等硬件的需求，是进行训练的重要优化手段。根据并行的原理及模式不同，业界主流的并行类型有以下几种：
- 数据并行（Data Parallel）：对数据进行切分的一种并行模式，一般按照batch维度切分，将数据分配到各个计算单元（worker）中，进行模型计算。
+- 数据并行（Data Parallel）：对数据进行切分的并行模式，一般按照batch维度切分，将数据分配到各个计算单元（worker）中，进行模型计算。
- 模型并行（Model Parallel）：对模型进行切分的一种并行模式。MindSpore中支持层内模型并行模式，对参数切分后分配到各个计算单元中进行训练。
+- 模型并行（Model Parallel）：对模型进行切分的并行模式。MindSpore中支持层内模型并行模式，对参数切分后分配到各个计算单元中进行训练。
- 混合并行（Hybrid Parallel）：涵盖数据并行和模型并行的一种并行模式。
+- 混合并行（Hybrid Parallel）：涵盖数据并行和模型并行的并行模式。
 当前MindSpore也提供分布式并行训练的功能。它支持了多种模式包括：
 - `DATA_PARALLEL`：数据并行模式。
- `AUTO_PARALLEL`：自动并行模式，融合了数据并行、模型并行及混合并行的一种分布式并行模式，可以自动建立代价模型，为用户选择一种并行模式。其中，代价模型指围绕Ascend 910芯片基于内存的计算开销和通信开销对训练时间建模，并设计高效的算法找到训练时间较短的并行策略。
+- `AUTO_PARALLEL`：自动并行模式，融合了数据并行、模型并行及混合并行的1种分布式并行模式，可以自动建立代价模型，为用户选择1种并行模式。其中，代价模型指围绕Ascend 910芯片基于内存的计算开销和通信开销对训练时间建模，并设计高效的算法找到训练时间较短的并行策略。
 本篇教程我们主要讲解如何在MindSpore上通过数据并行及自动并行模式训练ResNet-50网络。
 > 本例面向Ascend 910 AI处理器硬件平台，暂不支持CPU和GPU场景。
@@ -38,7 +38,7 @@
 在裸机环境（对比云上环境，即本地有Ascend 910 AI 处理器）进行分布式训练时，需要配置当前多卡环境的组网信息文件。如果使用华为云环境，因为云服务本身已经做好了配置，可以跳过本小节。
-以Ascend 910 AI处理器为例，一个8卡环境的json配置文件示例如下，本样例将该配置文件命名为rank_table.json。
+以Ascend 910 AI处理器为例，1个8卡环境的json配置文件示例如下，本样例将该配置文件命名为rank_table.json。
 ```json
 {
@@ -105,7 +105,7 @@ if __name__ == "__main__":
 其中，  
 - `mode=context.GRAPH_MODE`：使用分布式训练需要指定运行模式为图模式（PyNative模式不支持并行）。
 - `enable_hccl=True`：使能HCCL通信。
- `device_id`：卡物理序号，即卡所在机器中的实际序号。
+- `device_id`：卡的物理序号，即卡所在机器中的实际序号。
 - `init()`：完成分布式训练初始化操作。
 ## 数据并行模式加载数据集
@@ -260,7 +260,7 @@ def test_train_cifar(num_classes=10, epoch_size=10):
 ## 运行脚本
 上述已将训练所需的脚本编辑好了，接下来通过命令调用对应的脚本。
-目前MindSpore分布式执行采用单卡单进程运行方式，即每张卡上运行一个进程，进程数量与使用的卡的数量一致。每个进程创建一个目录，用来保存日志信息以及算子编译信息。下面以使用8张卡的分布式训练脚本为例，演示如何运行脚本：
+目前MindSpore分布式执行采用单卡单进程运行方式，即每张卡上运行1个进程，进程数量与使用的卡的数量一致。每个进程创建1个目录，用来保存日志信息以及算子编译信息。下面以使用8张卡的分布式训练脚本为例，演示如何运行脚本：
 ```bash
 #!/bin/bash