From d1cef4a5787d4981192706aeb812b3b2f2f2dfee Mon Sep 17 00:00:00 2001
From: sibo2rr <1415419833@qq.com>
Date: Mon, 29 Nov 2021 13:01:37 +0800
Subject: [PATCH] add space between english/number and chinese in faq dir

---
 docs/zh_CN/faq_series/faq_2020_s1.md     | 242 +++++++++++------------
 docs/zh_CN/faq_series/faq_2021_s1.md     | 186 ++++++++---------
 docs/zh_CN/faq_series/faq_2021_s2.md     | 126 ++++++------
 docs/zh_CN/faq_series/faq_selected_30.md | 122 ++++++------
 4 files changed, 338 insertions(+), 338 deletions(-)
diff --git a/docs/zh_CN/faq_series/faq_2020_s1.md b/docs/zh_CN/faq_series/faq_2020_s1.md
index c6bfb62a..e443f732 100644
--- a/docs/zh_CN/faq_series/faq_2020_s1.md
+++ b/docs/zh_CN/faq_series/faq_2020_s1.md
@@ -1,42 +1,42 @@
-# 图像分类常见问题汇总 - 2020 第1季
+# 图像分类常见问题汇总 - 2020 第 1 季
 
 
 ## 目录
-* [1. 第1期](#1)(2020.11.03)
-* [2. 第2期](#2)(2020.11.11)
-* [3. 第3期](#3)(2020.11.18)
-* [4. 第4期](#4)(2020.12.07)
-* [5. 第5期](#5)(2020.12.17)
-* [6. 第6期](#6)(2020.12.30)
+* [1. 第 1 期](#1)(2020.11.03)
+* [2. 第 2 期](#2)(2020.11.11)
+* [3. 第 3 期](#3)(2020.11.18)
+* [4. 第 4 期](#4)(2020.12.07)
+* [5. 第 5 期](#5)(2020.12.17)
+* [6. 第 6 期](#6)(2020.12.30)
 
 <a name="1"></a>
-## 第1期
+## 第 1 期
 
-### Q1.1: PaddleClas可以用来做什么?
-**A**：PaddleClas是飞桨为工业界和学术界所准备的一个图像分类任务的工具集，助力使用者训练出更好的视觉模型和应用落地。PaddleClas提供了基于图像分类的模型训练、评估、预测、部署全流程的服务，方便大家更加高效地学习图像分类。具体地，PaddleClas中包含如下一些特性。
+### Q1.1: PaddleClas 可以用来做什么?
+**A**：PaddleClas 是飞桨为工业界和学术界所准备的一个图像分类任务的工具集，助力使用者训练出更好的视觉模型和应用落地。PaddleClas 提供了基于图像分类的模型训练、评估、预测、部署全流程的服务，方便大家更加高效地学习图像分类。具体地，PaddleClas 中包含如下一些特性。
 
-* PaddleClas提供了36个系列的分类网络结构(ResNet, ResNet_vd, MobileNetV3, Res2Net, HRNet等)和训练配置，175个预训练模型和性能评估与预测，供大家选择并使用。
-* PaddleClas提供了TensorRT预测、python inference、c++ inference、Paddle-Lite预测部署、PaddleServing、PaddleHub等多种预测部署推理方案，在方便在多种环境中进行部署推理。
-* PaddleClas提供了一种简单的SSLD知识蒸馏方案，基于该方案蒸馏模型的识别准确率普遍提升3%以上。
-* PaddleClas支持AutoAugment、Cutout、Cutmix等8种数据增广算法详细介绍、代码复现和在统一实验环境下的效果评估。
-* PaddleClas支持在Windows/Linux/MacOS环境中基于CPU/GPU进行使用。
+* PaddleClas 提供了 36 个系列的分类网络结构(ResNet, ResNet_vd, MobileNetV3, Res2Net, HRNet 等)和训练配置，175 个预训练模型和性能评估与预测，供大家选择并使用。
+* PaddleClas 提供了 TensorRT 预测、python inference、c++ inference、Paddle-Lite 预测部署、PaddleServing、PaddleHub 等多种预测部署推理方案，在方便在多种环境中进行部署推理。
+* PaddleClas 提供了一种简单的 SSLD 知识蒸馏方案，基于该方案蒸馏模型的识别准确率普遍提升 3% 以上。
+* PaddleClas 支持 AutoAugment、Cutout、Cutmix 等 8 种数据增广算法详细介绍、代码复现和在统一实验环境下的效果评估。
+* PaddleClas 支持在 Windows/Linux/MacOS 环境中基于 CPU/GPU 进行使用。
 
-### Q1.2: ResNet系列模型是什么？有哪些模型？为什么在服务器端如此推荐ResNet系列模型？
-**A**: ResNet中创新性地引入了残差结构，通过堆叠多个残差结构从而构建了ResNet网络。实验表明使用残差块可以有效地提升收敛速度和精度，PaddleClas中，ResNet从小到达，依次有包含18、34、50、101、152、200层的ResNet结构，ResNet系列模型于2015年被提出，在不同的应用场景中，如分类、检测、分割等，都已经验证过其有效性，业界也早已对其进行了大量优化，该系列模型在速度和精度方面都有着非常明显的优势，对基于TensorRT以及FP16的预测支持得也很好，因而推荐大家使用ResNet系列模型；由于其模型所占存储相对较大，因此常用于服务器端。更多关于ResNet模型的介绍可以参考论文[Deep Residual Learning for Image Recognition](https://arxiv.org/abs/1512.03385)。
+### Q1.2: ResNet 系列模型是什么？有哪些模型？为什么在服务器端如此推荐 ResNet 系列模型？
+**A**: ResNet 中创新性地引入了残差结构，通过堆叠多个残差结构从而构建了 ResNet 网络。实验表明使用残差块可以有效地提升收敛速度和精度，PaddleClas 中，ResNet 从小到达，依次有包含 18、34、50、101、152、200 层的 ResNet 结构，ResNet 系列模型于 2015 年被提出，在不同的应用场景中，如分类、检测、分割等，都已经验证过其有效性，业界也早已对其进行了大量优化，该系列模型在速度和精度方面都有着非常明显的优势，对基于 TensorRT 以及 FP16 的预测支持得也很好，因而推荐大家使用 ResNet 系列模型；由于其模型所占存储相对较大，因此常用于服务器端。更多关于 ResNet 模型的介绍可以参考论文 [Deep Residual Learning for Image Recognition](https://arxiv.org/abs/1512.03385)。
 
-### Q1.3: ResNet_vd和ResNet、ResNet_vc结构有什么区别呢？
+### Q1.3: ResNet_vd 和 ResNet、ResNet_vc 结构有什么区别呢？
 **A**:
-ResNet_va至vd的结构如下图所示，ResNet最早提出时为va结构，在降采样残差模块这个部分，在左边的特征变换通路中(Path A)，第一个1x1卷积部分就行了降采样，从而导致信息丢失（卷积的kernel size为1，stride为2，输入特征图中 有部分特征没有参与卷积的计算）；在vb结构中，把降采样的步骤从最开始的第一个1x1卷积调整到中间的3x3卷积中，从而避免了信息丢失的问题，PaddleClas中的ResNet模型默认就是ResNet_vb；vc结构则是将最开始这个7x7的卷积变成3个3x3的卷积，在感受野不变的情况下，计算量和存储大小几乎不变，而且实验证明精度相对于vb结构有所提升；vd结构是修改了降采样残差模块右边的特征通路(Path B)。把降采样的过程由平均池化这个操作去替代了，这一系列的改进(va->vd)，几乎没有带来新增的预测耗时，结合适当的训练策略，比如说标签平滑以及mixup数据增广，精度可以提升高达2.7%。
+ResNet_va 至 vd 的结构如下图所示，ResNet 最早提出时为 va 结构，在降采样残差模块这个部分，在左边的特征变换通路中(Path A)，第一个 1x1 卷积部分就行了降采样，从而导致信息丢失（卷积的 kernel size 为 1，stride 为 2，输入特征图中 有部分特征没有参与卷积的计算）；在 vb 结构中，把降采样的步骤从最开始的第一个 1x1 卷积调整到中间的 3x3 卷积中，从而避免了信息丢失的问题，PaddleClas 中的 ResNet 模型默认就是 ResNet_vb；vc 结构则是将最开始这个 7x7 的卷积变成 3 个 3x3 的卷积，在感受野不变的情况下，计算量和存储大小几乎不变，而且实验证明精度相对于 vb 结构有所提升；vd 结构是修改了降采样残差模块右边的特征通路(Path B)。把降采样的过程由平均池化这个操作去替代了，这一系列的改进(va->vd)，几乎没有带来新增的预测耗时，结合适当的训练策略，比如说标签平滑以及 mixup 数据增广，精度可以提升高达 2.7%。
 
 <div align="center">
     <img src="../../images/faq/ResNet_vabcd_structure.png" width="800">
 </div>
 
-### Q1.4 如果确定使用ResNet系列模型，怎么根据实际的场景需求选用不同的模型呢？
+### Q1.4 如果确定使用 ResNet 系列模型，怎么根据实际的场景需求选用不同的模型呢？
 **A**:
 
-ResNet系列模型中，相比于其他模型，ResNet_vd模型在预测速度几乎不变的情况下，精度有非常明显的提升，因此推荐大家使用ResNet_vd系列模型。
-[ResNet及其vd系列模型文档](../models/ResNet_and_vd.md)中给出了batch size=4的情况下，在T4 GPU上，不同模型的的预测耗时、FLOPs、Params与精度的变化曲线，可以根据自己自己的实际部署场景中的需求，去选择合适的模型，如果希望模型存储大小尽可能小或者预测速度尽可能快，则可以使用ResNet18_vd模型，如果希望获得尽可能高的精度，则建议使用ResNet152_vd或者ResNet200_vd模型。更多关于ResNet系列模型的介绍可以参考文档：[ResNet及其vd系列模型文档](../models/ResNet_and_vd.md)。
+ResNet 系列模型中，相比于其他模型，ResNet_vd 模型在预测速度几乎不变的情况下，精度有非常明显的提升，因此推荐大家使用 ResNet_vd 系列模型。
+[ResNet 及其 vd 系列模型文档](../models/ResNet_and_vd.md)中给出了 batch size=4 的情况下，在 T4 GPU 上，不同模型的的预测耗时、FLOPs、Params 与精度的变化曲线，可以根据自己自己的实际部署场景中的需求，去选择合适的模型，如果希望模型存储大小尽可能小或者预测速度尽可能快，则可以使用 ResNet18_vd 模型，如果希望获得尽可能高的精度，则建议使用 ResNet152_vd 或者 ResNet200_vd 模型。更多关于 ResNet 系列模型的介绍可以参考文档：[ResNet 及其 vd 系列模型文档](../models/ResNet_and_vd.md)。
 
 * 精度-预测速度变化曲线
 
@@ -44,97 +44,97 @@ ResNet系列模型中，相比于其他模型，ResNet_vd模型在预测速度
     <img src="../../images/models/T4_benchmark/t4.fp32.bs4.ResNet.png" width="800">
 </div>
 
-* 精度-params变化曲线
+* 精度-params 变化曲线
 
 <div align="center">
     <img src="../../images/models/T4_benchmark/t4.fp32.bs4.ResNet.params.png" width="800">
 </div>
 
-* 精度-flops变化曲线
+* 精度-flops 变化曲线
 
 <div align="center">
     <img src="../../images/models/T4_benchmark/t4.fp32.bs4.ResNet.flops.png" width="800">
 </div>
 
-### Q1.5 在网络中的block里conv-bn-relu是固定的形式吗？
+### Q1.5 在网络中的 block 里 conv-bn-relu 是固定的形式吗？
 
-**A**: 在batch-norm出现之前，主流的卷积神经网络的固定形式是conv-relu。在现阶段的卷积神经网络中，conv-bn-relu是大部分网络中block的固定形式，这样的设计是相对鲁棒的结构，此外，DenseNet中的block选用的是bn-relu-conv的形式，ResNet-V2中也使用的是这种组合方式。在MobileNetV2中，为了不丢失信息，部分block中间的层没有使用relu激活函数，选用的是conv-bn的形式。
+**A**: 在 batch-norm 出现之前，主流的卷积神经网络的固定形式是 conv-relu。在现阶段的卷积神经网络中，conv-bn-relu 是大部分网络中 block 的固定形式，这样的设计是相对鲁棒的结构，此外，DenseNet 中的 block 选用的是 bn-relu-conv 的形式，ResNet-V2 中也使用的是这种组合方式。在 MobileNetV2 中，为了不丢失信息，部分 block 中间的层没有使用 relu 激活函数，选用的是 conv-bn 的形式。
 
-### Q1.6 ResNet34与ResNet50的区别？
+### Q1.6 ResNet34 与 ResNet50 的区别？
 
-**A**: ResNet系列中有两种不同的block，分别是basic-block和bottleneck-block，堆叠较多这样的block组成了ResNet网络。basic-block是带有shortcut的两个3x3的卷积核的堆叠，bottleneck-block是带有shortcut的1x1卷积核、3x3卷积核、1x1卷积核的堆叠，所以basic-block中有两层，bottleneck-block有三层。ResNet34和ResNet50中堆叠的block数相同，但是堆叠的种类分别是basic-block和bottleneck-block。
+**A**: ResNet 系列中有两种不同的 block，分别是 basic-block 和 bottleneck-block，堆叠较多这样的 block 组成了 ResNet 网络。basic-block 是带有 shortcut 的两个 3x3 的卷积核的堆叠，bottleneck-block 是带有 shortcut 的 1x1 卷积核、3x3 卷积核、1x1 卷积核的堆叠，所以 basic-block 中有两层，bottleneck-block 有三层。ResNet34 和 ResNet50 中堆叠的 block  数相同，但是堆叠的种类分别是 basic-block 和 bottleneck-block。
 
 ### Q1.7 大卷积核一定可以带来正向收益吗？
 
-**A**: 不一定，将网络中的所有卷积核都增大未必会带来性能的提升，甚至会有有损性能，在论文[MixConv: Mixed Depthwise Convolutional Kernels](https://arxiv.org/abs/1907.09595)
-中指出，在一定范围内提升卷积核大小对精度的提升有正向作用，但是超出后会有损精度。所以考虑到模型的大小、计算量等问题，一般不选用大的卷积核去设计网络。同时，在[PP-LCNet](../models/PP-LCNet.md)文章中，也有关于大卷积核的实验。
+**A**: 不一定，将网络中的所有卷积核都增大未必会带来性能的提升，甚至会有有损性能，在论文 [MixConv: Mixed Depthwise Convolutional Kernels](https://arxiv.org/abs/1907.09595)
+中指出，在一定范围内提升卷积核大小对精度的提升有正向作用，但是超出后会有损精度。所以考虑到模型的大小、计算量等问题，一般不选用大的卷积核去设计网络。同时，在 [PP-LCNet](../models/PP-LCNet.md) 文章中，也有关于大卷积核的实验。
 
 <a name="2"></a>
-## 第2期
+## 第 2 期
 
-### Q2.1: PaddleClas如何训练自己的backbone？
+### Q2.1: PaddleClas 如何训练自己的 backbone？
 
 **A**：具体流程如下:
-* 首先在ppcls/arch/backbone/model_zoo/文件夹下新建一个自己的模型结构文件，即你自己的backbone，模型搭建可以参考resnet.py;
-* 然后在ppcls/arch/backbone/\_\_init\_\_.py中添加自己设计的backbone的类;
-* 其次配置训练的yaml文件，此处可以参考ppcls/configs/ImageNet/ResNet/ResNet50.yaml;
+* 首先在 ppcls/arch/backbone/model_zoo/ 文件夹下新建一个自己的模型结构文件，即你自己的 backbone，模型搭建可以参考 resnet.py;
+* 然后在 ppcls/arch/backbone/\_\_init\_\_.py 中添加自己设计的 backbone 的类;
+* 其次配置训练的 yaml 文件，此处可以参考 ppcls/configs/ImageNet/ResNet/ResNet50.yaml;
 * 最后启动训练即可。
 
 
 ### Q2.2: 如何利用已有的模型和权重对自己的分类任务进行迁移？
 
 **A**: 具体流程如下:
-* 首先，好的预训练模型往往会有更好的迁移效果，所以建议选用精度较高的预训练模型，PaddleClas提供了一系列业界领先的预训练模型，建议使用；
-* 其次，要根据迁移的数据集的规模来确定训练超参数，一般超参数需要调试才可以寻找到一个局部最优值，如果没有相关经验，建议先从learning rate开始调起，一般来说，规模较小的数据集使用较小的learning rate，如0.001，另外，建议学习率使用warmup策略，避免过大的学习率破坏预训练模型的权重。在迁移过程中，也可以设置backbone中不同层的学习率，往往从网络的头部到尾补学习率逐渐减小效果较好。在数据集规模较小的时候，也可以使用数据增强策略，PaddleClas提供了8中强有力的数据增强策略，为更高的精度保驾护航。
+* 首先，好的预训练模型往往会有更好的迁移效果，所以建议选用精度较高的预训练模型，PaddleClas 提供了一系列业界领先的预训练模型，建议使用；
+* 其次，要根据迁移的数据集的规模来确定训练超参数，一般超参数需要调试才可以寻找到一个局部最优值，如果没有相关经验，建议先从 learning rate 开始调起，一般来说，规模较小的数据集使用较小的 learning rate，如 0.001，另外，建议学习率使用 warmup 策略，避免过大的学习率破坏预训练模型的权重。在迁移过程中，也可以设置 backbone 中不同层的学习率，往往从网络的头部到尾补学习率逐渐减小效果较好。在数据集规模较小的时候，也可以使用数据增强策略，PaddleClas 提供了 8 中强有力的数据增强策略，为更高的精度保驾护航。
 * 训练结束后，可以反复迭代上述过程，直到寻找到局部最优值。
 
-### Q2.3: PaddleClas中configs下的默认参数适合任何一个数据集吗？
+### Q2.3: PaddleClas 中 configs 下的默认参数适合任何一个数据集吗？
 
-**A**: PaddleClas中的ppcls/configs/ImageNet/下的配置文件默认参数是ImageNet-1k的训练参数，这个参数并不适合所有的数据集，具体数据集需要在此基础上进一步调试。
+**A**: PaddleClas 中的 ppcls/configs/ImageNet/下的配置文件默认参数是 ImageNet-1k 的训练参数，这个参数并不适合所有的数据集，具体数据集需要在此基础上进一步调试。
 
 
-### Q2.4 PaddleClas中的不同的模型使用了不同的分辨率，标配的应该是多少呢？
+### Q2.4 PaddleClas 中的不同的模型使用了不同的分辨率，标配的应该是多少呢？
 
-**A**: PaddleClas严格遵循了论文作者的使用的分辨率。自2012年AlexNet以来，大多数的卷积神经网络在ImageNet上训练的分辨率为224x224，Google在设计InceptionV3的时候为了适应网络结构将分辨率调至299x299，之后其推出的Xception、InceptionV4也是使用的该分辨率。此外，在EfficeintNet中，作者分析了不同规模的网络应该使用不同的分辨率，所以该系列网络中每个不同大小的网络都使用了不同的分辨率。在实际使用场景中，推荐使用默认的分辨率，当然，层数较深或者宽度较大的网络也可以尝试使用更大的分辨率。
+**A**: PaddleClas 严格遵循了论文作者的使用的分辨率。自 2012 年 AlexNet 以来，大多数的卷积神经网络在 ImageNet 上训练的分辨率为 224x224，Google 在设计 InceptionV3 的时候为了适应网络结构将分辨率调至 299x299，之后其推出的 Xception、InceptionV4 也是使用的该分辨率。此外，在 EfficeintNet 中，作者分析了不同规模的网络应该使用不同的分辨率，所以该系列网络中每个不同大小的网络都使用了不同的分辨率。在实际使用场景中，推荐使用默认的分辨率，当然，层数较深或者宽度较大的网络也可以尝试使用更大的分辨率。
 
 
-### Q2.5 PaddleClas中提供了很多ssld模型，其应用的价值是？
+### Q2.5 PaddleClas 中提供了很多 ssld 模型，其应用的价值是？
 
-**A**: PaddleClas中提供了很多ssld预训练模型，其通过半监督知识蒸馏的方法获得了更好的预训练权重，在迁移任务或者下游视觉任务中，无须替换结构文件、只需要替换精度更高的ssld预训练模型即可提升精度，如在PaddleSeg中，[HRNet](https://github.com/PaddlePaddle/PaddleSeg/blob/release/v0.7.0/docs/model_zoo.md)使用了ssld预训练模型的权重后，精度大幅度超越业界同样的模型的精度，在PaddleDetection中，[PP-YOLO](https://github.com/PaddlePaddle/PaddleDetection/blob/release/0.4/configs/ppyolo/README_cn.md)使用了ssld预训练权重后，在较高的baseline上仍有进一步的提升。使用ssld预训练权重做分类的迁移表现也很抢眼，在[SSLD蒸馏策略](../advanced_tutorials/knowledge_distillation.md)部分介绍了知识蒸馏对于分类任务迁移的收益。
+**A**: PaddleClas 中提供了很多 ssld 预训练模型，其通过半监督知识蒸馏的方法获得了更好的预训练权重，在迁移任务或者下游视觉任务中，无须替换结构文件、只需要替换精度更高的 ssld 预训练模型即可提升精度，如在 PaddleSeg 中，[HRNet](https://github.com/PaddlePaddle/PaddleSeg/blob/release/v0.7.0/docs/model_zoo.md) 使用了 ssld 预训练模型的权重后，精度大幅度超越业界同样的模型的精度，在 PaddleDetection 中，[PP-YOLO](https://github.com/PaddlePaddle/PaddleDetection/blob/release/0.4/configs/ppyolo/README_cn.md) 使用了 ssld 预训练权重后，在较高的 baseline 上仍有进一步的提升。使用 ssld 预训练权重做分类的迁移表现也很抢眼，在 [SSLD 蒸馏策略](../advanced_tutorials/knowledge_distillation.md) 部分介绍了知识蒸馏对于分类任务迁移的收益。
 
 
 <a name="3"></a>
-## 第3期
+## 第 3 期
 
-### Q3.1: DenseNet模型相比于ResNet有什么改进呢？有哪些特点或者应用场景呢？
+### Q3.1: DenseNet 模型相比于 ResNet 有什么改进呢？有哪些特点或者应用场景呢？
 
-**A**: DenseNet相比于ResNet，设计了一个更激进的密集连接机制，通过考虑特征重用和旁路的设置，进一步减少了参数量，而且从一定程度上缓解了梯度弥散的问题，因为引入了更加密集的连接，因此模型更容易训练，而且具有一定的正则化效果。在数据量不是很多的图像分类场景中，DenseNet是一个不错的选择。更多关于DenseNet的介绍与系列模型可以参考[DenseNet模型文档](../models/DPN_DenseNet.md)。
+**A**: DenseNet 相比于 ResNet，设计了一个更激进的密集连接机制，通过考虑特征重用和旁路的设置，进一步减少了参数量，而且从一定程度上缓解了梯度弥散的问题，因为引入了更加密集的连接，因此模型更容易训练，而且具有一定的正则化效果。在数据量不是很多的图像分类场景中，DenseNet 是一个不错的选择。更多关于 DenseNet 的介绍与系列模型可以参考 [DenseNet 模型文档](../models/DPN_DenseNet.md)。
 
 
 
-### Q3.2: DPN网络相比于DenseNet有哪些改进呢？
+### Q3.2: DPN 网络相比于 DenseNet 有哪些改进呢？
 
-**A**：DPN的全称是Dual Path Networks，即双通道网络。该网络是由DenseNet和ResNeXt结合的一个网络，其证明了DenseNet能从靠前的层级中提取到新的特征，而ResNeXt本质上是对之前层级中已提取特征的复用。作者进一步分析发现，ResNeXt对特征有高复用率，但冗余度低，DenseNet能创造新特征，但冗余度高。结合二者结构的优势，作者设计了DPN网络。最终DPN网络在同样FLOPS和参数量下，取得了比ResNeXt与DenseNet更好的结果。更多关于DPN的介绍与系列模型可以参考[DPN模型文档](../models/DPN_DenseNet.md)。
+**A**：DPN 的全称是 Dual Path Networks，即双通道网络。该网络是由 DenseNet 和 ResNeXt 结合的一个网络，其证明了 DenseNet 能从靠前的层级中提取到新的特征，而 ResNeXt 本质上是对之前层级中已提取特征的复用。作者进一步分析发现，ResNeXt 对特征有高复用率，但冗余度低，DenseNet 能创造新特征，但冗余度高。结合二者结构的优势，作者设计了 DPN 网络。最终 DPN 网络在同样 FLOPS 和参数量下，取得了比 ResNeXt 与 DenseNet 更好的结果。更多关于 DPN 的介绍与系列模型可以参考 [DPN 模型文档](../models/DPN_DenseNet.md)。
 
 
 ### Q3.3: 怎么使用多个模型进行预测融合呢？
 
-**A** 使用多个模型进行预测的时候，建议首先将预训练模型导出为inference模型，这样可以摆脱对网络结构定义的依赖，可以参考[模型导出脚本](../../../tools/export_model.py)进行模型导出，之后再参考[inference模型预测脚本](../../../deploy/python/predict_cls.py)进行预测即可，在这里需要根据自己使用模型的数量创建多个predictor。
+**A** 使用多个模型进行预测的时候，建议首先将预训练模型导出为 inference 模型，这样可以摆脱对网络结构定义的依赖，可以参考[模型导出脚本](../../../tools/export_model.py)进行模型导出，之后再参考 [inference 模型预测脚本](../../../deploy/python/predict_cls.py)进行预测即可，在这里需要根据自己使用模型的数量创建多个 predictor。
 
 
-### Q3.4: PaddleClas中怎么增加自己的数据增广方法呢？
+### Q3.4: PaddleClas 中怎么增加自己的数据增广方法呢？
 
 **A**：
 
-* 对于单张图像的增广，可以参考[基于单张图片的数据增广脚本](../../../ppcls/data/preprocess/ops)，参考`ResizeImage`或者`CropImage`等数据算子的写法，创建一个新的类，然后在`__call__`中，实现对应的增广方法即可。
-* 对于一个batch图像的增广，可以参考[基于batch数据的数据增广脚本](../../../ppcls/data/preprocess/batch_ops)，参考`MixupOperator`或者`CutmixOperator`等数据算子的写法，创建一个新的类，然后在`__call__`中，实现对应的增广方法即可。
+* 对于单张图像的增广，可以参考[基于单张图片的数据增广脚本](../../../ppcls/data/preprocess/ops)，参考 `ResizeImage `或者 `CropImage` 等数据算子的写法，创建一个新的类，然后在 `__call__` 中，实现对应的增广方法即可。
+* 对于一个 batch 图像的增广，可以参考[基于 batch 数据的数据增广脚本](../../../ppcls/data/preprocess/batch_ops)，参考 `MixupOperator` 或者 `CutmixOperator` 等数据算子的写法，创建一个新的类，然后在 `__call__` 中，实现对应的增广方法即可。
 
 
 ## Q3.5: 怎么进一步加速模型训练过程呢？
 
 **A**：
 
-* 可以使用自动混合精度进行训练，这在精度几乎无损的情况下，可以有比较明显的速度收益，以ResNet50为例，PaddleClas中使用自动混合精度训练的配置文件可以参考：[ResNet50_fp16.yml](../../../ppcls/configs/ImageNet/ResNet/ResNet50_fp16.yaml)，主要就是需要在标准的配置文件中添加以下几行
+* 可以使用自动混合精度进行训练，这在精度几乎无损的情况下，可以有比较明显的速度收益，以 ResNet50 为例，PaddleClas 中使用自动混合精度训练的配置文件可以参考：[ResNet50_fp16.yml](../../../ppcls/configs/ImageNet/ResNet/ResNet50_fp16.yaml)，主要就是需要在标准的配置文件中添加以下几行
 
 ```
 # mixed precision training
@@ -144,34 +144,34 @@ AMP:
   use_pure_fp16: &use_pure_fp16 True
 ```
 
-* 可以开启dali，将数据预处理方法放在GPU上运行，在模型比较小时（reader耗时占比更高一些），开启dali会带来比较明显的训练速度收益，在训练的时候，添加`-o Global.use_dali=True`即可使用dali进行训练，更多关于 dali 安装与介绍可以参考：[dali安装教程](https://docs.nvidia.com/deeplearning/dali/user-guide/docs/installation.html#nightly-builds)。
+* 可以开启 dali，将数据预处理方法放在 GPU 上运行，在模型比较小时（reader 耗时占比更高一些），开启 dali 会带来比较明显的训练速度收益，在训练的时候，添加 `-o Global.use_dali=True` 即可使用 dali 进行训练，更多关于 dali 安装与介绍可以参考：[dali 安装教程](https://docs.nvidia.com/deeplearning/dali/user-guide/docs/installation.html#nightly-builds)。
 
 <a name="4"></a>
-## 第4期
+## 第 4 期
 
 ### Q4.1: PaddlePaddle 的模型文件都有哪几种？
 
 **A**:
-* PaddlePaddle保存的模型相关文件有两类：
-* 一类是用于*推理部署*的文件，包括后缀名为“`pdiparams`”、“`model`”的文件，其中“`pdiparams`”文件存储了模型参数信息，“`model`”文件存储了模型网络结构信息，对于推理部署文件，使用`paddle.jit.save`与`paddle.jit.load`接口进行保存、加载。
-* 另一类模型相关文件则是用于*训练调优*过程中，包括后缀名为“`pdparams`”和“`pdopt`”的文件，其中“`pdparams`”文件存储了训练过程中的模型参数信息，“`pdopt`”文件存储了模型训练过程中的优化器信息，对于训练调优文件，使用`paddle.save`与`paddle.load`接口进行保存、加载。
+* PaddlePaddle 保存的模型相关文件有两类：
+* 一类是用于*推理部署*的文件，包括后缀名为 “`pdiparams`”、“`model`” 的文件，其中 “`pdiparams`” 文件存储了模型参数信息，“`model`” 文件存储了模型网络结构信息，对于推理部署文件，使用 `paddle.jit.save` 与 `paddle.jit.load` 接口进行保存、加载。
+* 另一类模型相关文件则是用于*训练调优*过程中，包括后缀名为 “`pdparams`” 和 “`pdopt`” 的文件，其中 “`pdparams`” 文件存储了训练过程中的模型参数信息，“`pdopt`” 文件存储了模型训练过程中的优化器信息，对于训练调优文件，使用 `paddle.save` 与 `paddle.load` 接口进行保存、加载。
 * 利用推理部署文件，即可构建模型网络结构并加载模型参数，用于预测，利用训练调优文件，即可加载模型参数、优化器信息，用于恢复训练过程。
 
-### Q4.2: HRNet的创新点体现在哪里？
+### Q4.2: HRNet 的创新点体现在哪里？
 
 **A**:
 * 在图像分类领域，大部分神经网络的设计思想是提取图像的高维特征，具体来说，通常输入图像的空间分辨率较高，通过多层卷积、池化，可以逐步得到空间分辨率更低，但是维度更高的特征图，然后可用于分类等场景。
-* 然而*HRNet*的作者认为这种逐步降低空间分辨率的设计思想并不适合目标检测（图像区域层次的分类任务）、语义分割（图像像素层次的分类任务）等场景，因为空间分辨率在逐步降低的过程中，会丢失很多信息，最终学习得到的特征难以表达原始图像在高空间分辨率的信息，而区域层次分类任务和像素层次分类任务都对空间精度十分敏感。
-* 因此*HRNet*的作者提出了并联不同空间分辨率特征图的思想，与此相对，*VGG*等神经网络则是通过不同的卷积池化层来串联不同空间分辨率的特征图。并且，*HRNet*通过连接同等深度、不同空间分辨率的特征图，使得不同空间分辨率特征图的信息可以得到充分交换，具体的网络结构如下图所示。
+* 然而 *HRNet* 的作者认为这种逐步降低空间分辨率的设计思想并不适合目标检测（图像区域层次的分类任务）、语义分割（图像像素层次的分类任务）等场景，因为空间分辨率在逐步降低的过程中，会丢失很多信息，最终学习得到的特征难以表达原始图像在高空间分辨率的信息，而区域层次分类任务和像素层次分类任务都对空间精度十分敏感。
+* 因此 *HRNet* 的作者提出了并联不同空间分辨率特征图的思想，与此相对，*VGG* 等神经网络则是通过不同的卷积池化层来串联不同空间分辨率的特征图。并且，*HRNet* 通过连接同等深度、不同空间分辨率的特征图，使得不同空间分辨率特征图的信息可以得到充分交换，具体的网络结构如下图所示。
 
 <div align="center">
     <img src="../../images/faq/HRNet.png" width="800">
 </div>
 
-### Q4.3: 在HRNet中，对于不同空间分辨率的特征图之间，是如何建立连接的？
+### Q4.3: 在 HRNet 中，对于不同空间分辨率的特征图之间，是如何建立连接的？
 
 **A**:
-* 首先，在*HRNet*中，对特征图使用*stride*为*2*的*3 × 3*卷积，可以得到低空间分辨率但是为度更高的特征图；而对低空间分辨率特征图先使用*1 × 1*卷积进行通道数匹配，再使用最近邻插值的方式进行上采样，即可得到与高空间分辨率特征图相同空间分辨率、通道数的特征图；而对于相同空间分辨率的特征图，直接进行恒等映射即可。具体如下图所示。
+* 首先，在 *HRNet* 中，对特征图使用 *stride* 为 *2* 的 *3 × 3* 卷积，可以得到低空间分辨率但是为度更高的特征图；而对低空间分辨率特征图先使用 *1 × 1* 卷积进行通道数匹配，再使用最近邻插值的方式进行上采样，即可得到与高空间分辨率特征图相同空间分辨率、通道数的特征图；而对于相同空间分辨率的特征图，直接进行恒等映射即可。具体如下图所示。
 
 <div align="center">
     <img src="../../images/faq/HRNet_block.png" width="800">
@@ -180,121 +180,121 @@ AMP:
 ### Q4.4: 模型中的“SE”表示什么意思？
 
 **A**:
-* SE表示该模型使用了SE结构。SE结构来自于2017年ImageNet分类比赛的冠军方案*Squeeze-and-Excitation Networks（SENet）*，*SENet*提出的SE结构可以迁移到任何其他网络中。其创新点是通过额外学习*scale*向量作为权重作用到特征图上，*scale*向量维度与特征图通道数相同，学习到的*scale*向量中每个维度上的数值表示对该维度特征通道的增强或减弱的大小，以此达到对重要的特征通道进行增强，不重要特征通道减弱的效果，从而让提取的特征指向性更强。
+* SE 表示该模型使用了 SE 结构。SE 结构来自于 2017 年 ImageNet 分类比赛的冠军方案 *Squeeze-and-Excitation Networks（SENet）*，*SENet* 提出的 SE 结构可以迁移到任何其他网络中。其创新点是通过额外学习 *scale* 向量作为权重作用到特征图上, *scale* 向量维度与特征图通道数相同，学习到的 *scale* 向量中每个维度上的数值表示对该维度特征通道的增强或减弱的大小，以此达到对重要的特征通道进行增强，不重要特征通道减弱的效果，从而让提取的特征指向性更强。
 
-### Q4.5: SE结构具体如何实现的？
+### Q4.5: SE 结构具体如何实现的？
 
 <div align="center">
     <img src="../../images/faq/SE_structure.png" width="800">
 </div>
 
 **A**:  
-* *SE*结构具体如上图所示，首先，*Ftr*表示常规的卷积操作，*X*和*U*则是*Ftr*的输入与输出的特征图，在得到特征图*U*后，使用*Fsq*和*Fex*操作求得*scale*向量，*scale*向量维度为*C*，与*U*通道数相同，因此可以通过乘积的方式作用到*U*上，进而得到*X~*。
-* 具体地，*Fsq*为*Global Average Pooling*操作，*SENet*作者将其称之为*Squeeze*，因为该操作可以将*U*从*C × H × W*压缩到*C × 1 × 1*，对*Fsq*的输出再做*Fex*操作。
-* *Fex*操作表示两次全连接，作者将该操作称为*Excitation*。其中第一次全连接将向量的维度从*1 × 1 × C*压缩到*1 × 1 × C/r*，然后使用*RELU*，再通过第二次全连接将向量的维度恢复到*C*，这样操作的目的是为了减小计算量，*SENet*作者通过实验得出结论：在*r=16*时可以获得增益与计算量之间的平衡。
-* 对于*Fsq*部分，关键是求得*C*维的向量，因此不局限于使用*Global Average Pooling*操作，*SENet*作者认为，最终求得的*scale*是按通道分别作用于*U*的，因此需要基于对应通道的信息计算对应的*scale*，故使用了最简单的*Global Average Pooling*操作，最终求得的*scale*向量表示了不同通道之间的分布关系，而忽略了同一个通道中的分布关系。
-* 对于*Fex*部分，其作用是为了在每一个*mini batch*上的训练来求得基于所有训练数据的分布。因为我们的训练是在*mini batch*上进行的，而基于全部训练数据求得的*scale*才是最佳的，使用*Fex*部分，可以通过在每个*mini batch*上的训练来求得更为逼近全部训练数据的*scale*。
+* *SE*结构具体如上图所示，首先，*Ftr* 表示常规的卷积操作，*X* 和 *U* 则是 *Ftr* 的输入与输出的特征图，在得到特征图*U*后，使用 *Fsq* 和 *Fex* 操作求得 *scale* 向量，*scale* 向量维度为 *C*，与 *U* 通道数相同，因此可以通过乘积的方式作用到 *U* 上，进而得到 *X~*。
+* 具体地，*Fsq* 为 *Global Average Pooling* 操作，*SENet* 作者将其称之为 *Squeeze*，因为该操作可以将 *U* 从 *C × H × W* 压缩到 *C × 1 × 1*，对 *Fsq* 的输出再做 *Fex* 操作。
+* *Fex*操作表示两次全连接，作者将该操作称为 *Excitation*。其中第一次全连接将向量的维度从 *1 × 1 × C* 压缩到 *1 × 1 × C/r*，然后使用 *RELU*，再通过第二次全连接将向量的维度恢复到 *C*，这样操作的目的是为了减小计算量，*SENet* 作者通过实验得出结论：在 *r=16* 时可以获得增益与计算量之间的平衡。
+* 对于*Fsq*部分，关键是求得 *C* 维的向量，因此不局限于使用 *Global Average Pooling* 操作，*SENet* 作者认为，最终求得的 *scale* 是按通道分别作用于 *U* 的，因此需要基于对应通道的信息计算对应的 *scale*，故使用了最简单的 *Global Average Pooling* 操作，最终求得的 *scale* 向量表示了不同通道之间的分布关系，而忽略了同一个通道中的分布关系。
+* 对于 *Fex* 部分，其作用是为了在每一个 *mini batch* 上的训练来求得基于所有训练数据的分布。因为我们的训练是在*mini batch*上进行的，而基于全部训练数据求得的 *scale* 才是最佳的，使用 *Fex* 部分，可以通过在每个 *mini batch* 上的训练来求得更为逼近全部训练数据的 *scale*。
 
 <a name="5"></a>
-## 第5期
+## 第 5 期
 
 ### Q5.1 如何选择优化器？
 
-**A**:自深度学习发展以来，就有很多关于优化器的研究者工作，优化器的目的是为了让损失函数尽可能的小，从而找到合适的权重来完成某项任务。目前业界主要用到的优化器有SGD、RMSProp、Adam、AdaDelt等，其中由于带momentum的SGD优化器广泛应用于学术界和工业界(此处仅限于分类任务)，所以我们发布的模型也大都使用该优化器来实现损失函数的梯度下降。带momentum的SGD优化器有两个劣势，其一是收敛速度慢，其二是初始学习率的设置需要依靠大量的经验，然而如果初始学习率设置得当并且迭代轮数充足，该优化器也会在众多的优化器中脱颖而出，使得其在验证集上获得更高的准确率。一些自适应学习率的优化器如Adam、RMSProp等，收敛速度往往比较快，但是最终的收敛精度会稍差一些。如果追求更快的收敛速度，我们推荐使用这些自适应学习率的优化器，如果追求更高的收敛精度，我们推荐使用带momentum的SGD优化器。具体到数据集来说：
+**A**:自深度学习发展以来，就有很多关于优化器的研究者工作，优化器的目的是为了让损失函数尽可能的小，从而找到合适的权重来完成某项任务。目前业界主要用到的优化器有 SGD、RMSProp、Adam、AdaDelt 等，其中由于带 momentum 的 SGD 优化器广泛应用于学术界和工业界(此处仅限于分类任务)，所以我们发布的模型也大都使用该优化器来实现损失函数的梯度下降。带 momentum 的 SGD 优化器有两个劣势，其一是收敛速度慢，其二是初始学习率的设置需要依靠大量的经验，然而如果初始学习率设置得当并且迭代轮数充足，该优化器也会在众多的优化器中脱颖而出，使得其在验证集上获得更高的准确率。一些自适应学习率的优化器如 Adam、RMSProp 等，收敛速度往往比较快，但是最终的收敛精度会稍差一些。如果追求更快的收敛速度，我们推荐使用这些自适应学习率的优化器，如果追求更高的收敛精度，我们推荐使用带 momentum 的 SGD 优化器。具体到数据集来说：
 
-- ImageNet-1k: 建议只使用带momentum的SGD优化器。
+- ImageNet-1k: 建议只使用带 momentum 的 SGD 优化器。
 
-- 其他数据集（默认加载ImageNet-1k预训练）: 加载预训练模型的时候可以考虑使用Adam等优化器（效果可能会更好），但使用带momentum的SGD优化器是绝对是比较不错的方案。
+- 其他数据集（默认加载 ImageNet-1k 预训练）: 加载预训练模型的时候可以考虑使用 Adam 等优化器（效果可能会更好），但使用带 momentum 的 SGD 优化器是绝对是比较不错的方案。
 
-另外，为了进一步加速训练，Lookahead优化器也是一个不错的选择，在ImageNet-1k上，其可以保证在更快的收敛速度下拥有相同的收敛精度，但在部分数据集上表现不太稳定，需要进一步调参。
+另外，为了进一步加速训练，Lookahead 优化器也是一个不错的选择，在 ImageNet-1k 上，其可以保证在更快的收敛速度下拥有相同的收敛精度，但在部分数据集上表现不太稳定，需要进一步调参。
 
 ### Q5.2 如何设置初始学习率以及学习率下降策略？
 
 **A**:学习率的选择往往和优化器以及数据和任务有关系。学习率决定了网络种权重更新的速度。学习率越低，损失函数的变化速度就越慢。虽然使用低学习率可以确保不会错过任何局部极小值，但也意味着将花费更长的时间来进行收敛，特别是在被困在高原区域的情况下。
 
-在整个训练过程中，我们不能使用同样的学习率来更新权重，否则无法到达最优点，所以需要在训练过程中调整学习率的大小。在训练初始阶段，由于权重处于随机初始化的状态，损失函数下降较快，所以可以设置一个较大的学习率。在训练后期，由于权重已经接近最优值，较大的学习率无法进一步寻找最优值，所以需要设置一个较小的学习率。至于学习率下降策略，很多研究者或者从业人员使用的学习率下降方式是piecewise_decay(step_decay)，即阶梯式下降学习率，此外，很多研究者也提出了学习率的其他下降方式，如polynomial_decay（多项式下降）、exponential_decay（指数下降）,cosine_decay（余弦下降）等，其中cosine_decay无需调整超参数，鲁棒性也比较高，所以成为现在提高模型精度首选的学习率下降方式。
+在整个训练过程中，我们不能使用同样的学习率来更新权重，否则无法到达最优点，所以需要在训练过程中调整学习率的大小。在训练初始阶段，由于权重处于随机初始化的状态，损失函数下降较快，所以可以设置一个较大的学习率。在训练后期，由于权重已经接近最优值，较大的学习率无法进一步寻找最优值，所以需要设置一个较小的学习率。至于学习率下降策略，很多研究者或者从业人员使用的学习率下降方式是 piecewise_decay(step_decay)，即阶梯式下降学习率，此外，很多研究者也提出了学习率的其他下降方式，如 polynomial_decay（多项式下降）、exponential_decay（指数下降）,cosine_decay（余弦下降）等，其中 cosine_decay 无需调整超参数，鲁棒性也比较高，所以成为现在提高模型精度首选的学习率下降方式。
 
-Cosine_decay和piecewise_decay的学习率变化曲线如下图所示，容易观察到，在整个训练过程中，cosine_decay都保持着较大的学习率，所以其收敛较为缓慢，但是最终的收敛效果较peicewise_decay更好一些。
+Cosine_decay 和 piecewise_decay 的学习率变化曲线如下图所示，容易观察到，在整个训练过程中，cosine_decay 都保持着较大的学习率，所以其收敛较为缓慢，但是最终的收敛效果较 peicewise_decay 更好一些。
 
 ![](../../images/models/lr_decay.jpeg)
 
-另外，从图中我们也可以看到，cosine_decay中只有少数轮数使用了较小的学习率，这样会影响到最终的精度，所以为了使得cosine_decay发挥更好的效果，建议迭代更多的轮数。
+另外，从图中我们也可以看到，cosine_decay 中只有少数轮数使用了较小的学习率，这样会影响到最终的精度，所以为了使得 cosine_decay 发挥更好的效果，建议迭代更多的轮数。
 
-最后，如果使用较大的batch_size训练神经网络时，建议您使用warmup策略。Warmup策略顾名思义就是让学习率先预热一下，在训练初期不直接使用最大的学习率，而是用一个逐渐增大的学习率去训练网络，当学习率增大到最高点时，再去衰减学习率的值。实验表明，在batch_size较大时，warmup可以稳定提升模型的精度。具体到数据集来说：
+最后，如果使用较大的 batch_size 训练神经网络时，建议您使用 warmup 策略。Warmup 策略顾名思义就是让学习率先预热一下，在训练初期不直接使用最大的学习率，而是用一个逐渐增大的学习率去训练网络，当学习率增大到最高点时，再去衰减学习率的值。实验表明，在 batch_size 较大时，warmup 可以稳定提升模型的精度。具体到数据集来说：
 
-- ImageNet-1k:建议batch-size大小为256、初始学习率为0.1，cosine-decay下降学习率。
+- ImageNet-1k:建议 batch-size 大小为 256、初始学习率为 0.1，cosine-decay 下降学习率。
 
-- 其他数据集（默认加载ImageNet-1k预训练）: 数据集规模越大，初始学习率也越大，但最好不要超过0.1（batch-size为256时候），数据集规模越小，初始学习率也越小，当数据集较小时，使用warmup也会带来一定的精度提升，学习率下降策略仍旧推荐cosine-decay。
+- 其他数据集（默认加载 ImageNet-1k 预训练）: 数据集规模越大，初始学习率也越大，但最好不要超过 0.1（batch-size 为 256 时候），数据集规模越小，初始学习率也越小，当数据集较小时，使用 warmup 也会带来一定的精度提升，学习率下降策略仍旧推荐 cosine-decay。
 
-### Q5.3 如何设置batch-size的大小？
+### Q5.3 如何设置 batch-size 的大小？
 
-**A**:Batch_size是训练神经网络中的一个重要的超参数，该值决定了一次将多少数据送入神经网络中训练。之前有研究者通过实验发现，当batch_size的值与学习率的值呈线性关系时，收敛精度几乎不受影响。在训练ImageNet-1k数据时，大部分的神经网络选择的初始学习率为0.1，batch_size是256。具体到数据集来说：
+**A**:Batch_size 是训练神经网络中的一个重要的超参数，该值决定了一次将多少数据送入神经网络中训练。之前有研究者通过实验发现，当 batch_size 的值与学习率的值呈线性关系时，收敛精度几乎不受影响。在训练 ImageNet-1k 数据时，大部分的神经网络选择的初始学习率为 0.1，batch_size 是 256。具体到数据集来说：
 
-- ImageNet-1k: 学习率设置为0.1\*k,batch_size设置为256\*k。
+- ImageNet-1k: 学习率设置为 0.1\*k,batch_size 设置为 256\*k。
 
-- 其他数据集（默认加载ImageNet-1k预训练）: 可以根据实际情况设置（如更小的学习率），但在调整学习率或者batch-size时，要同时调整另外一个值。
+- 其他数据集（默认加载 ImageNet-1k 预训练）: 可以根据实际情况设置（如更小的学习率），但在调整学习率或者 batch-size 时，要同时调整另外一个值。
 
-### Q5.4 weight_decay是什么？怎么设置？
+### Q5.4 weight_decay 是什么？怎么设置？
 
-**A**:过拟合是机器学习中常见的一个名词，简单理解即为模型在训练数据上表现很好，但在测试数据上表现较差，在图像分类问题中，同样存在过拟合的问题，为了避免过拟合，很多正则方式被提出，其中，weight_decay是其中一个广泛使用的避免过拟合的方式。当使用SGD优化器时，weight_decay等价于在最终的损失函数后添加L2正则化，L2正则化使得网络的权重倾向于选择更小的值，最终整个网络中的参数值更趋向于0，模型的泛化性能相应提高。在各大深度学习框架的实现中，该值表达的含义是L2正则前的系数，在飞桨框架中，该值的名称是L2Decay，所以以下都称其为L2Decay。该系数越大，表示加入的正则越强，模型越趋于欠拟合状态。具体到数据集来说：
+**A**:过拟合是机器学习中常见的一个名词，简单理解即为模型在训练数据上表现很好，但在测试数据上表现较差，在图像分类问题中，同样存在过拟合的问题，为了避免过拟合，很多正则方式被提出，其中，weight_decay 是其中一个广泛使用的避免过拟合的方式。当使用 SGD 优化器时，weight_decay 等价于在最终的损失函数后添加 L2 正则化，L2 正则化使得网络的权重倾向于选择更小的值，最终整个网络中的参数值更趋向于 0，模型的泛化性能相应提高。在各大深度学习框架的实现中，该值表达的含义是 L2 正则前的系数，在飞桨框架中，该值的名称是 L2Decay，所以以下都称其为 L2Decay。该系数越大，表示加入的正则越强，模型越趋于欠拟合状态。具体到数据集来说：
 
-- ImageNet-1k：大多数的网络将该参数值设置为1e-4，在一些小的网络如MobileNet系列网络中，为了避免网络欠拟合，该值设置为1e-5~4e-5之间。下表展示了MobileNetV1_x0_25在ImageNet-1k上使用不同L2Decay的精度情况。由于MobileNetV1_x0_25是一个比较小的网络，所以L2Decay过大会使网络趋向于欠拟合状态，所以在该网络中，相对1e-4，3e-5是更好的选择。
+- ImageNet-1k：大多数的网络将该参数值设置为 1e-4，在一些小的网络如 MobileNet 系列网络中，为了避免网络欠拟合，该值设置为 1e-5~4e-5 之间。下表展示了 MobileNetV1_x0_25 在 ImageNet-1k 上使用不同 L2Decay 的精度情况。由于 MobileNetV1_x0_25 是一个比较小的网络，所以 L2Decay 过大会使网络趋向于欠拟合状态，所以在该网络中，相对 1e-4，3e-5 是更好的选择。
 
 | 模型                | L2Decay | Train acc1/acc5 | Test acc1/acc5 |
 |:--:|:--:|:--:|:--:|
 | MobileNetV1_x0_25 | 1e-4     | 43.79%/67.61%   | 50.41%/74.70%  |
 | MobileNetV1_x0_25 | 3e-5     | 47.38%/70.83%   | 51.45%/75.45%  |
 
-另外，该值的设置也和训练过程中是否使用其他正则化有关系。如果训练过程中的数据预处理比较复杂，相当于训练任务变的更难，可以将该值适当减小，下表展示了在ImageNet-1k上，ResNet50在使用RandAugment预处理方式后使用不同L2Decay的精度。容易观察到，在任务变难后，使用更小的l2_decay有助于模型精度的提升。
+另外，该值的设置也和训练过程中是否使用其他正则化有关系。如果训练过程中的数据预处理比较复杂，相当于训练任务变的更难，可以将该值适当减小，下表展示了在 ImageNet-1k 上，ResNet50 在使用 RandAugment 预处理方式后使用不同 L2Decay 的精度。容易观察到，在任务变难后，使用更小的 l2_decay 有助于模型精度的提升。
 
 | 模型       | L2Decay | Train acc1/acc5 | Test acc1/acc5 |
 |:--:|:--:|:--:|:--:|
 | ResNet50 | 1e-4     | 75.13%/90.42%   | 77.65%/93.79%  |
 | ResNet50 | 7e-5     | 75.56%/90.55%   | 78.04%/93.74%  |
 
-- 其他数据集（默认加载ImageNet-1k预训练）：在做迁移任务的时候，最好不要改变训练ImageNet-1k时的L2Decay的值（即训练得到预训练时的L2Decay值，每个backbone对应的L2Decay值都在相应的训练yaml配置文件中），一般的数据集只改变学习率足够。
+- 其他数据集（默认加载 ImageNet-1k 预训练）：在做迁移任务的时候，最好不要改变训练 ImageNet-1k 时的 L2Decay 的值（即训练得到预训练时的 L2Decay 值，每个 backbone 对应的 L2Decay 值都在相应的训练 yaml 配置文件中），一般的数据集只改变学习率足够。
 
 
-### Q5.5 是否使用label_smoothing，如何设置其中的参数值？
+### Q5.5 是否使用 label_smoothing，如何设置其中的参数值？
 
-**A**:Label_smoothing是深度学习中的一种正则化方法，其全称是 Label Smoothing Regularization(LSR)，即标签平滑正则化。在传统的分类任务计算损失函数时，是将真实的one hot标签与神经网络的输出做相应的交叉熵计算，而label_smoothing是将真实的one hot标签做一个标签平滑的处理，使得网络学习的标签不再是一个hard label，而是一个有概率值的soft label，其中在类别对应的位置的概率最大，其他位置概率是一个非常小的数。在label_smoothing中，epsilon参数描述了将标签软化的程度，该值越大，经过label smoothing后的标签向量的标签概率值越小，标签越平滑，反之，标签越趋向于hard label。具体到数据集来说：
+**A**:Label_smoothing 是深度学习中的一种正则化方法，其全称是 Label Smoothing Regularization(LSR)，即标签平滑正则化。在传统的分类任务计算损失函数时，是将真实的 one hot 标签与神经网络的输出做相应的交叉熵计算，而 label_smoothing 是将真实的 one hot 标签做一个标签平滑的处理，使得网络学习的标签不再是一个 hard label，而是一个有概率值的 soft label，其中在类别对应的位置的概率最大，其他位置概率是一个非常小的数。在 label_smoothing 中，epsilon 参数描述了将标签软化的程度，该值越大，经过 label smoothing 后的标签向量的标签概率值越小，标签越平滑，反之，标签越趋向于 hard label。具体到数据集来说：
 
-- ImageNet-1k：在训练ImageNet-1k的实验里通常将该值设置为0.1，ResNet50大小级别及其以上的模型在使用label_smooting后，精度有稳定的提升。下表展示了ResNet50_vd在使用label_smoothing前后的精度指标。
+- ImageNet-1k：在训练 ImageNet-1k 的实验里通常将该值设置为 0.1，ResNet50 大小级别及其以上的模型在使用 label_smooting 后，精度有稳定的提升。下表展示了 ResNet50_vd 在使用 label_smoothing 前后的精度指标。
 
 | 模型          | Use_label_smoothing(0.1) | Test acc1 |
 |:--:|:--:|:--:|
 | ResNet50_vd | 0                   | 77.9%     |
 | ResNet50_vd | 1                   | 78.4%     |
 
-同时，由于label_smoohing相当于一种正则方式，在相对较小的模型上，精度提升不明显甚至会有所下降，下表展示了ResNet18在ImageNet-1k上使用label_smoothing前后的精度指标。可以明显看到，在使用label_smoothing后，精度有所下降。
+同时，由于 label_smoohing 相当于一种正则方式，在相对较小的模型上，精度提升不明显甚至会有所下降，下表展示了 ResNet18 在 ImageNet-1k 上使用 label_smoothing 前后的精度指标。可以明显看到，在使用 label_smoothing 后，精度有所下降。
 
 | 模型       | Use_label_smoohing(0.1) | Train acc1/acc5 | Test acc1/acc5 |
 |:--:|:--:|:--:|:--:|
 | ResNet18 | 0                  | 69.81%/87.70%   | 70.98%/89.92%  |
 | ResNet18 | 1                  | 68.00%/86.56%   | 70.81%/89.89%  |
 
-如何在较小的模型中也可以让label-smoothing有效，这里有一个技巧，即在Global-Average-Pool后接一个1000-2000大小的全连接层，该技巧可以与label-smoothing同时作用，发挥更好的效果。
+如何在较小的模型中也可以让 label-smoothing 有效，这里有一个技巧，即在 Global-Average-Pool 后接一个 1000-2000 大小的全连接层，该技巧可以与 label-smoothing 同时作用，发挥更好的效果。
 
-- 其他数据集（默认加载ImageNet-1k预训练）：使用label-smooth之后往往都会提升精度，规模越小的数据集epsilon值可以越大，在一些规模较小的细粒度图像中，最佳模型通常是在该值设置到0.4-0.5时获得的。
+- 其他数据集（默认加载 ImageNet-1k 预训练）：使用 label-smooth 之后往往都会提升精度，规模越小的数据集 epsilon 值可以越大，在一些规模较小的细粒度图像中，最佳模型通常是在该值设置到 0.4-0.5 时获得的。
 
-### Q5.6 默认的图像预处理中random-crop还可以调整吗？怎么调整？
+### Q5.6 默认的图像预处理中 random-crop 还可以调整吗？怎么调整？
 
-**A**:在ImageNet-1k数据的标准预处理中，random_crop函数中定义了scale和ratio两个值，两个值分别确定了图片crop的大小和图片的拉伸程度，其中scale的默认取值范围是0.08-1(lower_scale-upper_scale),ratio的默认取值范围是3/4-4/3(lower_ratio-upper_ratio)。在非常小的网络训练中，此类数据增强会使得网络欠拟合，导致精度有所下降。为了提升网络的精度，可以使其数据增强变的更弱，即增大图片的crop区域或者减弱图片的拉伸变换程度。可以分别通过增大lower_scale的值或缩小lower_ratio与upper_scale的差距来实现更弱的图片变换。具体到数据集来说：
+**A**:在 ImageNet-1k 数据的标准预处理中，random_crop 函数中定义了 scale 和 ratio 两个值，两个值分别确定了图片 crop 的大小和图片的拉伸程度，其中 scale 的默认取值范围是 0.08-1(lower_scale-upper_scale),ratio 的默认取值范围是 3/4-4/3(lower_ratio-upper_ratio)。在非常小的网络训练中，此类数据增强会使得网络欠拟合，导致精度有所下降。为了提升网络的精度，可以使其数据增强变的更弱，即增大图片的 crop 区域或者减弱图片的拉伸变换程度。可以分别通过增大 lower_scale 的值或缩小 lower_ratio 与 upper_scale 的差距来实现更弱的图片变换。具体到数据集来说：
 
-- ImageNet-1k：不是特别小的网络建议只用默认值，特别小的网络可以调大lower_scale的值（增大crop区域面积）或者缩小ratio值的范围（减弱图像伸缩变换），特别大的网络可以调小lower_scale的值（减小crop面积）或者增大ratio值的范围（增强图像伸缩变换）。下表列出了使用不同lower_scale训练MobileNetV2_x0_25的精度，可以看到，增大图片的crop区域面积后训练精度和验证精度均有提升。
+- ImageNet-1k：不是特别小的网络建议只用默认值，特别小的网络可以调大 lower_scale 的值（增大 crop 区域面积）或者缩小 ratio 值的范围（减弱图像伸缩变换），特别大的网络可以调小 lower_scale 的值（减小 crop 面积）或者增大 ratio 值的范围（增强图像伸缩变换）。下表列出了使用不同 lower_scale 训练 MobileNetV2_x0_25 的精度，可以看到，增大图片的 crop 区域面积后训练精度和验证精度均有提升。
 
-| 模型                | Scale取值范围 | Train_acc1/acc5 | Test_acc1/acc5 |
+| 模型                | Scale 取值范围 | Train_acc1/acc5 | Test_acc1/acc5 |
 |:--:|:--:|:--:|:--:|
 | MobileNetV2_x0_25 | [0.08,1]  | 50.36%/72.98%   | 52.35%/75.65%  |
 | MobileNetV2_x0_25 | [0.2,1]   | 54.39%/77.08%   | 53.18%/76.14%  |
 
-- 其他数据集（默认加载ImageNet-1k预训练）：建议使用默认值，如果过拟合较严重，可以考虑调小lower_scale的值（减小crop面积）或者增大ratio值的范围（增强图像伸缩变换）。
+- 其他数据集（默认加载 ImageNet-1k 预训练）：建议使用默认值，如果过拟合较严重，可以考虑调小 lower_scale 的值（减小 crop 面积）或者增大 ratio 值的范围（增强图像伸缩变换）。
 
 ### Q5.7 目前常用数据增广有哪些？如何选择？
 
-**A**:一般来说，数据集的规模对性能影响至关重要，但是图片的标注往往比较昂贵，所以有标注的图片数量往往比较稀少，在这种情况下，数据的增广尤为重要。在训练ImageNet-1k的标准数据增广中，主要使用了Random_Crop与Random_Flip两种数据增广方式，然而，近些年，越来越多的数据增广方式被提出，如cutout、mixup、cutmix、AutoAugment等。实验表明，这些数据的增广方式可以有效提升模型的精度。具体到数据集来说：
+**A**:一般来说，数据集的规模对性能影响至关重要，但是图片的标注往往比较昂贵，所以有标注的图片数量往往比较稀少，在这种情况下，数据的增广尤为重要。在训练 ImageNet-1k 的标准数据增广中，主要使用了 Random_Crop 与 Random_Flip 两种数据增广方式，然而，近些年，越来越多的数据增广方式被提出，如 cutout、mixup、cutmix、AutoAugment 等。实验表明，这些数据的增广方式可以有效提升模型的精度。具体到数据集来说：
 
-- ImageNet-1k：下表列出了ResNet50在8种不同的数据增广方式的表现，可以看出，相比baseline，所有的数据增广方式均有收益，其中cutmix是目前最有效的数据增广。更多数据增广的介绍请参考[**数据增广章节**](../advanced_tutorials/DataAugmentation.md)。
+- ImageNet-1k：下表列出了 ResNet50 在 8 种不同的数据增广方式的表现，可以看出，相比 baseline，所有的数据增广方式均有收益，其中 cutmix 是目前最有效的数据增广。更多数据增广的介绍请参考[**数据增广章节**](../advanced_tutorials/DataAugmentation.md)。
 
 | 模型       | 数据增广方式         | Test top-1 |
 |:--:|:--:|:--:|
@@ -308,57 +308,57 @@ Cosine_decay和piecewise_decay的学习率变化曲线如下图所示，容易
 | ResNet50 | Random-Erasing | 77.91%     |
 | ResNet50 | Hide-and-Seek  | 77.43%     |
 
-- 其他数据集（默认加载ImageNet-1k预训练）：在其他数据集中除了使用Auto-Augment，一般都会有精度的提升，Auto-Augment会针对每一个数据集搜索的独立超参数，该超参数决定了数据如何处理，所以默认的ImageNet-1k的超参数并不适合所有的数据集，当然您可以使用Random-Augment来替代Auto-Augment。其他策略可以正常使用，对于比较难的任务或者比较小的网络，建议不要使用较强的数据增广。
+- 其他数据集（默认加载 ImageNet-1k 预训练）：在其他数据集中除了使用 Auto-Augment，一般都会有精度的提升，Auto-Augment 会针对每一个数据集搜索的独立超参数，该超参数决定了数据如何处理，所以默认的 ImageNet-1k 的超参数并不适合所有的数据集，当然您可以使用 Random-Augment 来替代 Auto-Augment。其他策略可以正常使用，对于比较难的任务或者比较小的网络，建议不要使用较强的数据增广。
 
 此外，多种数据增广也可以叠加使用，当数据集较为简单或数据规模较小时，叠加数据增广可以进一步提升精度。
 
-### Q5.8 如何通过train_acc和test_acc确定调优策略？
+### Q5.8 如何通过 train_acc 和 test_acc 确定调优策略？
 
-**A**:在训练网络的过程中，通常会打印每一个epoch的训练集准确率和验证集准确率，二者刻画了该模型在两个数据集上的表现。通常来说，训练集的准确率反映了经过Random-Crop后的数据的精度，由于数据经过Random-Crop后，数据往往较难，所以训练集的准确率和验证集的准确率往往不是一个概念。
+**A**:在训练网络的过程中，通常会打印每一个 epoch 的训练集准确率和验证集准确率，二者刻画了该模型在两个数据集上的表现。通常来说，训练集的准确率反映了经过 Random-Crop 后的数据的精度，由于数据经过 Random-Crop 后，数据往往较难，所以训练集的准确率和验证集的准确率往往不是一个概念。
 
-- ImageNet-1k：通常来说，训练集准确率比验证集准确率微高或者二者相当是比较不错的状态。如果发现训练集的准确率比验证集高很多，说明在这个任务上已经过拟合，需要在训练过程中加入更多的正则，如增大L2Decay的值，加入更多的数据增广策略，加入label_smoothing策略等；如果发现训练集的准确率比验证集低一些，说明在这个任务上可能欠拟合，需要在训练过程中减弱正则效果，如减小L2Decay的值，减少数据增广方式，增大图片crop区域面积，减弱图片拉伸变换，去除label_smoothing等。
+- ImageNet-1k：通常来说，训练集准确率比验证集准确率微高或者二者相当是比较不错的状态。如果发现训练集的准确率比验证集高很多，说明在这个任务上已经过拟合，需要在训练过程中加入更多的正则，如增大 L2Decay 的值，加入更多的数据增广策略，加入 label_smoothing 策略等；如果发现训练集的准确率比验证集低一些，说明在这个任务上可能欠拟合，需要在训练过程中减弱正则效果，如减小 L2Decay 的值，减少数据增广方式，增大图片 crop 区域面积，减弱图片拉伸变换，去除 label_smoothing 等。
 
-- 其他数据集（默认加载ImageNet-1k预训练）：基本和训练ImageNet-1k的调整策略相当，此外，在其他数据集上如果模型趋向于过拟合（train acc远大于test acc）状态，也可以使用更优的预训练权重，PaddleClas为常用的网络提供了SSLD的蒸馏预训练权重，其比ImageNet-1k的权重更优，您可以优先选择。
+- 其他数据集（默认加载 ImageNet-1k 预训练）：基本和训练 ImageNet-1k 的调整策略相当，此外，在其他数据集上如果模型趋向于过拟合（train acc 远大于 test acc）状态，也可以使用更优的预训练权重，PaddleClas 为常用的网络提供了 SSLD 的蒸馏预训练权重，其比 ImageNet-1k 的权重更优，您可以优先选择。
 
-- **【备注】** 不太建议根据loss来重新调整训练策略，在使用不同的数据增广后，train loss的大小差异较大，如使用Cutmix或者RandAugment后，train loss会大于test loss，当数据增广策略减弱后，train loss会小于test loss，所以较难调整。
+- **【备注】** 不太建议根据 loss 来重新调整训练策略，在使用不同的数据增广后，train loss 的大小差异较大，如使用 Cutmix 或者 RandAugment 后，train loss 会大于 test loss，当数据增广策略减弱后，train loss 会小于 test loss，所以较难调整。
 
 ### Q5.9 如何通过预训练模型提升自己的数据集的精度？
 
-**A**:在现阶段图像识别领域中，加载预训练模型来训练自己的任务已成为普遍的做法，相比从随机初始化开始训练，加载预训练模型往往可以提升特定任务的精度。一般来说，业界广泛使用的预训练模型是通过训练128万张图片1000类的ImageNet-1k数据集得到的，该预训练模型的fc层权重是是一个k\*1000的矩阵，其中k是fc层以前的神经元数，在加载预训练权重时，无需加载fc层的权重。在学习率方面，如果您的任务训练的数据集特别小（如小于1千张），我们建议你使用较小的初始学习率，如0.001（batch_size:256,下同），以免较大的学习率破坏预训练权重。如果您的训练数据集规模相对较大（大于10万），我们建议你尝试更大的初始学习率，如0.01或者更大。如果目标数据集较小，也可以冻结一些浅层的权重。此外，如果训练一个特定垂类的小数据集，也可以先在相关的大的数据集上训练一个预训练权重，再在该权重上用较小的学习率微调模型。
+**A**:在现阶段图像识别领域中，加载预训练模型来训练自己的任务已成为普遍的做法，相比从随机初始化开始训练，加载预训练模型往往可以提升特定任务的精度。一般来说，业界广泛使用的预训练模型是通过训练 128 万张图片 1000 类的 ImageNet-1k 数据集得到的，该预训练模型的 fc 层权重是是一个 k\*1000 的矩阵，其中 k 是 fc 层以前的神经元数，在加载预训练权重时，无需加载 fc 层的权重。在学习率方面，如果您的任务训练的数据集特别小（如小于 1 千张），我们建议你使用较小的初始学习率，如 0.001（batch_size:256,下同），以免较大的学习率破坏预训练权重。如果您的训练数据集规模相对较大（大于 10 万），我们建议你尝试更大的初始学习率，如 0.01 或者更大。如果目标数据集较小，也可以冻结一些浅层的权重。此外，如果训练一个特定垂类的小数据集，也可以先在相关的大的数据集上训练一个预训练权重，再在该权重上用较小的学习率微调模型。
 
 ### Q5.10 现有的策略已经让模型的精度趋于饱和，如何进一步提升特定模型的精度？
 
 **A**:如果现有的策略不能进一步提升模型的精度，说明在现有数据集和现有的策略下，模型几乎到达饱和状态，这里提供两种进一步提升模型精度的方法。
 
-- 挖掘相关数据：用在现有数据集上训练饱和的模型去对相关的数据做预测，将置信度较高的数据打label后加入训练集进一步训练，如此循环操作，可进一步提升模型的精度。
+- 挖掘相关数据：用在现有数据集上训练饱和的模型去对相关的数据做预测，将置信度较高的数据打 label 后加入训练集进一步训练，如此循环操作，可进一步提升模型的精度。
 
-- 知识蒸馏：可以先使用一个较大的模型在该数据集上训练一个精度较高的teacher model，然后使用该teacher model去教导一个Student model，其中，Student model即为目标模型。PaddleClas提供了百度自研的SSLD知识蒸馏方案，即使在ImageNet-1k这么有挑战的分类任务上，其也能稳定提升3%以上。SSLD知识蒸馏的的章节请参考[**SSLD知识蒸馏**](../advanced_tutorials/knowledge_distillation.md)。
+- 知识蒸馏：可以先使用一个较大的模型在该数据集上训练一个精度较高的 teacher model，然后使用该 teacher model 去教导一个 Student model，其中，Student model 即为目标模型。PaddleClas 提供了百度自研的 SSLD 知识蒸馏方案，即使在 ImageNet-1k 这么有挑战的分类任务上，其也能稳定提升 3% 以上。SSLD 知识蒸馏的的章节请参考 [**SSLD 知识蒸馏**](../advanced_tutorials/knowledge_distillation.md)。
 
 
 <a name="6"></a>
-## 第6期
+## 第 6 期
 
-### Q6.1: PaddleClas的几个分支有什么区别？应该如何选择？
+### Q6.1: PaddleClas 的几个分支有什么区别？应该如何选择？
 
-**A**: PaddleClas目前共有3种分支：
+**A**: PaddleClas 目前共有 3 种分支：
 
-* 开发分支：develop分支是PaddleClas的开发分支，也是更新最快的分支。所有的新功能、新改动都会先在develop分支上进行。如果想追踪PaddleClas的最新进展，可以关注这个分支。这个分支主要支持动态图，会跟着paddlepaddle的版本一起更新。
+* 开发分支：develop 分支是 PaddleClas 的开发分支，也是更新最快的分支。所有的新功能、新改动都会先在 develop 分支上进行。如果想追踪 PaddleClas 的最新进展，可以关注这个分支。这个分支主要支持动态图，会跟着 paddlepaddle 的版本一起更新。
 
-* 稳定版本分支（如release/2.1.3）：快速更新能够让关注者了解最新进展，但也会带来不稳定性。因此在一些关键的时间点，我们会从develop分支中拉出分支，提供稳定的版本，最新的稳定版分支也是默认分支。需要注意，无特殊情况，我们只会维护最新的release稳定分支，并且一般只会修复bug，而不更新新的特性和模型。
+* 稳定版本分支（如 release/2.1.3）：快速更新能够让关注者了解最新进展，但也会带来不稳定性。因此在一些关键的时间点，我们会从 develop 分支中拉出分支，提供稳定的版本，最新的稳定版分支也是默认分支。需要注意，无特殊情况，我们只会维护最新的 release 稳定分支，并且一般只会修复 bug，而不更新新的特性和模型。
 
-* 静态图分支（static）：static分支是使用静态图版本的分支，主要用来支持一些老用户的使用，也只进行一些简单维护，不会更新新的特性和模型。不建议新用户使用静态图分支。老用户如果有条件，也建议迁到动态图分支或稳定版本分支。
+* 静态图分支（static）：static 分支是使用静态图版本的分支，主要用来支持一些老用户的使用，也只进行一些简单维护，不会更新新的特性和模型。不建议新用户使用静态图分支。老用户如果有条件，也建议迁到动态图分支或稳定版本分支。
 
-总的来说，如果想跟进PaddleClas的最新进展，建议选择develop分支，如果需要稳定版本，建议选择最新的稳定版本分支。
+总的来说，如果想跟进 PaddleClas 的最新进展，建议选择 develop 分支，如果需要稳定版本，建议选择最新的稳定版本分支。
 
 ### Q6.2: 什么是静态图模式？
 
-**A**: 静态图模式即为声明式编程模式。许多深度学习框架如tensorflow，mxnet等最初都使用这种模式。在静态图模式中，需要先定义好模型结构，之后框架会根据模型结构进行编译和优化，构建"计算图"。可以简单的理解为，静态图模式是"计算图"静态不变的模式。静态图的优势在于编译器一般只需要构建一次计算图，效率相对较高，缺点在于不够灵活，调试麻烦。例如在paddle中运行一次静态图模型，需要完整所有的运算，之后根据特定的key来提取输出，无法实时得到结果。
+**A**: 静态图模式即为声明式编程模式。许多深度学习框架如 tensorflow，mxnet 等最初都使用这种模式。在静态图模式中，需要先定义好模型结构，之后框架会根据模型结构进行编译和优化，构建"计算图"。可以简单的理解为，静态图模式是"计算图"静态不变的模式。静态图的优势在于编译器一般只需要构建一次计算图，效率相对较高，缺点在于不够灵活，调试麻烦。例如在 paddle 中运行一次静态图模型，需要完整所有的运算，之后根据特定的 key 来提取输出，无法实时得到结果。
 
 ### Q6.3: 什么是动态图模式？
 
 **A**: 动态图模式即为命令式编程模式，用户无需预先定义网络结构，每行代码都可以直接运行得到结果。相比静态图模式，动态图模式对用户更加友好，调试也更方便。此外，动态图模式的结构设计也更加灵活，可以在运行过程中随时调整结构。
 
-PaddleClas目前持续更新的develop分支和稳定版本的release分支，主要采用动态图模式。如果您是新用户，建议使用动态图模式来进行开发和训练。如果推理预测时有性能需求，可以在训练完成后，将动态图模型转为静态图模型提高效率。
+PaddleClas 目前持续更新的 develop 分支和稳定版本的 release 分支，主要采用动态图模式。如果您是新用户，建议使用动态图模式来进行开发和训练。如果推理预测时有性能需求，可以在训练完成后，将动态图模型转为静态图模型提高效率。
 
 ### Q6.5: 构建分类数据集时，如何构建"背景"类别的数据？
 
diff --git a/docs/zh_CN/faq_series/faq_2021_s1.md b/docs/zh_CN/faq_series/faq_2021_s1.md
index 8eb4cbeb..910667b5 100644
--- a/docs/zh_CN/faq_series/faq_2021_s1.md
+++ b/docs/zh_CN/faq_series/faq_2021_s1.md
@@ -1,102 +1,102 @@
-# 图像分类常见问题汇总 - 2021 第1季
+# 图像分类常见问题汇总 - 2021 第 1 季
 
 
 ## 目录
-* [1. 第1期](#1)(2021.01.05)
-* [2. 第2期](#2)(2021.01.14)
-* [3. 第3期](#3)(2020.01.21)
-* [4. 第4期](#4)(2021.01.28)
-* [5. 第5期](#5)(2021.02.03)
+* [1. 第 1 期](#1)(2021.01.05)
+* [2. 第 2 期](#2)(2021.01.14)
+* [3. 第 3 期](#3)(2020.01.21)
+* [4. 第 4 期](#4)(2021.01.28)
+* [5. 第 5 期](#5)(2021.02.03)
 
 <a name="1"></a>
-## 第1期
+## 第 1 期
 
-### Q1.1: 在模型导出时，发现导出的inference model预测精度很低，这块是为什么呢？
+### Q1.1: 在模型导出时，发现导出的 inference model 预测精度很低，这块是为什么呢？
 
 **A**：可以从以下几个方面排查
 
 * 需要先排查下预训练模型路径是否正确。
-* 模型导出时，默认的类别数为1000，如果预训练模型是自定义的类别数，则在导出的时候需要指定参数`--class_num=k`，k是自定义的类别数。
-* 可以对比下`tools/infer/infer.py`和`tools/infer/predict.py`针对相同输入的输出class id与score，如果完全相同，则可能是预训练模型自身的精度很差。
+* 模型导出时，默认的类别数为 1000，如果预训练模型是自定义的类别数，则在导出的时候需要指定参数 `--class_num=k`，k 是自定义的类别数。
+* 可以对比下 `tools/infer/infer.py` 和 `tools/infer/predict.py` 针对相同输入的输出 class id 与 score，如果完全相同，则可能是预训练模型自身的精度很差。
 
 ### Q1.2: 训练样本的类别不均衡，这个该怎么处理呢？
 
 **A**：有以下几种比较常用的处理方法。
 
 * 从采样的角度出发的话
-    * 可以对样本根据类别进行动态采样，每个类别都设置不同的采样概率，保证不同类别的图片在同一个minibatch或者同一个epoch内，不同类别的训练样本数量基本一致或者符合自己期望的比例。
+    * 可以对样本根据类别进行动态采样，每个类别都设置不同的采样概率，保证不同类别的图片在同一个 minibatch 或者同一个 epoch 内，不同类别的训练样本数量基本一致或者符合自己期望的比例。
     * 可以使用过采样的方法，对图片数量较少的类别进行过采样。
 * 从损失函数的角度出发的话
-    * 可以使用OHEM(online hard example miniing)的方法，对根据样本的loss进行筛选，筛选出hard example用于模型的梯度反传和参数更新。
-    * 可以使用Focal loss的方法，对一些比较容易的样本的loss赋予较小的权重，对于难样本的loss赋予较大的权重，从而让容易样本的loss对网络整体的loss有贡献，但是又不会主导loss。
+    * 可以使用 OHEM(online hard example miniing)的方法，对根据样本的 loss 进行筛选，筛选出 hard example 用于模型的梯度反传和参数更新。
+    * 可以使用 Focal loss 的方法，对一些比较容易的样本的 loss 赋予较小的权重，对于难样本的 loss 赋予较大的权重，从而让容易样本的 loss 对网络整体的 loss 有贡献，但是又不会主导 loss。
 
 
-### Q1.3 在docker中训练的时候，数据路径和配置均没问题，但是一直报错`SystemError: (Fatal) Blocking queue is killed because the data reader raises an exception`，这是为什么呢？
+### Q1.3 在 docker 中训练的时候，数据路径和配置均没问题，但是一直报错 `SystemError: (Fatal) Blocking queue is killed because the data reader raises an exception`，这是为什么呢？
 
-**A**：这可能是因为docker中共享内存太小导致的。创建docker的时候，`/dev/shm`的默认大小为64M，如果使用多进程读取数据，共享内存可能不够，因此需要给`/dev/shm`分配更大的空间，在创建docker的时候，传入`--shm-size=8g`表示给`/dev/shm`分配8g的空间，一般是够用的。
+**A**：这可能是因为 docker 中共享内存太小导致的。创建 docker 的时候，`/dev/shm` 的默认大小为 64M，如果使用多进程读取数据，共享内存可能不够，因此需要给`/dev/shm` 分配更大的空间，在创建 docker 的时候，传入`--shm-size=8g` 表示给`/dev/shm` 分配 8g 的空间，一般是够用的。
 
 
-### Q1.4 PaddleClas提供的10W类图像分类预训练模型在哪里下载，应该怎么使用呢？
+### Q1.4 PaddleClas 提供的 10W 类图像分类预训练模型在哪里下载，应该怎么使用呢？
 
-**A**：基于ResNet50_vd, 百度开源了自研的大规模分类预训练模型，其中训练数据为10万个类别，4300万张图片。10万类预训练模型的下载地址：[下载地址](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_vd_10w_pretrained.tar)，在这里需要注意的是，该预训练模型没有提供最后的FC层参数，因此无法直接拿来预测；但是可以使用它作为预训练模型，在自己的数据集上进行微调。经过验证，该预训练模型相比于基于ImageNet1k数据集的ResNet50_vd预训练模型，在不同的数据集上均有比较明显的精度收益，最多可达30%。
+**A**：基于 ResNet50_vd, 百度开源了自研的大规模分类预训练模型，其中训练数据为 10 万个类别，4300 万张图片。10 万类预训练模型的下载地址：[下载地址](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_vd_10w_pretrained.tar)，在这里需要注意的是，该预训练模型没有提供最后的 FC 层参数，因此无法直接拿来预测；但是可以使用它作为预训练模型，在自己的数据集上进行微调。经过验证，该预训练模型相比于基于 ImageNet1k 数据集的 ResNet50_vd 预训练模型，在不同的数据集上均有比较明显的精度收益，最多可达 30%。
 <!-- TODO(gaotingquan): -->
 <!-- ，更多的对比实验可以参考：[图像分类迁移学习教程](../application/transfer_learning.md)。 -->
 
 
-### Q1.5 使用C++进行预测部署的时候怎么进行加速呢？
+### Q1.5 使用 C++ 进行预测部署的时候怎么进行加速呢？
 
 **A**：可以从以下几个方面加速预测过程。
 
-1. 如果是CPU预测的话，可以开启mkldnn进行预测，同时适当增大运算的线程数(cpu_math_library_num_threads，在`tools/config.txt`中)，一般设置为6~10比较有效。
-2. 如果是GPU预测的话，在硬件条件允许的情况下，可以开启TensorRT预测以及FP16预测，这可以进一步加快预测速度。
-3. 在内存或者显存足够的情况下，可以增大预测的batch size。
-4. 可以将图像预处理的逻辑(主要设计resize、crop、normalize等)放在GPU上运行，这可以进一步加速预测过程。
+1. 如果是 CPU 预测的话，可以开启 mkldnn 进行预测，同时适当增大运算的线程数(cpu_math_library_num_threads，在 `tools/config.txt` 中)，一般设置为 6~10 比较有效。
+2. 如果是 GPU 预测的话，在硬件条件允许的情况下，可以开启 TensorRT 预测以及 FP16 预测，这可以进一步加快预测速度。
+3. 在内存或者显存足够的情况下，可以增大预测的 batch size。
+4. 可以将图像预处理的逻辑(主要设计 resize、crop、normalize 等)放在 GPU 上运行，这可以进一步加速预测过程。
 
 更多的预测部署加速技巧，也欢迎大家补充。
 
 <a name="2"></a>
-## 第2期
+## 第 2 期
 
-### Q2.1: PaddleClas在设置标签的时候必须从0开始吗？class_num必须等于数据集的类别数吗？
+### Q2.1: PaddleClas 在设置标签的时候必须从 0 开始吗？class_num 必须等于数据集的类别数吗？
 
-**A**：在PaddleClas中，标签默认是从0开始，所以，尽量从0开始设置标签，当然，从其他值开始设置也可以，这样会导致设置的class_num增大，进而导致分类的FC层参数量较大，权重文件会占用更多的存储空间。在数据集类别连续的情况下，设置的class_num要等于数据集类别数（当然大于数据集类别数也可以，在很多数据集上甚至可以获得更高的精度，但同样会使FC层参数量较大），在数据集类别数不连续的情况下，设置的class_num要等于数据集中最大的class_id+1。
+**A**：在 PaddleClas 中，标签默认是从 0 开始，所以，尽量从 0 开始设置标签，当然，从其他值开始设置也可以，这样会导致设置的 class_num 增大，进而导致分类的 FC 层参数量较大，权重文件会占用更多的存储空间。在数据集类别连续的情况下，设置的 class_num 要等于数据集类别数（当然大于数据集类别数也可以，在很多数据集上甚至可以获得更高的精度，但同样会使 FC 层参数量较大），在数据集类别数不连续的情况下，设置的 class_num 要等于数据集中最大的 class_id+1。
 
-### Q2.2: 当类别数特别多的时候，最后的FC特别大，导致权重文件占用较大的存储空间，该怎么解决？
+### Q2.2: 当类别数特别多的时候，最后的 FC 特别大，导致权重文件占用较大的存储空间，该怎么解决？
 
-**A**：最终的FC的权重是一个大的矩阵，大小为C*class_num，其中C为FC前一层的神经单元个数，如ResNet50中的C为2048，可以通过降低C的值来进一步减小FC权重的大小，比如，可以在GAP之后加一层维数较小的FC层，这样可以大大缩小最终分类层的权重大小。
+**A**：最终的 FC 的权重是一个大的矩阵，大小为 C*class_num，其中 C 为 FC 前一层的神经单元个数，如 ResNet50 中的 C 为 2048，可以通过降低 C 的值来进一步减小 FC 权重的大小，比如，可以在 GAP 之后加一层维数较小的 FC 层，这样可以大大缩小最终分类层的权重大小。
 
-### Q2.3: 为什么使用PaddleClas在自定义的数据集上训练ssld蒸馏没有达到预期？
+### Q2.3: 为什么使用 PaddleClas 在自定义的数据集上训练 ssld 蒸馏没有达到预期？
 
-首先，需要确保Teacher模型的精度是否存在问题，其次，需要确保Student模型是否成功加载了ImageNet-1k的预训练权重以及Teacher模型是否成功加载了训练自定义数据集的权重，最后，要确保初次学习率不应太大，至少保证初始学习率不要超过训练ImageNet-1k的值。
+首先，需要确保 Teacher 模型的精度是否存在问题，其次，需要确保 Student 模型是否成功加载了 ImageNet-1k 的预训练权重以及 Teacher 模型是否成功加载了训练自定义数据集的权重，最后，要确保初次学习率不应太大，至少保证初始学习率不要超过训练 ImageNet-1k 的值。
 
 ### Q2.4: 移动端或嵌入式端上哪些网络具有优势？
 
-建议使用移动端系列的网络，网络详情可以参考[移动端系列网络结构介绍](../models/Mobile.md)。如果任务的速度更重要，可以考虑MobileNetV3系列，如果模型大小更重要，可以根据移动端系列网络结构介绍中的StorageSize-Accuracy来确定具体的结构。
+建议使用移动端系列的网络，网络详情可以参考[移动端系列网络结构介绍](../models/Mobile.md)。如果任务的速度更重要，可以考虑 MobileNetV3 系列，如果模型大小更重要，可以根据移动端系列网络结构介绍中的 StorageSize-Accuracy 来确定具体的结构。
 
-### Q2.5: 既然移动端网络非常快，为什么还要使用诸如ResNet这样参数量和计算量较大的网络？
+### Q2.5: 既然移动端网络非常快，为什么还要使用诸如 ResNet 这样参数量和计算量较大的网络？
 
-不同的网络结构在不同的设备上运行速度优势不同。在移动端，移动端系列的网络比服务器端的网络运行速度更快，但是在服务器端，相同精度下，ResNet等经过特定优化后的网络具有更大的优势，所以需要根据具体情况来选择具体的网络结构。
+不同的网络结构在不同的设备上运行速度优势不同。在移动端，移动端系列的网络比服务器端的网络运行速度更快，但是在服务器端，相同精度下，ResNet 等经过特定优化后的网络具有更大的优势，所以需要根据具体情况来选择具体的网络结构。
 
 <a name="3"></a>
-## 第3期
+## 第 3 期
 
-### Q3.1: 双（多）分支结构与Plain结构，各自有什么特点？
+### Q3.1: 双（多）分支结构与 Plain 结构，各自有什么特点？
 
 **A**：
-以VGG为代表的Plain网络，发展到以ResNet系列（带有残差模块）、Inception系列（多卷积核并行）为代表的的多分支网络结构，人们发现多分支结构在模型训练阶段更为友好，更大的网络宽度可以带来更强的特征拟合能力，而残差结构则可以避免深度网络梯度消失的问题，但是在推理阶段，带有多分支结构的模型在速度上并无优势，即使多分支结构模型的FLOPs要更低，但多分支结构的模型计算密度也更低。例如VGG16模型的FLOPs远远大于EfficientNetB3，但是VGG16模型的推理速度却显著快于EfficientNetB3，因此多分支结构在模型训练阶段更为友好，而Plain结构模型则更适合于推理阶段，那么以此为出发点，可以在训练阶段使用多分支网络结构，以更大的训练时间成本换取特征拟合能力更强的模型，而在推理阶段，将多分支结构转为Plain结构，从而换取更短的推理时间。实现多分支结构到Plain结构的转换，可以通过结构重参数化（structural re-parameterization）技术实现。
+以 VGG 为代表的 Plain 网络，发展到以 ResNet 系列（带有残差模块）、Inception 系列（多卷积核并行）为代表的的多分支网络结构，人们发现多分支结构在模型训练阶段更为友好，更大的网络宽度可以带来更强的特征拟合能力，而残差结构则可以避免深度网络梯度消失的问题，但是在推理阶段，带有多分支结构的模型在速度上并无优势，即使多分支结构模型的 FLOPs 要更低，但多分支结构的模型计算密度也更低。例如 VGG16 模型的 FLOPs 远远大于 EfficientNetB3，但是 VGG16 模型的推理速度却显著快于 EfficientNetB3，因此多分支结构在模型训练阶段更为友好，而 Plain 结构模型则更适合于推理阶段，那么以此为出发点，可以在训练阶段使用多分支网络结构，以更大的训练时间成本换取特征拟合能力更强的模型，而在推理阶段，将多分支结构转为 Plain 结构，从而换取更短的推理时间。实现多分支结构到 Plain 结构的转换，可以通过结构重参数化(structural re-parameterization)技术实现。
 
-另外，Plain结构对于剪枝操作也更为友好。
+另外，Plain 结构对于剪枝操作也更为友好。
 
-注：“Plain结构”与“结构重参数化（structural re-parameterization）技术”出自论文“RepVGG: Making VGG-style ConvNets Great Again”。Plain结构网络模型指整个网络不存在分支结构，也即网络中第`i`层layer的输入为第`i-1`层layer的输出，第`i`层layer的输出为第`i+1`层layer的输入。
+注：“Plain 结构”与“结构重参数化(structural re-parameterization)技术”出自论文“RepVGG: Making VGG-style ConvNets Great Again”。Plain 结构网络模型指整个网络不存在分支结构，也即网络中第 `i` 层 layer 的输入为第 `i-1` 层 layer 的输出，第 `i` 层 layer 的输出为第 `i+1 `层 layer 的输入。
 
-### Q3.2:  ACNet的创新点主要在哪里？
+### Q3.2:  ACNet 的创新点主要在哪里？
 **A**：
-ACNet意为“Asymmetric Convolution Block”，即为非对称卷积模块，该思想出自论文“ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks”，文章提出了以“ACB”结构的三个CNN卷积核为一组，用来在训练阶段替代现有卷积神经网络中的传统方形卷积核。
+ACNet 意为“Asymmetric Convolution Block”，即为非对称卷积模块，该思想出自论文“ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks”，文章提出了以“ACB”结构的三个 CNN 卷积核为一组，用来在训练阶段替代现有卷积神经网络中的传统方形卷积核。
 
-方形卷积核的尺寸为假设为`d*d`，即宽、高相等均为`d`，则用于替换该卷积核的ACB结构是尺寸为`d*d`、`1*d`、`d*1`的三个卷积核，然后再将三个卷积核的输出直接相加，可以得到与原有方形卷积核相同尺寸的计算结果。
-而在训练完成后，将ACB结构换回原有的方形卷积核，方形卷积核的参数则为ACB结构的三个卷积核的参数直接相加（见`Q3.4`，因此还是使用与之前相同的模型结构用于推理，ACB结构只是在训练阶段使用。
+方形卷积核的尺寸为假设为 `d*d`，即宽、高相等均为 `d`，则用于替换该卷积核的 ACB 结构是尺寸为 `d*d`、`1*d`、`d*1` 的三个卷积核，然后再将三个卷积核的输出直接相加，可以得到与原有方形卷积核相同尺寸的计算结果。
+而在训练完成后，将 ACB 结构换回原有的方形卷积核，方形卷积核的参数则为 ACB 结构的三个卷积核的参数直接相加（见 `Q3.4`，因此还是使用与之前相同的模型结构用于推理，ACB 结构只是在训练阶段使用。
 
-在训练中，通过ACB结构，模型的网络宽度得到了提高，利用`1*d`、`d*1`的两个非对称卷积核提取得到更多的特征用于丰富`d*d`卷积核提取的特征图的信息。而在推理阶段，这种设计思想并没有带来额外的参数与计算开销。如下图所示，分别是用于训练阶段和部署推理阶段的卷积核形式。
+在训练中，通过 ACB 结构，模型的网络宽度得到了提高，利用 `1*d`、`d*1` 的两个非对称卷积核提取得到更多的特征用于丰富 `d*d` 卷积核提取的特征图的信息。而在推理阶段，这种设计思想并没有带来额外的参数与计算开销。如下图所示，分别是用于训练阶段和部署推理阶段的卷积核形式。
 
 <div align="center">
     <img src="../../images/faq/TrainingtimeACNet.png" width="400">
@@ -106,64 +106,64 @@ ACNet意为“Asymmetric Convolution Block”，即为非对称卷积模块，
     <img src="../../images/faq/DeployedACNet.png" width="400">
 </div>
 
-文章作者的实验表明，通过在原有网络模型训练中使用ACNet结构可以显著提高模型能力，原作者对此有如下解释：
+文章作者的实验表明，通过在原有网络模型训练中使用 ACNet 结构可以显著提高模型能力，原作者对此有如下解释：
 
-1. 实验表明，对于一个`d*d`的卷积核，相对于消除卷积核角落位置（如上图中卷积核的`corners`位置）的参数而言，消除骨架位置（如上图中卷积核的`skeleton`位置）的参数会给模型精度带来更大的影响，因此卷积核骨架位置的参数要更为重要，而ACB结构中的两个非对称卷积核增强了方形卷积核骨架位置参数的权重，使之作用更为显著。这种相加是否会因正负数抵消作用而减弱骨架位置的参数作用，作者通过实验发现，网络的训练总是会向着提高骨架位置参数作用的方向发展，并没有出现正负数抵消而减弱的现象。
+1. 实验表明，对于一个 `d*d` 的卷积核，相对于消除卷积核角落位置（如上图中卷积核的 `corners` 位置）的参数而言，消除骨架位置（如上图中卷积核的 `skeleton` 位置）的参数会给模型精度带来更大的影响，因此卷积核骨架位置的参数要更为重要，而 ACB 结构中的两个非对称卷积核增强了方形卷积核骨架位置参数的权重，使之作用更为显著。这种相加是否会因正负数抵消作用而减弱骨架位置的参数作用，作者通过实验发现，网络的训练总是会向着提高骨架位置参数作用的方向发展，并没有出现正负数抵消而减弱的现象。
 2. 非对称卷积核对于翻转的图像具有更强的鲁棒性，如下图所示，水平的非对称卷积核对于上下翻转的图像具有更强的鲁棒性。对于翻转前后图像中语义上的同一位置，非对称卷积核提取的特征图是相同的，这一点要强于方形卷积核。
 
 <div align="center">
     <img src="../../images/faq/HorizontalKernel.png" width="400">
 </div>
 
-### Q3.3:  RepVGG的创新点主要在哪里？
+### Q3.3:  RepVGG 的创新点主要在哪里？
 
 **A**：
-通过Q3.1与Q3.2，我们可以大胆想到，是否可以借鉴ACNet将训练阶段与推理阶段解耦，并且训练阶段使用多分支结构，推理阶段使用Plain结构，这也就是RepVGG的创新点。下图为ResNet、RepVGG训练和推理阶段网络结构的对比。
+通过 Q3.1 与 Q3.2，我们可以大胆想到，是否可以借鉴 ACNet 将训练阶段与推理阶段解耦，并且训练阶段使用多分支结构，推理阶段使用 Plain 结构，这也就是 RepVGG 的创新点。下图为 ResNet、RepVGG 训练和推理阶段网络结构的对比。
 
 <div align="center">
     <img src="../../images/faq/RepVGG.png" width="400">
 </div>
 
-首先训练阶段的RepVGG采用多分支结构，可以看作是在传统VGG网络的基础上，增加了`1*1`卷积和恒等映射的残差结构，而推理阶段的RepVGG则退化为VGG结构。训练阶段RepVGG到推理阶段RepVGG的网络结构转换使用“结构重参数化”技术实现。
+首先训练阶段的 RepVGG 采用多分支结构，可以看作是在传统 VGG 网络的基础上，增加了 `1*1` 卷积和恒等映射的残差结构，而推理阶段的 RepVGG 则退化为 VGG 结构。训练阶段 RepVGG 到推理阶段 RepVGG 的网络结构转换使用“结构重参数化”技术实现。
 
-对于恒等映射，可将其视为参数均为`1`的`1*1`卷积核作用在输入特征图的输出结果，因此训练阶段的RepVGG的卷积模块可以视为两个`1*1`卷积和一个`3*3`卷积，而`1*1`卷积的参数又可以直接相加到`3*3`卷积核中心位置的参数上（该操作类似于ACNet中，非对称卷积核参数相加到方形卷积核骨架位置参数的操作），通过上述操作，即可在推理阶段，将网络结构中的恒等映射、`1*1`卷积、`3*3`卷积三个分支合并为一个`3*3`卷积，详见`Q3.4`。
+对于恒等映射，可将其视为参数均为 `1` 的 `1*1` 卷积核作用在输入特征图的输出结果，因此训练阶段的 RepVGG 的卷积模块可以视为两个` 1*1` 卷积和一个 `3*3` 卷积，而 `1*1` 卷积的参数又可以直接相加到 `3*3` 卷积核中心位置的参数上（该操作类似于 ACNet 中，非对称卷积核参数相加到方形卷积核骨架位置参数的操作），通过上述操作，即可在推理阶段，将网络结构中的恒等映射、`1*1 `卷积、`3*3` 卷积三个分支合并为一个 `3*3` 卷积，详见 `Q3.4`。
 
-### Q3.4:  ACNet与RepVGG中的struct re-parameters有何异同？
+### Q3.4:  ACNet 与 RepVGG 中的 struct re-parameters 有何异同？
 
 **A**：
-通过上面的了解，可以简单理解RepVGG是更为极端的ACNet。ACNet中的re-parameters操作如下图所示：
+通过上面的了解，可以简单理解 RepVGG 是更为极端的 ACNet。ACNet 中的 re-parameters 操作如下图所示：
 
 <div align="center">
     <img src="../../images/faq/ACNetReParams.png" width="400">
 </div>
 
-观察上图，以其中的`conv2`为例，该非对称卷积可以视为`3*3`的方形卷积核，只不过该方形卷积核的上下六个参数为`0`，`conv3`同理。并且，`conv1`、`conv2`、`conv3`的结果相加，等同于三个卷积核相加再做卷积，以`Conv`表示卷积操作，`+`表示矩阵的加法操作，则：`Conv1(A)+Conv2(A)+Conv3(A) == Convk(A)`，其中`Conv1`、`Conv2`、`Conv3`的卷积核分别为`Kernel1`、`kernel2`、`kernel3`，而`Convk`的卷积核为`Kernel1 + kernel2 + kernel3`。
+观察上图，以其中的 `conv2` 为例，该非对称卷积可以视为 `3*3` 的方形卷积核，只不过该方形卷积核的上下六个参数为 `0`，`conv3` 同理。并且，`conv1`、`conv2`、`conv3` 的结果相加，等同于三个卷积核相加再做卷积，以 `Conv` 表示卷积操作，`+`表示矩阵的加法操作，则：`Conv1(A)+Conv2(A)+Conv3(A) == Convk(A)`，其中 `Conv1`、`Conv2`、`Conv3` 的卷积核分别为 `Kernel1`、`kernel2`、`kernel3`，而 `Convk` 的卷积核为 `Kernel1 + kernel2 + kernel3`。
 
-RepVGG网络与ACNet同理，只不过ACNet的`1*d`非对称卷积变成了`1*1`卷积，`1*1`卷积相加的位置变成了`3*3`卷积的中心。
+RepVGG 网络与 ACNet 同理，只不过 ACNet 的 `1*d` 非对称卷积变成了 `1*1` 卷积，`1*1` 卷积相加的位置变成了 `3*3` 卷积的中心。
 
 ### Q3.5:  影响模型计算速度的因素都有哪些？参数量越大的模型计算速度一定更慢吗？
 
 **A**：
 影响模型计算速度的因素有很多，参数量只是其中之一。具体来说，在不考虑硬件差异的前提下，模型的计算速度可以参考以下几个方面：
-1. 参数量：用于衡量模型的参数数量，模型的参数量越大，模型在计算时对内存（显存）的容量要求一般也更高。但内存（显存）占用大小不完全取决于参数量。如下图中，假设输入特征图内存占用大小为`1`个单位，对于左侧的残差结构而言，由于需要记录两个分支的运算结果，然后再相加，因此该结构在计算时的内存峰值占用是右侧Plain结构的两倍。
+1. 参数量：用于衡量模型的参数数量，模型的参数量越大，模型在计算时对内存（显存）的容量要求一般也更高。但内存（显存）占用大小不完全取决于参数量。如下图中，假设输入特征图内存占用大小为 `1` 个单位，对于左侧的残差结构而言，由于需要记录两个分支的运算结果，然后再相加，因此该结构在计算时的内存峰值占用是右侧 Plain 结构的两倍。
 
 <div align="center">
     <img src="../../images/faq/MemoryOccupation.png" width="400">
 </div>
 
-2. 浮点运算数量（FLOPs）：注意与每秒浮点运算次数（FLOPS）相区分。FLOPs可以简单理解为计算量，通常用来衡量一个模型的计算复杂度。
-以常见的卷积操作为例，在不考虑batch size、激活函数、stride操作、bias的前提下，假设input future map尺寸为`Min*Min`，通道数为`Cin`，output future map尺寸为`Mout*Mout`，通道数为`Cout`，conv kernel尺寸为`K*K`，则进行一次卷积的FLOPs可以通过下述方式计算：
+2. 浮点运算数量（FLOPs）：注意与每秒浮点运算次数（FLOPS）相区分。FLOPs 可以简单理解为计算量，通常用来衡量一个模型的计算复杂度。
+以常见的卷积操作为例，在不考虑 batch size、激活函数、stride 操作、bias 的前提下，假设 input future map 尺寸为 `Min*Min`，通道数为 `Cin`，output future map 尺寸为 `Mout*Mout`，通道数为 `Cout`，conv kernel 尺寸为 `K*K`，则进行一次卷积的 FLOPs 可以通过下述方式计算：
     1. 输出特征图包含特征点的数量为：`Cout * Mout * Mout`；
     2. 对于输出特征图中的每一个特征点的卷积操作而言：
         乘法计算数量为：`Cin * K * K`；
         加法计算数量为：`Cin * K * K - 1`；
-    3. 因此计算总量为：`Cout * Mout * Mout * (Cin * K * K + Cin * K * K - 1)`，也即`Cout * Mout * Mout * (2Cin * K * K - 1)`。
-3. Memory Access Cost（MAC）：内存访问成本，由于计算机在对数据进行运算（例如乘法、加法）前，需要将运算的数据从内存（此处泛指内存，包括显存）读取到运算器的Cache中，而内存的访问是十分耗时的。以分组卷积为例，假设分为`g`组，虽然分组后模型的参数量和FLOPs没有变化，但是分组卷积的内存访问次数成为之前的`g`倍（此处只是简单计算，未考虑多级Cache），因此MAC显著提高，模型的计算速度也相应变慢。
-4. 并行度：常说的并行度包括数据并行和模型并行两部分，此处是指模型并行。以卷积操作为例，一个卷积层的参数量通常十分庞大，如果将卷积层中的矩阵做分块处理，然后分别交由多个GPU进行运算，即可达到加速的目的。甚至有的网络层参数量过大，单张GPU显存无法容纳时，也可能将该层分由多个GPU计算，但是能否分由多个GPU并行运算，不仅取决于硬件条件，也受特定的运算形式所限制。当然，并行度越高的模型，其运行速度也越快。
+    3. 因此计算总量为：`Cout * Mout * Mout * (Cin * K * K + Cin * K * K - 1)`，也即 `Cout * Mout * Mout * (2Cin * K * K - 1)`。
+3. Memory Access Cost（MAC）：内存访问成本，由于计算机在对数据进行运算（例如乘法、加法）前，需要将运算的数据从内存（此处泛指内存，包括显存）读取到运算器的 Cache 中，而内存的访问是十分耗时的。以分组卷积为例，假设分为 `g` 组，虽然分组后模型的参数量和 FLOPs 没有变化，但是分组卷积的内存访问次数成为之前的 `g` 倍（此处只是简单计算，未考虑多级 Cache），因此 MAC 显著提高，模型的计算速度也相应变慢。
+4. 并行度：常说的并行度包括数据并行和模型并行两部分，此处是指模型并行。以卷积操作为例，一个卷积层的参数量通常十分庞大，如果将卷积层中的矩阵做分块处理，然后分别交由多个 GPU 进行运算，即可达到加速的目的。甚至有的网络层参数量过大，单张 GPU 显存无法容纳时，也可能将该层分由多个 GPU 计算，但是能否分由多个 GPU 并行运算，不仅取决于硬件条件，也受特定的运算形式所限制。当然，并行度越高的模型，其运行速度也越快。
 
 <a name="4"></a>
 
-## 第4期
+## 第 4 期
 
 ### Q4.1: 图像分类任务中，有一部分合成数据，这一部分合成数据是否需要使用样本均衡？
 
@@ -173,97 +173,97 @@ RepVGG网络与ACNet同理，只不过ACNet的`1*d`非对称卷积变成了`1*1`
 2. 如果是有的类别是合成而有的类别半合成半真实，只要数量在一个量级可不做均衡，并尝试训练一下，测试该合成类别样本是否能够准确识别。
 3. 如果不同来源数据的类别因合成数据增大问题，造成性能衰减，需要考虑合成数据集是否有噪声或者难例样本，也可适当增加该类别权重，获得该类别更好的识别性能。
 
-### Q4.2: 学术界将Vision Transformer(ViT)引入图像分类领域，将对图像分类带来什么新的机遇和挑战？相比于CNN的优势？
+### Q4.2: 学术界将 Vision Transformer(ViT)引入图像分类领域，将对图像分类带来什么新的机遇和挑战？相比于 CNN 的优势？
 
 论文地址[AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE](https://openreview.net/pdf?id=YicbFdNTTy)
 
 **A**:
-1. 图像对CNN的依赖是不必要的，利用Transformer的计算效率和可伸缩性，可以训练很大模型，当模型和数据集增大的情形下，仍然不会存在饱和的情况。受到Transformer在NLP上的启发，在图像分类任务中使用时，将图片分成顺序排列的patches，并将这些patches输入一个线性单元嵌入到embedding作为transformer的输入。
+1. 图像对 CNN 的依赖是不必要的，利用 Transformer 的计算效率和可伸缩性，可以训练很大模型，当模型和数据集增大的情形下，仍然不会存在饱和的情况。受到 Transformer 在 NLP 上的启发，在图像分类任务中使用时，将图片分成顺序排列的 patches，并将这些 patches 输入一个线性单元嵌入到 embedding 作为 transformer 的输入。
 
-2. 在中等规模数据集中如ImageNet1k，ImageNet21k，视觉Transformer模型低于相同规模尺寸的ResNet几个百分点。猜测这是因为transformer缺少CNN所具有的局部性(Locality)和空间不变性(Spatial Invariance)的特点，而在数据量不够大的时候，难以超越卷积网络，不过对于这一问题，[DeiT](https://arxiv.org/abs/2012.12877)使用数据增强的方式在一定程度上解决了Vision Transformer依赖超大规模数据集训练的问题。
+2. 在中等规模数据集中如 ImageNet1k，ImageNet21k，视觉 Transformer 模型低于相同规模尺寸的 ResNet 几个百分点。猜测这是因为 transformer 缺少 CNN 所具有的局部性(Locality)和空间不变性(Spatial Invariance)的特点，而在数据量不够大的时候，难以超越卷积网络，不过对于这一问题，[DeiT](https://arxiv.org/abs/2012.12877)使用数据增强的方式在一定程度上解决了 Vision Transformer 依赖超大规模数据集训练的问题。
 
-3. 在超大规模数据集14M-300M训练时，这种方式可以越过局部信息，建模更加长距离的依赖关系，而CNN能较好关注局部信息全局信息捕获能力较弱。
+3. 在超大规模数据集 14M-300M 训练时，这种方式可以越过局部信息，建模更加长距离的依赖关系，而 CNN 能较好关注局部信息全局信息捕获能力较弱。
 
-4. Transformer一度在NLP领域一统江湖，也一度被质疑不适用于CV领域，当前出来的几片视觉领域的文章，性能也是直逼CNN的SOTA。相信在未来能够提出Vision-Language联合或者多模态的模型，能够一并解决视觉和语言问题。
+4. Transformer 一度在 NLP 领域一统江湖，也一度被质疑不适用于 CV 领域，当前出来的几片视觉领域的文章，性能也是直逼 CNN 的 SOTA。相信在未来能够提出 Vision-Language 联合或者多模态的模型，能够一并解决视觉和语言问题。
 
 
-### Q4.3: 对于Vision Transformer模型，是如何将图像转换成序列信息传给Encoder？
+### Q4.3: 对于 Vision Transformer 模型，是如何将图像转换成序列信息传给 Encoder？
 
 **A**:
 
-1. 使用Transformer模型，主要是使用其中的注意力方法。我们希望构想一个适用语义embedding信息的场景，但是图像分类与序列的语义信息关联性不大，因此Vision Transformer有其独特的设计。ViT的目标也正是希望使用注意力机制来代替CNN。
+1. 使用 Transformer 模型，主要是使用其中的注意力方法。我们希望构想一个适用语义 embedding 信息的场景，但是图像分类与序列的语义信息关联性不大，因此 Vision Transformer 有其独特的设计。ViT 的目标也正是希望使用注意力机制来代替 CNN。
 
-2. 考虑Transformer中Encoder编码器的输入形式，如下图:
-    * (1)不定长度的顺序输入，因为它是RNN结构，一句话，单词数不一样。如果是NLP场景，换词的顺序不太过于影响语义，但是图像换了不同区域的位置，不同区域连接顺序不同，将造成极大理解偏差。
-    * (2)单个patch位置信息通过变换成一个维度固定的向量，Encoder输入是patch像素信息embedding，与一些固定位置的向量concate，合成一个维度固定的向量和位置信息在其中。
+2. 考虑 Transformer 中 Encoder 编码器的输入形式，如下图:
+    * (1)不定长度的顺序输入，因为它是 RNN 结构，一句话，单词数不一样。如果是 NLP 场景，换词的顺序不太过于影响语义，但是图像换了不同区域的位置，不同区域连接顺序不同，将造成极大理解偏差。
+    * (2)单个 patch 位置信息通过变换成一个维度固定的向量，Encoder 输入是 patch 像素信息 embedding，与一些固定位置的向量 concate，合成一个维度固定的向量和位置信息在其中。
 
 <div align="center">
     <img src="../../images/faq/Transformer_input.png" width="400">
 </div>
 
-3. 考虑以下问题：怎样将一张图片传给encoder？
+3. 考虑以下问题：怎样将一张图片传给 encoder？
 
-* 如下图所示。假设输入图片是[224,224,3]，按照顺序从左到右，从上到下，切分成很多个patch，patch大小可以为[p,p,3]（p取值可以是16，32），对其使用Linear Projection of Flattened Patches模块转成特征向量，并concat一个位置向量，传入Encoder中。
+* 如下图所示。假设输入图片是[224,224,3]，按照顺序从左到右，从上到下，切分成很多个 patch，patch 大小可以为[p,p,3]（p 取值可以是 16，32），对其使用 Linear Projection of Flattened Patches 模块转成特征向量，并 concat 一个位置向量，传入 Encoder 中。
 
 <div align="center">
     <img src="../../images/faq/ViT_structure.png" width="400">
 </div>
 
-4. 如上图，给定一个`H×W×C`的图像以及区块大小P，可以把图像划分为`N`个`P×P×C`的区块，`N=H×W/(P×P)`。得到区块后要使用线性变换转为D维特征向量，再加上位置编码向量即可。和BERT类似，ViT 在序列之前也加入了一个分类标志位，记为`[CLS]`。ViT输入序列`z`如下面的公式所示，其中`x`表示一个图像区块。
+4. 如上图，给定一个 `H×W×C` 的图像以及区块大小 P，可以把图像划分为 `N` 个 `P×P×C` 的区块，`N=H×W/(P×P)`。得到区块后要使用线性变换转为 D 维特征向量，再加上位置编码向量即可。和 BERT 类似，ViT 在序列之前也加入了一个分类标志位，记为`[CLS]`。ViT 输入序列 `z` 如下面的公式所示，其中 `x` 表示一个图像区块。
 
 <div align="center">
     <img src="../../images/faq/ViT.png" width="400">
 </div>
 
-5. ViT 模型和 Transformer 基本一样，输入序列传入 ViT，然后利用`[CLS]`标志位的最终输出特征进行分类。ViT主要由MSA(多头自注意力)和MLP(两层使用GELU激活函数的全连接网络)组成，在MSA和MLP之前加上LayerNorm和残差连接。
+5. ViT 模型和 Transformer 基本一样，输入序列传入 ViT，然后利用`[CLS]`标志位的最终输出特征进行分类。ViT 主要由 MSA(多头自注意力)和 MLP(两层使用 GELU 激活函数的全连接网络)组成，在 MSA 和 MLP 之前加上 LayerNorm 和残差连接。
 
-### Q4.4: 如何理解归纳偏置Inductive Bias？
+### Q4.4: 如何理解归纳偏置 Inductive Bias？
 
 **A**:
-1. 在机器学习中，会对算需要应用的问题做一些假设，这个假设就称为归纳偏好。在现实生活中观察得到的现象中归纳出一定的先验规则，然后对模型做一定的约束，从而起到模型选择的作用。在CNN中，假设特征具有局部性(Locality)和空间不变性(Spatial Invariance)的特点，即把相邻的特征有联系而远离的没有，将相邻特征融合在一起，更会容易产生“解”；还有attention机制，也是从人的直觉、生活经验归纳的规则。
+1. 在机器学习中，会对算需要应用的问题做一些假设，这个假设就称为归纳偏好。在现实生活中观察得到的现象中归纳出一定的先验规则，然后对模型做一定的约束，从而起到模型选择的作用。在 CNN 中，假设特征具有局部性(Locality)和空间不变性(Spatial Invariance)的特点，即把相邻的特征有联系而远离的没有，将相邻特征融合在一起，更会容易产生“解”；还有 attention 机制，也是从人的直觉、生活经验归纳的规则。
 
-2. Vision Transformer利用的归纳偏置是有序列能力Sequentiality和时间不变性Time Invariance，即序列顺序上的时间间隔的联系，因此也能得出在更大规模数据集上比CNN类的模型有更好的性能。文章Conclusion里的“Unlike prior works using self-attention in computer vision, we do not introduce any image-specific inductive biases into the architecture”和Introduction里的“We find that large scale training trumps inductive bias”，可以得出直观上inductive bias在大量数据的情况中的产生是衰减性能，应该尽可能丢弃。
+2. Vision Transformer 利用的归纳偏置是有序列能力 Sequentiality 和时间不变性 Time Invariance，即序列顺序上的时间间隔的联系，因此也能得出在更大规模数据集上比 CNN 类的模型有更好的性能。文章 Conclusion 里的“Unlike prior works using self-attention in computer vision, we do not introduce any image-specific inductive biases into the architecture”和 Introduction 里的“We find that large scale training trumps inductive bias”，可以得出直观上 inductive bias 在大量数据的情况中的产生是衰减性能，应该尽可能丢弃。
 
-### Q4.5: ViT为什么要增加一个[CLS]标志位? 为什么将[CLS]标志位对应的向量作为整个序列的语义表示?
+### Q4.5: ViT 为什么要增加一个[CLS]标志位? 为什么将[CLS]标志位对应的向量作为整个序列的语义表示?
 
 **A**:
-1. 和BERT相类似，ViT在第一个patch前添加一个`[CLS]`标志位，最后一个结束标志位对应的向量可以作为整个图像的语义表示，从而用于下游的分类任务等。从而使得整个embedding组可以表征该图像不同位置的特征。
+1. 和 BERT 相类似，ViT 在第一个 patch 前添加一个`[CLS]`标志位，最后一个结束标志位对应的向量可以作为整个图像的语义表示，从而用于下游的分类任务等。从而使得整个 embedding 组可以表征该图像不同位置的特征。
 
-2. 将`[CLS]`标志位对应的向量作为整个图像的语义表示，是因为与图像中已有的其它patch块图像相比，这个无明显语义信息的符号会更“公平”地融合图像中各个patch的语义信息，从而更好的表示整个图像的语义。
+2. 将`[CLS]`标志位对应的向量作为整个图像的语义表示，是因为与图像中已有的其它 patch 块图像相比，这个无明显语义信息的符号会更“公平”地融合图像中各个 patch 的语义信息，从而更好的表示整个图像的语义。
 
 <a name="5"></a>
-## 第5期
+## 第 5 期
 
-### Q5.1: PaddleClas训练配置文件中都包含了哪些内容？训练模型时如何进行修改？
+### Q5.1: PaddleClas 训练配置文件中都包含了哪些内容？训练模型时如何进行修改？
 **A**:
-PaddleClas的模型包含6大模块的配置，分别为：全局配置，网络结构(ARCHITECTURE)，学习率(LEARNING_RATE)，优化器(OPTIMIZER)，训练(TRAIN)和验证(VALID)。
+PaddleClas 的模型包含 6 大模块的配置，分别为：全局配置，网络结构(ARCHITECTURE)，学习率(LEARNING_RATE)，优化器(OPTIMIZER)，训练(TRAIN)和验证(VALID)。
 
-全局配置主要包含了任务的配置信息，例如类别的数量，训练集内的数据量，训练的epoch数量，网络输入的尺寸等等。如果要训练自定义的任务，或是使用自己的训练集，需要关注这个部分。
+全局配置主要包含了任务的配置信息，例如类别的数量，训练集内的数据量，训练的 epoch 数量，网络输入的尺寸等等。如果要训练自定义的任务，或是使用自己的训练集，需要关注这个部分。
 
 网络结构的配置定义了要使用的网络。在实际使用时，首先要选择合适的配置文件，所以通常不会修改这部分配置。只有在自定义网络结构，或者对任务有特殊要求时才进行修改。
 
 学习率和优化器的配置建议优先使用默认配置，这些参数是我们已经调过的。如果任务的改动比较大，也可以做微调。
 
-训练和预测两个配置包含了batch_size，数据集，数据预处理（transforms），读数据进程数（num_workers）等比较重要的配置，这部分要根据实际环境适度修改。要注意的是，paddleclas中的batch_size是单卡配置，如果是多卡训练，则总的batch_size是配置文件中所设置的倍数，例如配置文件中设置batch_size为64，4卡训练，总batch_size也就是4*64=256。而num_workers定义的是单卡的进程数，即如果num_workers是8，并且使用4卡训练，则实际有32个worker。
+训练和预测两个配置包含了 batch_size，数据集，数据预处理(transforms)，读数据进程数(num_workers)等比较重要的配置，这部分要根据实际环境适度修改。要注意的是，paddleclas 中的 batch_size 是单卡配置，如果是多卡训练，则总的 batch_size 是配置文件中所设置的倍数，例如配置文件中设置 batch_size 为 64，4 卡训练，总 batch_size 也就是 4*64=256。而 num_workers 定义的是单卡的进程数，即如果 num_workers 是 8，并且使用 4 卡训练，则实际有 32 个 worker.
 
 ### Q5.2: 如何在命令行中快速的修改配置？
 **A**:
-在训练中，我们常常需要对个别配置不断进行微调，而不希望频繁的修改配置文件。这时可以使用-o来调整，修改是要先按层级写出要改的配置名称，层级之间用点分割，再写出要修改的值。例如我们想要修改batch_size，可以在训练的命令后加上-o DataLoader.TRAIN.sampler.batch_size=512。
+在训练中，我们常常需要对个别配置不断进行微调，而不希望频繁的修改配置文件。这时可以使用 -o 来调整，修改是要先按层级写出要改的配置名称，层级之间用点分割，再写出要修改的值。例如我们想要修改 batch_size，可以在训练的命令后加上-o DataLoader.TRAIN.sampler.batch_size=512。
 
-### Q5.3: 如何根据PaddleClas的精度曲线选择合适的模型？
+### Q5.3: 如何根据 PaddleClas 的精度曲线选择合适的模型？
 **A**:
-PaddleClas提供了多个模型的benchmark，并绘制了性能曲线，主要有三种：准确率-预测时间曲线，准确率-参数量曲线和准确率-FLOPS曲线，纵轴为准确率，横轴分别为预测时间、参数量、FLOPS。一般来说，不同模型在三个图上的表现是一致的。同一个系列的模型在图上采用相同的符号来表示，并且用曲线连接。
+PaddleClas 提供了多个模型的 benchmark，并绘制了性能曲线，主要有三种：准确率-预测时间曲线，准确率-参数量曲线和准确率-FLOPS 曲线，纵轴为准确率，横轴分别为预测时间、参数量、FLOPS。一般来说，不同模型在三个图上的表现是一致的。同一个系列的模型在图上采用相同的符号来表示，并且用曲线连接。
 
-以准确率-预测时间曲线为例，点越靠上表明准确率越高，约靠左表明速度越快。例如左上区域的模型为又快又准的模型，而最左侧贴近纵轴的点则为轻量级的模型。使用时，可以综合考虑准确率和时间因素，选择合适的模型。举个例子，我们希望模型的运行时间在10ms以下，选择最准确的模型。首先，在横轴的10ms出画一条垂直的线，之后在这条线的左侧找到最高的点，就是符合要求的模型。
+以准确率-预测时间曲线为例，点越靠上表明准确率越高，约靠左表明速度越快。例如左上区域的模型为又快又准的模型，而最左侧贴近纵轴的点则为轻量级的模型。使用时，可以综合考虑准确率和时间因素，选择合适的模型。举个例子，我们希望模型的运行时间在 10ms 以下，选择最准确的模型。首先，在横轴的 10ms 出画一条垂直的线，之后在这条线的左侧找到最高的点，就是符合要求的模型。
 
-实际使用中，模型的参数量和FLOPS是稳定不变的，而运算时间在不同的软硬件条件下均会有所变化。如果想更准确的选择模型，那么可以在自己的环境中运行测试，得到该环境下的性能图。
+实际使用中，模型的参数量和 FLOPS 是稳定不变的，而运算时间在不同的软硬件条件下均会有所变化。如果想更准确的选择模型，那么可以在自己的环境中运行测试，得到该环境下的性能图。
 
-### Q5.4: 想在imagenet中增加两个类，能不能把现有全连接层的参数固定，只训练新的两个类别？
+### Q5.4: 想在 imagenet 中增加两个类，能不能把现有全连接层的参数固定，只训练新的两个类别？
 **A**:
 这个想法理论上可行，但效果恐怕不会太好。如果只是固定全连接层，而前面的卷积层参数发生了变化，那么这些全连接层的作用也无法保证与开始一样。而如果保持整个网络的参数都不变，只训练全连接层的新增两个类别，也比较难训练处理想的结果。
 
-如果实际使用中确实需要原有的1000个类别依然很准确，那么可以将新类别的数据加入到原有训练集中，再用预训练模型进行finetune。如果只需要1000个类中的几个类别，那么可以把这部分的数据挑出来，和新增数据混合再finetune。
+如果实际使用中确实需要原有的 1000 个类别依然很准确，那么可以将新类别的数据加入到原有训练集中，再用预训练模型进行 finetune。如果只需要 1000 个类中的几个类别，那么可以把这部分的数据挑出来，和新增数据混合再 finetune。
 
-### Q5.5: 使用分类模型做其他任务的预训练模型时，应该选择哪些层作为feature？
+### Q5.5: 使用分类模型做其他任务的预训练模型时，应该选择哪些层作为 feature？
 **A**:
-使用分类模型做其他任务的backbone有很多策略，这里介绍一种较为基础的方法。首先，去掉最后的全连接层，这一层主要包含的是原始任务的分类信息。如果任务比较简单，只要将前一层的输出作为featuremap，并在此基础上添加与任务对应的结构即可。如果任务涉及多尺度，需要选取不同尺度的anchor，例如某些检测模型，那么可以选取每次下采样之前一层的输出作为featuremap。
+使用分类模型做其他任务的 backbone 有很多策略，这里介绍一种较为基础的方法。首先，去掉最后的全连接层，这一层主要包含的是原始任务的分类信息。如果任务比较简单，只要将前一层的输出作为 featuremap，并在此基础上添加与任务对应的结构即可。如果任务涉及多尺度，需要选取不同尺度的 anchor，例如某些检测模型，那么可以选取每次下采样之前一层的输出作为 featuremap。
diff --git a/docs/zh_CN/faq_series/faq_2021_s2.md b/docs/zh_CN/faq_series/faq_2021_s2.md
index 46e1dbbe..60eab6e7 100644
--- a/docs/zh_CN/faq_series/faq_2021_s2.md
+++ b/docs/zh_CN/faq_series/faq_2021_s2.md
@@ -1,8 +1,8 @@
-# PaddleClas 相关常见问题汇总 - 2021 第2季
+# PaddleClas 相关常见问题汇总 - 2021 第 2 季
 
 ## 写在前面
 
-* 我们收集整理了开源以来在issues和用户群中的常见问题并且给出了简要解答，旨在为广大用户提供一些参考，也希望帮助大家少走一些弯路。
+* 我们收集整理了开源以来在 issues 和用户群中的常见问题并且给出了简要解答，旨在为广大用户提供一些参考，也希望帮助大家少走一些弯路。
 
 * 图像分类、识别、检索领域大佬众多，模型和论文更新速度也很快，本文档回答主要依赖有限的项目实践，难免挂一漏万，如有遗漏和不足，也希望有识之士帮忙补充和修正，万分感谢。
 
@@ -10,7 +10,7 @@
 * [近期更新](#近期更新)(2021.09.08)
 * [精选](#精选)
 * [1. 理论篇](#1)
-    * [1.1 PaddleClas基础知识](#1.1)
+    * [1.1 PaddleClas 基础知识](#1.1)
     * [1.2 骨干网络和预训练模型库](#1.2)
     * [1.3 图像分类](#1.3)
     * [1.4 通用检测模块](#1.4)
@@ -36,13 +36,13 @@
 
 * 使用 `Mixup` 或 `Cutmix` 做训练时无法计算训练的精度（Acc）指标，因此需要在配置文件中取消 `Metric.Train.TopkAcc` 字段，可参考 [Metric.Train.TopkAcc](../../../ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L125-L128)。
 
-#### Q2.1.9: 训练配置yaml文件中，字段 `Global.pretrain_model` 和 `Global.checkpoints` 分别用于配置什么呢？
+#### Q2.1.9: 训练配置 yaml 文件中，字段 `Global.pretrain_model` 和 `Global.checkpoints` 分别用于配置什么呢？
 **A**：
 * 当需要 `fine-tune` 时，可以通过字段 `Global.pretrain_model` 配置预训练模型权重文件的路径，预训练模型权重文件后缀名通常为 `.pdparams`；
-* 在训练过程中，训练程序会自动保存每个epoch结束时的断点信息，包括优化器信息 `.pdopt` 和模型权重信息 `.pdparams`。在训练过程意外中断等情况下，需要恢复训练时，可以通过字段 `Global.checkpoints` 配置训练过程中保存的断点信息文件，例如通过配置 `checkpoints: ./output/ResNet18/epoch_18` 即可恢复18epoch训练结束时的断点信息，PaddleClas将自动加载 `epoch_18.pdopt` 和 `epoch_18.pdparams`，从19epoch继续训练。
+* 在训练过程中，训练程序会自动保存每个 epoch 结束时的断点信息，包括优化器信息 `.pdopt` 和模型权重信息 `.pdparams`。在训练过程意外中断等情况下，需要恢复训练时，可以通过字段 `Global.checkpoints` 配置训练过程中保存的断点信息文件，例如通过配置 `checkpoints: ./output/ResNet18/epoch_18` 即可恢复 18 epoch 训练结束时的断点信息，PaddleClas 将自动加载 `epoch_18.pdopt` 和 `epoch_18.pdparams`，从 19 epoch 继续训练。
 
 #### Q2.6.3: 如何将模型转为 `ONNX` 格式？
-**A**：Paddle支持两种转ONNX格式模型的方式，且依赖于 `paddle2onnx` 工具，首先需要安装 `paddle2onnx`：
+**A**：Paddle 支持两种转 ONNX 格式模型的方式，且依赖于 `paddle2onnx` 工具，首先需要安装 `paddle2onnx`：
 
 ```shell
 pip install paddle2onnx
@@ -62,7 +62,7 @@ pip install paddle2onnx
 
     关于静态图导出的非 `combined` 格式的 inference model（通常包含文件 `__model__` 和多个参数文件）转换模型格式，以及更多参数说明请参考 paddle2onnx 官方文档 [paddle2onnx](https://github.com/PaddlePaddle/Paddle2ONNX/blob/develop/README_zh.md#%E5%8F%82%E6%95%B0%E9%80%89%E9%A1%B9)。
 
-* 直接从模型组网代码导出ONNX格式模型：
+* 直接从模型组网代码导出 ONNX 格式模型：
 
     以动态图模型组网代码为例，模型类为继承于 `paddle.nn.Layer` 的子类，代码如下所示：
 
@@ -87,7 +87,7 @@ pip install paddle2onnx
     需要注意，`paddlepaddle` 版本需大于 `2.0.0`。关于 `paddle.onnx.export()` 函数的更多参数说明请参考[paddle.onnx.export](https://www.paddlepaddle.org.cn/documentation/docs/zh/api/paddle/onnx/export_cn.html#export)。
 
 #### Q2.5.4: 在 build 检索底库时，参数 `pq_size` 应该如何设置？
-**A**：`pq_size` 是PQ检索算法的参数。PQ检索算法可以简单理解为“分层”检索算法，`pq_size` 是每层的“容量”，因此该参数的设置会影响检索性能，不过，在底库总数据量不太大（小于10000张）的情况下，这个参数对性能的影响很小，因此对于大多数使用场景而言，在构建底库时无需修改该参数。关于PQ检索算法的更多内容，可以查看相关[论文](https://lear.inrialpes.fr/pubs/2011/JDS11/jegou_searching_with_quantization.pdf)。
+**A**：`pq_size` 是 PQ 检索算法的参数。PQ 检索算法可以简单理解为“分层”检索算法，`pq_size` 是每层的“容量”，因此该参数的设置会影响检索性能，不过，在底库总数据量不太大（小于 10000 张）的情况下，这个参数对性能的影响很小，因此对于大多数使用场景而言，在构建底库时无需修改该参数。关于 PQ 检索算法的更多内容，可以查看相关[论文](https://lear.inrialpes.fr/pubs/2011/JDS11/jegou_searching_with_quantization.pdf)。
 
 <a name="精选"></a>
 ## 精选
@@ -96,10 +96,10 @@ pip install paddle2onnx
 ## 1. 理论篇
 
 <a name="1.1"></a>
-### 1.1 PaddleClas基础知识
+### 1.1 PaddleClas 基础知识
 
-#### Q1.1.1 PaddleClas和PaddleDetection区别
-**A**：PaddleClas是一个兼主体检测、图像分类、图像检索于一体的图像识别repo，用于解决大部分图像识别问题，用户可以很方便的使用PaddleClas来解决小样本、多类别的图像识别问题。PaddleDetection提供了目标检测、关键点检测、多目标跟踪等能力，方便用户定位图像中的感兴趣的点和区域，被广泛应用于工业质检、遥感图像检测、无人巡检等项目。
+#### Q1.1.1 PaddleClas 和 PaddleDetection 区别
+**A**：PaddleClas 是一个兼主体检测、图像分类、图像检索于一体的图像识别 repo，用于解决大部分图像识别问题，用户可以很方便的使用 PaddleClas 来解决小样本、多类别的图像识别问题。PaddleDetection 提供了目标检测、关键点检测、多目标跟踪等能力，方便用户定位图像中的感兴趣的点和区域，被广泛应用于工业质检、遥感图像检测、无人巡检等项目。
 
 #### Q1.1.3: Momentum 优化器中的 momentum 参数是什么意思呢？
 **A**: Momentum 优化器是在 SGD 优化器的基础上引入了“动量”的概念。在 SGD 优化器中，在 `t+1` 时刻，参数 `w` 的更新可表示为：
@@ -120,7 +120,7 @@ w_t+1 = w_t - v_t+1
 通过引入动量的概念，在参数更新时考虑了历史更新的影响，因此可以加快收敛速度，也改善了 `SGD` 优化器带来的损失（cost、loss）震荡问题。
 
 #### Q1.1.4: PaddleClas 是否有 `Fixing the train-test resolution discrepancy` 这篇论文的实现呢？
-**A**: 目前 PaddleClas 没有实现。如果需要，可以尝试自己修改代码。简单来说，该论文所提出的思想是使用较大分辨率作为输入，对已经训练好的模型最后的FC层进行fine-tune。具体操作上，首先在较低分辨率的数据集上对模型网络进行训练，完成训练后，对网络除最后的FC层外的其他层的权重设置参数 `stop_gradient=True`，然后使用较大分辨率的输入对网络进行fine-tune训练。
+**A**: 目前 PaddleClas 没有实现。如果需要，可以尝试自己修改代码。简单来说，该论文所提出的思想是使用较大分辨率作为输入，对已经训练好的模型最后的 FC 层进行 fine-tune。具体操作上，首先在较低分辨率的数据集上对模型网络进行训练，完成训练后，对网络除最后的 FC 层外的其他层的权重设置参数 `stop_gradient=True`，然后使用较大分辨率的输入对网络进行 fine-tune 训练。
 
 <a name="1.2"></a>
 ### 1.2 骨干网络和预训练模型库
@@ -128,43 +128,43 @@ w_t+1 = w_t - v_t+1
 <a name="1.3"></a>
 ### 1.3 图像分类
 
-#### Q1.3.1: PaddleClas有提供调整图片亮度，对比度，饱和度，色调等方面的数据增强吗？
-**A**：PaddleClas提供了多种数据增广方式，可分为3类：
+#### Q1.3.1: PaddleClas 有提供调整图片亮度，对比度，饱和度，色调等方面的数据增强吗？
+**A**：PaddleClas 提供了多种数据增广方式，可分为 3 类：
 1. 图像变换类： AutoAugment, RandAugment;  
 2. 图像裁剪类： CutOut、RandErasing、HideAndSeek、GridMask；
 3. 图像混叠类：Mixup, Cutmix.
 
-其中，RandAngment提供了多种数据增强方式的随机组合，可以满足亮度、对比度、饱和度、色调等多方面的数据增广需求。
+其中，RandAngment 提供了多种数据增强方式的随机组合，可以满足亮度、对比度、饱和度、色调等多方面的数据增广需求。
 
 <a name="1.4"></a>
 ### 1.4 通用检测模块
 
 #### Q1.4.1 主体检测是每次只输出一个主体检测框吗？
-**A**：主体检测这块的输出数量是可以通过配置文件配置的。在配置文件中Global.threshold控制检测的阈值，小于该阈值的检测框被舍弃，Global.max_det_results控制最大返回的结果数，这两个参数共同决定了输出检测框的数量。
+**A**：主体检测这块的输出数量是可以通过配置文件配置的。在配置文件中 Global.threshold 控制检测的阈值，小于该阈值的检测框被舍弃，Global.max_det_results 控制最大返回的结果数，这两个参数共同决定了输出检测框的数量。
 
 #### Q1.4.2 训练主体检测模型的数据是如何选择的？换成更小的模型会有损精度吗？
-**A**：训练数据是在COCO、Object365、RPC、LogoDet等公开数据集中随机抽取的子集。目前我们在2.3版本中推出了超轻量的主体检测模型，具体信息可以参考[主体检测](../image_recognition_pipeline/mainbody_detection.md#2-模型选择)。关于主体检测模型的更多信息请参考[主体检测](../image_recognition_pipeline/mainbody_detection.md)。
+**A**：训练数据是在 COCO、Object365、RPC、LogoDet 等公开数据集中随机抽取的子集。目前我们在 2.3 版本中推出了超轻量的主体检测模型，具体信息可以参考[主体检测](../image_recognition_pipeline/mainbody_detection.md#2-模型选择)。关于主体检测模型的更多信息请参考[主体检测](../image_recognition_pipeline/mainbody_detection.md)。
 
 #### Q1.4.3: 目前使用的主体检测模型检测在某些场景中会有误检？
-**A**：目前的主体检测模型训练时使用了COCO、Object365、RPC、LogoDet等公开数据集，如果被检测数据是类似工业质检等于常见类别差异较大的数据，需要基于目前的检测模型重新微调训练。
+**A**：目前的主体检测模型训练时使用了 COCO、Object365、RPC、LogoDet 等公开数据集，如果被检测数据是类似工业质检等于常见类别差异较大的数据，需要基于目前的检测模型重新微调训练。
 
 <a name="1.5"></a>
 ### 1.5 图像识别模块
 
-#### Q1.5.1 使用`circle loss`还需加`triplet loss`吗？
-**A**：`circle loss`是统一了样本对学习和分类学习的两种形式，如果是分类学习的形式的话，可以增加`triplet loss`。
+#### Q1.5.1 使用 `circle loss` 还需加 `triplet loss` 吗？
+**A**：`circle loss` 是统一了样本对学习和分类学习的两种形式，如果是分类学习的形式的话，可以增加 `triplet loss`。
 
 #### Q1.5.2 如果不是识别开源的四个方向的图片，该使用哪个识别模型？
-**A**：建议使用商品识别模型，一来是因为商品覆盖的范围比较广，被识别的图片是商品的概率更大，二来是因为商品识别模型的训练数据使用了5万类别的数据，泛化能力更好，特征会更鲁棒一些。
+**A**：建议使用商品识别模型，一来是因为商品覆盖的范围比较广，被识别的图片是商品的概率更大，二来是因为商品识别模型的训练数据使用了 5 万类别的数据，泛化能力更好，特征会更鲁棒一些。
 
-#### Q1.5.3 最后使用512维的向量，为什么不用1024或者其他维度的呢？
-**A**：使用维度小的向量，为了加快计算，在实际使用过程中，可能使用128甚至更小。一般来说，512的维度已经够大，能充分表示特征了。
+#### Q1.5.3 最后使用 512 维的向量，为什么不用 1024 或者其他维度的呢？
+**A**：使用维度小的向量，为了加快计算，在实际使用过程中，可能使用 128 甚至更小。一般来说，512 的维度已经够大，能充分表示特征了。
 
 <a name="1.6"></a>
 ### 1.6 检索模块
 
-#### Q1.6.1 PaddleClas目前使用的Möbius向量检索算法支持类似于faiss的那种index.add()的功能吗? 另外，每次构建新的图都要进行train吗？这里的train是为了检索加速还是为了构建相似的图？
-**A**：目前在release/2.3分支已经支持faiss检索模块，并且不再支持Möbius。关于Möbius提供的检索算法，是一种基于图的近似最近邻搜索算法，目前支持两种距离计算方式：inner product和L2 distance，但是Möbius暂不支持faiss中提供的index.add功能，如果需要增加检索库的内容，需要从头重新构建新的index. 在每次构建index时，检索算法内部执行的操作是一种类似于train的过程，不同于faiss提供的train接口。因此需要faiss模块的话，可以使用release/2.3分支，需要Möbius的话，目前需要回退到release/2.2分支。
+#### Q1.6.1 PaddleClas 目前使用的 Möbius 向量检索算法支持类似于 faiss 的那种 index.add()的功能吗? 另外，每次构建新的图都要进行 train 吗？这里的 train 是为了检索加速还是为了构建相似的图？
+**A**：目前在 release/2.3 分支已经支持 faiss 检索模块，并且不再支持 Möbius。关于 Möbius 提供的检索算法，是一种基于图的近似最近邻搜索算法，目前支持两种距离计算方式：inner product 和 L2 distance，但是 Möbius 暂不支持 faiss 中提供的 index.add 功能，如果需要增加检索库的内容，需要从头重新构建新的 index. 在每次构建 index 时，检索算法内部执行的操作是一种类似于 train 的过程，不同于 faiss 提供的 train 接口。因此需要 faiss 模块的话，可以使用 release/2.3 分支，需要 Möbius 的话，目前需要回退到 release/2.2 分支。
 
 #### Q1.6.2: PaddleClas 图像识别用于 Eval 的配置文件中，`Query` 和 `Gallery` 配置具体是用于做什么呢？
 **A**: `Query` 与 `Gallery` 均为数据集配置，其中 `Gallery` 用于配置底库数据，`Query` 用于配置验证集。在进行 Eval 时，首先使用模型对 `Gallery` 底库数据进行前向计算特征向量，特征向量用于构建底库，然后模型对 `Query` 验证集中的数据进行前向计算特征向量，再与底库计算召回率等指标。
@@ -175,19 +175,19 @@ w_t+1 = w_t - v_t+1
 <a name="2.1"></a>
 ### 2.1 训练与评估共性问题
 
-#### Q2.1.1 PaddleClas 的`train_log`文件在哪里?
-**A**：在保存权重的路径中存放了`train.log`。
+#### Q2.1.1 PaddleClas 的 `train_log` 文件在哪里?
+**A**：在保存权重的路径中存放了 `train.log`。
 
-#### Q2.1.2 模型训练出nan，为什么？
+#### Q2.1.2 模型训练出 nan，为什么？
 **A**：
-1.确保正确加载预训练模型, 最简单的加载方式添加参数`-o Arch.pretrained=True`即可；
-2.模型微调时，学习率不要太大，如设置0.001就好。
+1.确保正确加载预训练模型, 最简单的加载方式添加参数 `-o Arch.pretrained=True` 即可；
+2.模型微调时，学习率不要太大，如设置 0.001 就好。
 
 #### Q2.1.3 可以对视频中每一帧画面进行逐帧预测吗？
-**A**：可以，但目前PaddleClas并不支持视频输入。可以尝试修改一下PaddleClas代码，或者预先将视频逐帧转为图像存储，再使用PaddleClas进行预测。
+**A**：可以，但目前 PaddleClas 并不支持视频输入。可以尝试修改一下 PaddleClas 代码，或者预先将视频逐帧转为图像存储，再使用 PaddleClas 进行预测。
 
 #### Q2.1.4: 数据预处理中，不想对输入数据进行裁剪，该如何设置？或者如何设置剪裁的尺寸。
-**A**: PaddleClas 支持的数据预处理算子可在这里查看：`ppcls/data/preprocess/__init__.py`，所有支持的算子均可在配置文件中进行配置，配置的算子名称需要和算子类名一致，参数与对应算子类的构造函数参数一致。如不需要对图像裁剪，则可去掉 `CropImage`、`RandCropImage`，使用 `ResizeImage` 替换即可，可通过其参数设置不同的resize方式，使用 `size` 参数则直接将图像缩放至固定大小，使用`resize_short` 参数则会维持图像宽高比进行缩放。设置裁剪尺寸时，可通过 `CropImage` 算子的 `size` 参数，或 `RandCropImage` 算子的 `size` 参数。
+**A**: PaddleClas 支持的数据预处理算子可在这里查看：`ppcls/data/preprocess/__init__.py`，所有支持的算子均可在配置文件中进行配置，配置的算子名称需要和算子类名一致，参数与对应算子类的构造函数参数一致。如不需要对图像裁剪，则可去掉 `CropImage`、`RandCropImage`，使用 `ResizeImage` 替换即可，可通过其参数设置不同的 resize 方式，使用 `size` 参数则直接将图像缩放至固定大小，使用 `resize_short` 参数则会维持图像宽高比进行缩放。设置裁剪尺寸时，可通过 `CropImage` 算子的 `size` 参数，或 `RandCropImage` 算子的 `size` 参数。
 
 #### Q2.1.5: PaddlePaddle 安装后，使用报错，无法导入 paddle 下的任何模块（import paddle.xxx），是为什么呢？
 **A**: 首先可以使用以下代码测试 Paddle 是否安装正确：
@@ -200,13 +200,13 @@ paddle.utils.install_check.run_check(）
 PaddlePaddle is installed successfully! Let's start deep learning with PaddlePaddle now.
 ```
 如未能安装成功，则会有相应问题的提示。
-另外，在同时安装CPU版本和GPU版本Paddle后，由于两个版本存在冲突，需要将两个版本全部卸载，然后重新安装所需要的版本。
+另外，在同时安装 CPU 版本和 GPU 版本 Paddle 后，由于两个版本存在冲突，需要将两个版本全部卸载，然后重新安装所需要的版本。
 
-#### Q2.1.6: 使用PaddleClas训练时，如何设置仅保存最优模型？不想保存中间模型。
-**A**: PaddleClas在训练过程中，会保存/更新以下三类模型：
+#### Q2.1.6: 使用 PaddleClas 训练时，如何设置仅保存最优模型？不想保存中间模型。
+**A**: PaddleClas 在训练过程中，会保存/更新以下三类模型：
 1. 最新的模型（`latest.pdopt`，`latest.pdparams`，`latest.pdstates`），当训练意外中断时，可使用最新保存的模型恢复训练；
 2. 最优的模型（`best_model.pdopt`，`best_model.pdparams`，`best_model.pdstates`）；
-3. 训练过程中，一个epoch结束时的断点（`epoch_xxx.pdopt`，`epoch_xxx.pdparams`，`epoch_xxx.pdstates`）。训练配置文件中 `Global.save_interval` 字段表示该模型的保存间隔。将该字段设置大于总epochs数，则不再保存中间断点模型。
+3. 训练过程中，一个 epoch 结束时的断点（`epoch_xxx.pdopt`，`epoch_xxx.pdparams`，`epoch_xxx.pdstates`）。训练配置文件中 `Global.save_interval` 字段表示该模型的保存间隔。将该字段设置大于总 epochs 数，则不再保存中间断点模型。
 
 #### Q2.1.7: 在训练时，出现如下报错信息：`ERROR: Unexpected segmentation fault encountered in DataLoader workers.`，如何排查解决问题呢？
 **A**：尝试将训练配置文件中的字段 `num_workers` 设置为 `0`；尝试将训练配置文件中的字段 `batch_size` 调小一些；检查数据集格式和配置文件中的数据集路径是否正确。
@@ -217,22 +217,22 @@ PaddlePaddle is installed successfully! Let's start deep learning with PaddlePad
 
 * 使用 `Mixup` 或 `Cutmix` 做训练时无法计算训练的精度（Acc）指标，因此需要在配置文件中取消 `Metric.Train.TopkAcc` 字段，可参考 [Metric.Train.TopkAcc](../../../ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L125-L128)。
 
-#### Q2.1.9: 训练配置yaml文件中，字段 `Global.pretrain_model` 和 `Global.checkpoints` 分别用于配置什么呢？
+#### Q2.1.9: 训练配置 yaml 文件中，字段 `Global.pretrain_model` 和 `Global.checkpoints` 分别用于配置什么呢？
 **A**：
 * 当需要 `fine-tune` 时，可以通过字段 `Global.pretrain_model` 配置预训练模型权重文件的路径，预训练模型权重文件后缀名通常为 `.pdparams`；
-* 在训练过程中，训练程序会自动保存每个epoch结束时的断点信息，包括优化器信息 `.pdopt` 和模型权重信息 `.pdparams`。在训练过程意外中断等情况下，需要恢复训练时，可以通过字段 `Global.checkpoints` 配置训练过程中保存的断点信息文件，例如通过配置 `checkpoints: ./output/ResNet18/epoch_18` 即可恢复18epoch训练结束时的断点信息，PaddleClas将自动加载 `epoch_18.pdopt` 和 `epoch_18.pdparams`，从19epoch继续训练。
+* 在训练过程中，训练程序会自动保存每个 epoch 结束时的断点信息，包括优化器信息 `.pdopt` 和模型权重信息 `.pdparams`。在训练过程意外中断等情况下，需要恢复训练时，可以通过字段 `Global.checkpoints` 配置训练过程中保存的断点信息文件，例如通过配置 `checkpoints: ./output/ResNet18/epoch_18` 即可恢复 18 epoch 训练结束时的断点信息，PaddleClas 将自动加载 `epoch_18.pdopt` 和 `epoch_18.pdparams`，从 19 epoch 继续训练。
 
 <a name="2.2"></a>
 ### 2.2 图像分类
 
-#### Q2.2.1 在SSLD中，大模型在500M数据上预训练后蒸馏小模型，然后在1M数据上蒸馏finetune小模型，具体步骤是怎样做的？
+#### Q2.2.1 在 SSLD 中，大模型在 500M 数据上预训练后蒸馏小模型，然后在 1M 数据上蒸馏 finetune 小模型，具体步骤是怎样做的？
 **A**：步骤如下：
-1. 基于facebook开源的`ResNeXt101-32x16d-wsl`模型去蒸馏得到了`ResNet50-vd`模型；
-2. 用这个`ResNet50-vd`，在500W数据集上去蒸馏`MobilNetV3`；
-3. 考虑到500W的数据集的分布和100W的数据分布不完全一致，所以这块，在100W上的数据上又finetune了一下，精度有微弱的提升。
+1. 基于 facebook 开源的 `ResNeXt101-32x16d-wsl` 模型去蒸馏得到了 `ResNet50-vd` 模型；
+2. 用这个 `ResNet50-vd`，在 500W 数据集上去蒸馏 `MobilNetV3`；
+3. 考虑到 500W 的数据集的分布和 100W 的数据分布不完全一致，所以这块，在 100W 上的数据上又 finetune 了一下，精度有微弱的提升。
 
-#### Q2.2.2 训练SwinTransformer，loss出现nan
-**A**：训练SwinTransformer时，请使用版本大于等于 `2.1.1` 的 `Paddle`，并且加载我们提供的预训练模型，学习率也不宜过大。
+#### Q2.2.2 训练 SwinTransformer，loss 出现 nan
+**A**：训练 SwinTransformer 时，请使用版本大于等于 `2.1.1` 的 `Paddle`，并且加载我们提供的预训练模型，学习率也不宜过大。
 
 <a name="2.3"></a>
 ### 2.3 通用检测模块
@@ -241,46 +241,46 @@ PaddlePaddle is installed successfully! Let's start deep learning with PaddlePad
 **A**：主体检测模型会返回检测框，但事实上为了让后续的识别模型更加准确，在返回检测框的同时也返回了原图。后续会根据原图或者检测框与库中的图片的相似度排序，相似度最高的库中图片的标签即为被识别图片的标签。
 
 #### Q2.3.2：在直播场景中，需要提供一个直播即时识别画面，能够在延迟几秒内找到特征目标物并用框圈起，这个可以实现吗？
-**A**：要达到实时的检测效果，需要检测速度达到实时性的要求；PP-YOLO是Paddle团队提供的轻量级目标检测模型，检测速度和精度达到了很好的平衡，可以试试PP-YOLO来做检测. 关于PP-YOLO的使用，可以参照：[PaddleDetection](https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.1/configs/ppyolo/README_cn.md)。
+**A**：要达到实时的检测效果，需要检测速度达到实时性的要求；PP-YOLO 是 Paddle 团队提供的轻量级目标检测模型，检测速度和精度达到了很好的平衡，可以试试 PP-YOLO 来做检测. 关于 PP-YOLO 的使用，可以参照：[PaddleDetection](https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.1/configs/ppyolo/README_cn.md)。
 
-#### Q2.3.3: 对于未知的标签，加入gallery dataset可以用于后续的分类识别（无需训练），但是如果前面的检测模型对于未知的标签无法定位检测出来，是否还是要训练前面的检测模型？
-**A**：如果检测模型在自己的数据集上表现不佳，需要在自己的检测数据集上再finetune下
+#### Q2.3.3: 对于未知的标签，加入 gallery dataset 可以用于后续的分类识别（无需训练），但是如果前面的检测模型对于未知的标签无法定位检测出来，是否还是要训练前面的检测模型？
+**A**：如果检测模型在自己的数据集上表现不佳，需要在自己的检测数据集上再 finetune 下
 
 <a name="2.4"></a>
 ### 2.4 图像识别模块
 
-#### Q2.4.1: 识别模块预测时报`Illegal instruction`错？
-**A**：如果使用的是release/2.2分支，建议更新为release/2.3分支，在release/2.3分支中，我们使用faiss检索模块替换了Möbius检索模型，具体可以参考[向量检索教程](../../../deploy/vector_search/README.md)。如仍存在问题，可以在用户微信群中联系我们，也可以在GitHub提issue。
+#### Q2.4.1: 识别模块预测时报 `Illegal instruction` 错？
+**A**：如果使用的是 release/2.2 分支，建议更新为 release/2.3 分支，在 release/2.3 分支中，我们使用 faiss 检索模块替换了 Möbius 检索模型，具体可以参考[向量检索教程](../../../deploy/vector_search/README.md)。如仍存在问题，可以在用户微信群中联系我们，也可以在 GitHub 提 issue。
 
 #### Q2.4.2: 识别模型怎么在预训练模型的基础上进行微调训练？
 **A**：识别模型的微调训练和分类模型的微调训练类似，识别模型可以加载商品的预训练模型，训练过程可以参考[识别模型训练](../../zh_CN/models_training/recognition.md)，后续我们也会持续细化这块的文档。
 
-#### Q2.4.3: 训练metric learning时，每个epoch中，无法跑完所有mini-batch，为什么？
-**A**：在训练metric learning时，使用的Sampler是DistributedRandomIdentitySampler，该Sampler不会采样全部的图片，导致会让每一个epoch采样的数据不是所有的数据，所以无法跑完显示的mini-batch是正常现象。该问题在release/2.3分支已经优化，请更新到release/2.3使用。
+#### Q2.4.3: 训练 metric learning 时，每个 epoch 中，无法跑完所有 mini-batch，为什么？
+**A**：在训练 metric learning 时，使用的 Sampler 是 DistributedRandomIdentitySampler，该 Sampler 不会采样全部的图片，导致会让每一个 epoch 采样的数据不是所有的数据，所以无法跑完显示的 mini-batch 是正常现象。该问题在 release/2.3 分支已经优化，请更新到 release/2.3 使用。
 
 #### Q2.4.4: 有些图片没有识别出结果，为什么？
-**A**：在配置文件（如inference_product.yaml）中，`IndexProcess.score_thres`中会控制被识别的图片与库中的图片的余弦相似度的最小值。当余弦相似度小于该值时，不会打印结果。您可以根据自己的实际数据调整该值。
+**A**：在配置文件（如 inference_product.yaml）中，`IndexProcess.score_thres` 中会控制被识别的图片与库中的图片的余弦相似度的最小值。当余弦相似度小于该值时，不会打印结果。您可以根据自己的实际数据调整该值。
 
 <a name="2.5"></a>
 ### 2.5 检索模块
 
-#### Q2.5.1: 添加图片后建索引报`assert text_num >= 2`错？
-**A**：请确保data_file.txt中图片路径和图片名称中间的间隔为单个table，而不是空格。
+#### Q2.5.1: 添加图片后建索引报 `assert text_num >= 2` 错？
+**A**：请确保 data_file.txt 中图片路径和图片名称中间的间隔为单个 table，而不是空格。
 
 #### Q2.5.2: 新增底库数据需要重新构建索引吗？
-**A**：从release/2.3分支起，我们使用faiss检索模块替换了Möbius检索模型，已经支持在不构建底库的前提下新增底库数据，具体可以参考[向量检索教程](../../../deploy/vector_search/README.md)。
+**A**：从 release/2.3 分支起，我们使用 faiss 检索模块替换了 Möbius 检索模型，已经支持在不构建底库的前提下新增底库数据，具体可以参考[向量检索教程](../../../deploy/vector_search/README.md)。
 
-#### Q2.5.3: Mac重新编译index.so时报错如下：clang: error: unsupported option '-fopenmp', 该如何处理？
-**A**：如果使用的是release/2.2分支，建议更新为release/2.3分支，在release/2.3分支中，我们使用faiss检索模块替换了Möbius检索模型，具体可以参考[向量检索教程](../../../deploy/vector_search/README.md)。如仍存在问题，可以在用户微信群中联系我们，也可以在GitHub提issue。
+#### Q2.5.3: Mac 重新编译 index.so 时报错如下：clang: error: unsupported option '-fopenmp', 该如何处理？
+**A**：如果使用的是 release/2.2 分支，建议更新为 release/2.3 分支，在 release/2.3 分支中，我们使用 faiss 检索模块替换了 Möbius 检索模型，具体可以参考[向量检索教程](../../../deploy/vector_search/README.md)。如仍存在问题，可以在用户微信群中联系我们，也可以在 GitHub 提 issue。
 
 #### Q2.5.4: 在 build 检索底库时，参数 `pq_size` 应该如何设置？
-**A**：`pq_size` 是PQ检索算法的参数。PQ检索算法可以简单理解为“分层”检索算法，`pq_size` 是每层的“容量”，因此该参数的设置会影响检索性能，不过，在底库总数据量不太大（小于10000张）的情况下，这个参数对性能的影响很小，因此对于大多数使用场景而言，在构建底库时无需修改该参数。关于PQ检索算法的更多内容，可以查看相关[论文](https://lear.inrialpes.fr/pubs/2011/JDS11/jegou_searching_with_quantization.pdf)。
+**A**：`pq_size` 是 PQ 检索算法的参数。PQ 检索算法可以简单理解为“分层”检索算法，`pq_size` 是每层的“容量”，因此该参数的设置会影响检索性能，不过，在底库总数据量不太大（小于 10000 张）的情况下，这个参数对性能的影响很小，因此对于大多数使用场景而言，在构建底库时无需修改该参数。关于 PQ 检索算法的更多内容，可以查看相关[论文](https://lear.inrialpes.fr/pubs/2011/JDS11/jegou_searching_with_quantization.pdf)。
 
 <a name="2.6"></a>
 ### 2.6 模型预测部署
 
-#### Q2.6.1: hub serving方式启动某个模块，怎么添加该模块的参数呢？
-**A**：具体可以参考[hub serving参数](../../../deploy/hubserving/clas/params.py)。
+#### Q2.6.1: hub serving 方式启动某个模块，怎么添加该模块的参数呢？
+**A**：具体可以参考 [hub serving 参数](../../../deploy/hubserving/clas/params.py)。
 
 #### Q2.6.2: 导出inference模型进行预测部署，准确率异常，为什么呢？
 **A**: 该问题通常是由于在导出时未能正确加载模型参数导致的，首先检查模型导出时的日志，是否存在类似下述内容：
@@ -290,7 +290,7 @@ UserWarning: Skip loading for ***. *** is not found in the provided dict.
 如果存在，则说明模型权重未能加载成功，请进一步检查配置文件中的 `Global.pretrained_model` 字段，是否正确配置了模型权重文件的路径。模型权重文件后缀名通常为 `pdparams`，注意在配置该路径时无需填写文件后缀名。
 
 #### Q2.6.3: 如何将模型转为 `ONNX` 格式？
-**A**：Paddle支持两种转ONNX格式模型的方式，且依赖于 `paddle2onnx` 工具，首先需要安装 `paddle2onnx`：
+**A**：Paddle 支持两种转 ONNX 格式模型的方式，且依赖于 `paddle2onnx` 工具，首先需要安装 `paddle2onnx`：
 
 ```shell
 pip install paddle2onnx
@@ -310,7 +310,7 @@ pip install paddle2onnx
 
     关于静态图导出的非 `combined` 格式的 inference model（通常包含文件 `__model__` 和多个参数文件）转换模型格式，以及更多参数说明请参考 paddle2onnx 官方文档 [paddle2onnx](https://github.com/PaddlePaddle/Paddle2ONNX/blob/develop/README_zh.md#%E5%8F%82%E6%95%B0%E9%80%89%E9%A1%B9)。
 
-* 直接从模型组网代码导出ONNX格式模型：
+* 直接从模型组网代码导出 ONNX 格式模型：
 
     以动态图模型组网代码为例，模型类为继承于 `paddle.nn.Layer` 的子类，代码如下所示：
 
@@ -332,4 +332,4 @@ pip install paddle2onnx
     * `InputSpec()` 函数用于描述模型输入的签名信息，包括输入数据的 `shape`、`type` 和 `name`（可省略）；
     * `paddle.onnx.export()` 函数需要指定模型组网对象 `net`，导出模型的保存路径 `save_path`，模型的输入数据描述 `input_spec`。
 
-    需要注意，`paddlepaddle` 版本需大于 `2.0.0`。关于 `paddle.onnx.export()` 函数的更多参数说明请参考[paddle.onnx.export](https://www.paddlepaddle.org.cn/documentation/docs/zh/api/paddle/onnx/export_cn.html#export)。
+    需要注意，`paddlepaddle` 版本需大于 `2.0.0`。关于 `paddle.onnx.export()` 函数的更多参数说明请参考 [paddle.onnx.export](https://www.paddlepaddle.org.cn/documentation/docs/zh/api/paddle/onnx/export_cn.html#export)。
diff --git a/docs/zh_CN/faq_series/faq_selected_30.md b/docs/zh_CN/faq_series/faq_selected_30.md
index 0a537522..5a0afc69 100644
--- a/docs/zh_CN/faq_series/faq_selected_30.md
+++ b/docs/zh_CN/faq_series/faq_selected_30.md
@@ -2,23 +2,23 @@
 
 ## 写在前面
 
-* 我们收集整理了开源以来在issues和用户群中的常见问题并且给出了简要解答，旨在为图像分类的开发者提供一些参考，也希望帮助大家少走一些弯路。
+* 我们收集整理了开源以来在 issues 和用户群中的常见问题并且给出了简要解答，旨在为图像分类的开发者提供一些参考，也希望帮助大家少走一些弯路。
 
 * 图像分类领域大佬众多，模型和论文更新速度也很快，本文档回答主要依赖有限的项目实践，难免挂一漏万，如有遗漏和不足，也希望有识之士帮忙补充和修正，万分感谢。
 
 
-## PaddleClas常见问题汇总
+## PaddleClas 常见问题汇总
 
-* [1. 图像分类30个问题](#1)
+* [1. 图像分类 30 个问题](#1)
     * [1.1 基础知识](#1.1)
     * [1.2 模型训练相关](#1.2)
     * [1.3 数据相关](#1.3)
     * [1.4 模型推理与预测相关](#1.4)
-* [2. PaddleClas使用问题](#2)
+* [2. PaddleClas 使用问题](#2)
 
 
 <a name="1"></a>
-## 1. 图像分类30个问题
+## 1. 图像分类 30 个问题
 
 <a name="1.1"></a>
 ### 1.1 基础知识
@@ -26,58 +26,58 @@
 >>
 * Q: 图像分类领域常用的分类指标有几种
 * A:
-    * 对于单个标签的图像分类问题（仅包含1个类别与背景），评估指标主要有Accuracy，Precision，Recall，F-score等，令TP(True Positive)表示将正类预测为正类，FP(False Positive)表示将负类预测为正类，TN(True Negative)表示将负类预测为负类，FN(False Negative)表示将正类预测为负类。那么Accuracy=(TP + TN) / NUM，Precision=TP /(TP + FP)，Recall=TP /(TP + FN)。
-    * 对于类别数大于1的图像分类问题，评估指标主要有Accuary和Class-wise Accuracy，Accuary表示所有类别预测正确的图像数量占总图像数量的百分比；Class-wise Accuracy是对每个类别的图像计算Accuracy，然后再对所有类别的Accuracy取平均得到。
+    * 对于单个标签的图像分类问题（仅包含 1 个类别与背景），评估指标主要有 Accuracy，Precision，Recall，F-score 等，令 TP(True Positive)表示将正类预测为正类，FP(False Positive)表示将负类预测为正类，TN(True Negative)表示将负类预测为负类，FN(False Negative)表示将正类预测为负类。那么 Accuracy=(TP + TN) / NUM，Precision=TP /(TP + FP)，Recall=TP /(TP + FN)。
+    * 对于类别数大于 1 的图像分类问题，评估指标主要有 Accuary 和 Class-wise Accuracy，Accuary 表示所有类别预测正确的图像数量占总图像数量的百分比；Class-wise Accuracy 是对每个类别的图像计算 Accuracy，然后再对所有类别的 Accuracy 取平均得到。
 
 >>
 * Q: 怎样根据自己的任务选择合适的模型进行训练？
-* A: 如果希望在服务器部署，或者希望精度尽可能地高，对模型存储大小或者预测速度的要求不是很高，那么推荐使用ResNet_vd、Res2Net_vd、DenseNet、Xception等适合于服务器端的系列模型；如果希望在移动端侧部署，则推荐使用MobileNetV3、GhostNet等适合于移动端的系列模型。同时，我们推荐在选择模型的时候可以参考[模型库](../models/models_intro.md)中的速度-精度指标图。
+* A: 如果希望在服务器部署，或者希望精度尽可能地高，对模型存储大小或者预测速度的要求不是很高，那么推荐使用 ResNet_vd、Res2Net_vd、DenseNet、Xception 等适合于服务器端的系列模型；如果希望在移动端侧部署，则推荐使用 MobileNetV3、GhostNet 等适合于移动端的系列模型。同时，我们推荐在选择模型的时候可以参考[模型库](../models/models_intro.md)中的速度-精度指标图。
 
 >>
 * Q: 如何进行参数初始化，什么样的初始化可以加快模型收敛？
-* A: 众所周知，参数的初始化可以影响模型的最终性能。一般来说，如果目标数据集不是很大，建议使用ImageNet-1k训练得到的预训练模型进行初始化。如果是自己手动设计的网络或者暂时没有基于ImageNet-1k训练得到的预训练权重，可以使用Xavier初始化或者MSRA初始化，其中Xavier初始化是针对Sigmoid函数提出的，对RELU函数不太友好，网络越深，各层输入的方差越小，网络越难训练，所以当神经网络中使用较多RELU激活函数时，推荐使用MSRA初始化。
+* A: 众所周知，参数的初始化可以影响模型的最终性能。一般来说，如果目标数据集不是很大，建议使用 ImageNet-1k 训练得到的预训练模型进行初始化。如果是自己手动设计的网络或者暂时没有基于 ImageNet-1k 训练得到的预训练权重，可以使用 Xavier 初始化或者 MSRA 初始化，其中 Xavier 初始化是针对 Sigmoid 函数提出的，对 RELU 函数不太友好，网络越深，各层输入的方差越小，网络越难训练，所以当神经网络中使用较多 RELU 激活函数时，推荐使用 MSRA 初始化。
 
 >>
 * Q: 针对深度神经网络参数冗余的问题，目前有哪些比较好的解决办法？
-* A: 目前有几种主要的方法对模型进行压缩，减少模型参数冗余的问题，如剪枝、量化、知识蒸馏等。模型剪枝指的是将权重矩阵中相对不重要的权值剔除，然后再重新对网络进行微调；模型量化指的是一种将浮点计算转成低比特定点计算的技术，如8比特、4比特等，可以有效的降低模型计算强度、参数大小和内存消耗。知识蒸馏是指使用教师模型(teacher model)去指导学生模型(student model)学习特定任务，保证小模型在参数量不变的情况下，性能有较大的提升，甚至获得与大模型相似的精度指标。
+* A: 目前有几种主要的方法对模型进行压缩，减少模型参数冗余的问题，如剪枝、量化、知识蒸馏等。模型剪枝指的是将权重矩阵中相对不重要的权值剔除，然后再重新对网络进行微调；模型量化指的是一种将浮点计算转成低比特定点计算的技术，如 8 比特、4 比特等，可以有效的降低模型计算强度、参数大小和内存消耗。知识蒸馏是指使用教师模型(teacher model)去指导学生模型(student model)学习特定任务，保证小模型在参数量不变的情况下，性能有较大的提升，甚至获得与大模型相似的精度指标。
 
 >>
 * Q: 怎样在其他任务，如目标检测、图像分割、关键点检测等任务中选择比较合适的分类模型作为骨干网络？
-* A: 在不考虑速度的情况下，在大部分的任务中，推荐使用精度更高的预训练模型和骨干网络，PaddleClas中开源了一系列的SSLD知识蒸馏预训练模型，如ResNet50_vd_ssld, Res2Net200_vd_26w_4s_ssld等，在模型精度和速度方面都是非常有优势的，推荐大家使用。对于一些特定的任务，如图像分割或者关键点检测等任务，对图像分辨率的要求比较高，那么更推荐使用HRNet等能够同时兼顾网络深度和分辨率的神经网络模型，PaddleClas也提供了HRNet_W18_C_ssld、HRNet_W48_C_ssld等精度非常高的HRNet SSLD蒸馏系列预训练模型，大家可以使用这些精度更高的预训练模型与骨干网络，提升自己在其他任务上的模型精度。
+* A: 在不考虑速度的情况下，在大部分的任务中，推荐使用精度更高的预训练模型和骨干网络，PaddleClas 中开源了一系列的 SSLD 知识蒸馏预训练模型，如 ResNet50_vd_ssld, Res2Net200_vd_26w_4s_ssld 等，在模型精度和速度方面都是非常有优势的，推荐大家使用。对于一些特定的任务，如图像分割或者关键点检测等任务，对图像分辨率的要求比较高，那么更推荐使用 HRNet 等能够同时兼顾网络深度和分辨率的神经网络模型，PaddleClas 也提供了 HRNet_W18_C_ssld、HRNet_W48_C_ssld 等精度非常高的 HRNet SSLD 蒸馏系列预训练模型，大家可以使用这些精度更高的预训练模型与骨干网络，提升自己在其他任务上的模型精度。
 
 >>
 * Q: 注意力机制是什么？目前有哪些比较常用的注意力机制方法？
-* A: 注意力机制（Attention Mechanism）源于对人类视觉的研究。将注意力机制用在计算机视觉任务上，可以有效捕捉图片中有用的区域，从而提升整体网络性能。目前比较常用的有[SE block](https://arxiv.org/abs/1709.01507)、[SK-block](https://arxiv.org/abs/1903.06586)、[Non-local block](https://arxiv.org/abs/1711.07971)、[GC block](https://arxiv.org/abs/1904.11492)、[CBAM](https://arxiv.org/abs/1807.06521)等，核心思想就是去学习特征图在不同区域或者不同通道中的重要性，从而让网络更加注意显著性的区域。
+* A: 注意力机制（Attention Mechanism）源于对人类视觉的研究。将注意力机制用在计算机视觉任务上，可以有效捕捉图片中有用的区域，从而提升整体网络性能。目前比较常用的有 [SE block](https://arxiv.org/abs/1709.01507)、[SK-block](https://arxiv.org/abs/1903.06586)、[Non-local block](https://arxiv.org/abs/1711.07971)、[GC block](https://arxiv.org/abs/1904.11492)、[CBAM](https://arxiv.org/abs/1807.06521) 等，核心思想就是去学习特征图在不同区域或者不同通道中的重要性，从而让网络更加注意显著性的区域。
 
 <a name="1.2"></a>
 ### 1.2 模型训练相关
 
 >>
-* Q: 使用深度卷积网络做图像分类，如果训练一个拥有1000万个类的模型会碰到什么问题？
-* A: 因为FC层参数很多，内存/显存/模型的存储占用都会大幅增大；模型收敛速度也会变慢一些。建议在这种情况下，再最后的FC层前加一层维度较小的FC，这样可以大幅减少模型的存储大小。
+* Q: 使用深度卷积网络做图像分类，如果训练一个拥有 1000 万个类的模型会碰到什么问题？
+* A: 因为 FC 层参数很多，内存/显存/模型的存储占用都会大幅增大；模型收敛速度也会变慢一些。建议在这种情况下，再最后的 FC 层前加一层维度较小的 FC，这样可以大幅减少模型的存储大小。
 
 >>
 * Q: 训练过程中，如果模型收敛效果很差，可能的原因有哪些呢？
-* A: 主要有以下几个可以排查的地方：（1）应该检查数据标注，确保训练集和验证集的数据标注没有问题。（2）可以试着调整一下学习率（初期可以以10倍为单位进行调节），过大（训练震荡）或者过小（收敛太慢）的学习率都可能导致收敛效果差。（3）数据量太大，选择的模型太小，难以学习所有数据的特征。（4）可以看下数据预处理的过程中是否使用了归一化，如果没有使用归一化操作，收敛速度可能会比较慢。（5）如果数据量比较小，可以试着加载PaddleClas中提供的基于ImageNet-1k数据集的预训练模型，这可以大大提升训练收敛速度。（6）数据集存在长尾问题，可以参考[数据长尾问题解决方案](#long_tail)。
+* A: 主要有以下几个可以排查的地方：（1）应该检查数据标注，确保训练集和验证集的数据标注没有问题。（2）可以试着调整一下学习率（初期可以以 10 倍为单位进行调节），过大（训练震荡）或者过小（收敛太慢）的学习率都可能导致收敛效果差。（3）数据量太大，选择的模型太小，难以学习所有数据的特征。（4）可以看下数据预处理的过程中是否使用了归一化，如果没有使用归一化操作，收敛速度可能会比较慢。（5）如果数据量比较小，可以试着加载 PaddleClas 中提供的基于 ImageNet-1k 数据集的预训练模型，这可以大大提升训练收敛速度。（6）数据集存在长尾问题，可以参考[数据长尾问题解决方案](#long_tail)。
 
 >>
 * Q: 训练图像分类任务时，该怎么选择合适的优化器？
-* A: 优化器的目的是为了让损失函数尽可能的小，从而找到合适的参数来完成某项任务。目前业界主要用到的优化器有SGD、RMSProp、Adam、AdaDelt等，其中由于带momentum的SGD优化器广泛应用于学术界和工业界，所以我们发布的模型也大都使用该优化器来实现损失函数的梯度下降。带momentum的SGD优化器有两个劣势，其一是收敛速度慢，其二是初始学习率的设置需要依靠大量的经验，然而如果初始学习率设置得当并且迭代轮数充足，该优化器也会在众多的优化器中脱颖而出，使得其在验证集上获得更高的准确率。一些自适应学习率的优化器如Adam、RMSProp等，收敛速度往往比较快，但是最终的收敛精度会稍差一些。如果追求更快的收敛速度，我们推荐使用这些自适应学习率的优化器，如果追求更高的收敛精度，我们推荐使用带momentum的SGD优化器。
+* A: 优化器的目的是为了让损失函数尽可能的小，从而找到合适的参数来完成某项任务。目前业界主要用到的优化器有 SGD、RMSProp、Adam、AdaDelt 等，其中由于带 momentum 的 SGD 优化器广泛应用于学术界和工业界，所以我们发布的模型也大都使用该优化器来实现损失函数的梯度下降。带 momentum 的 SGD 优化器有两个劣势，其一是收敛速度慢，其二是初始学习率的设置需要依靠大量的经验，然而如果初始学习率设置得当并且迭代轮数充足，该优化器也会在众多的优化器中脱颖而出，使得其在验证集上获得更高的准确率。一些自适应学习率的优化器如 Adam、RMSProp 等，收敛速度往往比较快，但是最终的收敛精度会稍差一些。如果追求更快的收敛速度，我们推荐使用这些自适应学习率的优化器，如果追求更高的收敛精度，我们推荐使用带 momentum 的 SGD 优化器。
 
 >>
 * Q: 当前主流的学习率下降策略有哪些？一般需要怎么选择呢？
-* A: 学习率是通过损失函数的梯度调整网络权重的超参数的速度。学习率越低，损失函数的变化速度就越慢。虽然使用低学习率可以确保不会错过任何局部极小值，但也意味着将花费更长的时间来进行收敛，特别是在被困在高原区域的情况下。在整个训练过程中，我们不能使用同样的学习率来更新权重，否则无法到达最优点，所以需要在训练过程中调整学习率的大小。在训练初始阶段，由于权重处于随机初始化的状态，损失函数相对容易进行梯度下降，所以可以设置一个较大的学习率。在训练后期，由于权重参数已经接近最优值，较大的学习率无法进一步寻找最优值，所以需要设置一个较小的学习率。在训练整个过程中，很多研究者使用的学习率下降方式是piecewise_decay，即阶梯式下降学习率，如在ResNet50标准的训练中，我们设置的初始学习率是0.1，每30epoch学习率下降到原来的1/10，一共迭代120epoch。除了piecewise_decay，很多研究者也提出了学习率的其他下降方式，如polynomial_decay（多项式下降）、exponential_decay（指数下降）,cosine_decay（余弦下降）等，其中cosine_decay无需调整超参数，鲁棒性也比较高，所以成为现在提高模型精度首选的学习率下降方式。Cosine_decay和piecewise_decay的学习率变化曲线如下图所示，容易观察到，在整个训练过程中，cosine_decay都保持着较大的学习率，所以其收敛较为缓慢，但是最终的收敛效果较peicewise_decay更好一些。
+* A: 学习率是通过损失函数的梯度调整网络权重的超参数的速度。学习率越低，损失函数的变化速度就越慢。虽然使用低学习率可以确保不会错过任何局部极小值，但也意味着将花费更长的时间来进行收敛，特别是在被困在高原区域的情况下。在整个训练过程中，我们不能使用同样的学习率来更新权重，否则无法到达最优点，所以需要在训练过程中调整学习率的大小。在训练初始阶段，由于权重处于随机初始化的状态，损失函数相对容易进行梯度下降，所以可以设置一个较大的学习率。在训练后期，由于权重参数已经接近最优值，较大的学习率无法进一步寻找最优值，所以需要设置一个较小的学习率。在训练整个过程中，很多研究者使用的学习率下降方式是 piecewise_decay，即阶梯式下降学习率，如在 ResNet50 标准的训练中，我们设置的初始学习率是 0.1，每 30 epoch 学习率下降到原来的 1/10，一共迭代 120 epoch。除了 piecewise_decay，很多研究者也提出了学习率的其他下降方式，如 polynomial_decay（多项式下降）、exponential_decay（指数下降）,cosine_decay（余弦下降）等，其中 cosine_decay 无需调整超参数，鲁棒性也比较高，所以成为现在提高模型精度首选的学习率下降方式。Cosine_decay 和 piecewise_decay 的学习率变化曲线如下图所示，容易观察到，在整个训练过程中，cosine_decay 都保持着较大的学习率，所以其收敛较为缓慢，但是最终的收敛效果较 peicewise_decay 更好一些。
 ![](../../images/models/lr_decay.jpeg)
 >>
-* Q: Warmup学习率策略是什么？一般用在什么样的场景中？
-* A: Warmup策略顾名思义就是让学习率先预热一下，在训练初期我们不直接使用最大的学习率，而是用一个逐渐增大的学习率去训练网络，当学习率增大到最高点时，再使用学习率下降策略中提到的学习率下降方式衰减学习率的值。如果使用较大的batch_size训练神经网络时，我们建议您使用warmup策略。实验表明，在batch_size较大时，warmup可以稳定提升模型的精度。在训练MobileNetV3等batch_size较大的实验中，我们默认将warmup中的epoch设置为5，即先用5epoch将学习率从0增加到最大值，再去做相应的学习率衰减。
+* Q: Warmup 学习率策略是什么？一般用在什么样的场景中？
+* A: Warmup 策略顾名思义就是让学习率先预热一下，在训练初期我们不直接使用最大的学习率，而是用一个逐渐增大的学习率去训练网络，当学习率增大到最高点时，再使用学习率下降策略中提到的学习率下降方式衰减学习率的值。如果使用较大的 batch_size 训练神经网络时，我们建议您使用 warmup 策略。实验表明，在 batch_size 较大时，warmup 可以稳定提升模型的精度。在训练 MobileNetV3 等 batch_size 较大的实验中，我们默认将 warmup 中的 epoch 设置为 5，即先用 5 epoch 将学习率从 0 增加到最大值，再去做相应的学习率衰减。
 
 >>
-* Q: 什么是`batch size`？在模型训练中，怎么选择合适的`batch size`？
-* A: `batch size`是训练神经网络中的一个重要的超参数，该值决定了一次将多少数据送入神经网络参与训练。论文[Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour](https://arxiv.org/abs/1706.02677)，当`batch size`的值与学习率的值呈线性关系时，收敛精度几乎不受影响。在训练ImageNet数据时，大部分的神经网络选择的初始学习率为0.1，`batch size`是256，所以根据实际的模型大小和显存情况，可以将学习率设置为0.1*k,batch_size设置为256*k。在实际任务中，也可以将该设置作为初始参数，进一步调节学习率参数并获得更优的性能。
+* Q: 什么是 `batch size`？在模型训练中，怎么选择合适的 `batch size`？
+* A: `batch size` 是训练神经网络中的一个重要的超参数，该值决定了一次将多少数据送入神经网络参与训练。论文 [Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour](https://arxiv.org/abs/1706.02677)，当 `batch size` 的值与学习率的值呈线性关系时，收敛精度几乎不受影响。在训练 ImageNet 数据时，大部分的神经网络选择的初始学习率为 0.1，`batch size` 是 256，所以根据实际的模型大小和显存情况，可以将学习率设置为 0.1*k,batch_size 设置为 256*k。在实际任务中，也可以将该设置作为初始参数，进一步调节学习率参数并获得更优的性能。
 >>
-* Q: weight_decay是什么？怎么选择合适的weight_decay呢？
-* A: 过拟合是机器学习中常见的一个名词，简单理解即为模型在训练数据上表现很好，但在测试数据上表现较差，在卷积神经网络中，同样存在过拟合的问题，为了避免过拟合，很多正则方式被提出，其中，weight_decay是其中一个广泛使用的避免过拟合的方式。在使用SGD优化器时，weight_decay等价于在最终的损失函数后添加L2正则化，L2正则化使得网络的权重倾向于选择更小的值，最终整个网络中的参数值更趋向于0，模型的泛化性能相应提高。在各大深度学习框架的实现中，该值表达的含义是L2正则前的系数，在paddle框架中，该值的名称是l2_decay，所以以下都称其为l2_decay。该系数越大，表示加入的正则越强，模型越趋于欠拟合状态。在训练ImageNet的任务中，大多数的网络将该参数值设置为1e-4，在一些小的网络如MobileNet系列网络中，为了避免网络欠拟合，该值设置为1e-5~4e-5之间。当然，该值的设置也和具体的数据集有关系，当任务的数据集较大时，网络本身趋向于欠拟合状态，可以将该值适当减小，当任务的数据集较小时，网络本身趋向于过拟合状态，可以将该值适当增大。下表展示了MobileNetV1_x0_25在ImageNet-1k上使用不同l2_decay的精度情况。由于MobileNetV1_x0_25是一个比较小的网络，所以l2_decay过大会使网络趋向于欠拟合状态，所以在该网络中，相对1e-4，3e-5是更好的选择。
+* Q: weight_decay 是什么？怎么选择合适的 weight_decay 呢？
+* A: 过拟合是机器学习中常见的一个名词，简单理解即为模型在训练数据上表现很好，但在测试数据上表现较差，在卷积神经网络中，同样存在过拟合的问题，为了避免过拟合，很多正则方式被提出，其中，weight_decay 是其中一个广泛使用的避免过拟合的方式。在使用 SGD 优化器时，weight_decay 等价于在最终的损失函数后添加 L2 正则化，L2 正则化使得网络的权重倾向于选择更小的值，最终整个网络中的参数值更趋向于 0，模型的泛化性能相应提高。在各大深度学习框架的实现中，该值表达的含义是 L2 正则前的系数，在 paddle 框架中，该值的名称是 l2_decay，所以以下都称其为 l2_decay。该系数越大，表示加入的正则越强，模型越趋于欠拟合状态。在训练 ImageNet 的任务中，大多数的网络将该参数值设置为 1e-4，在一些小的网络如 MobileNet 系列网络中，为了避免网络欠拟合，该值设置为 1e-5~4e-5 之间。当然，该值的设置也和具体的数据集有关系，当任务的数据集较大时，网络本身趋向于欠拟合状态，可以将该值适当减小，当任务的数据集较小时，网络本身趋向于过拟合状态，可以将该值适当增大。下表展示了 MobileNetV1_x0_25 在 ImageNet-1k 上使用不同 l2_decay 的精度情况。由于 MobileNetV1_x0_25 是一个比较小的网络，所以 l2_decay 过大会使网络趋向于欠拟合状态，所以在该网络中，相对 1e-4，3e-5 是更好的选择。
 
 | 模型                | L2_decay | Train acc1/acc5 | Test acc1/acc5 |
 |:--:|:--:|:--:|:--:|
@@ -87,8 +87,8 @@
 
 >>
 * Q: 标签平滑(label_smoothing)指的是什么？有什么效果呢？一般适用于什么样的场景中？
-* A: Label_smoothing是深度学习中的一种正则化方法，其全称是 Label Smoothing Regularization(LSR)，即标签平滑正则化。在传统的分类任务计算损失函数时，是将真实的one hot标签与神经网络的输出做相应的交叉熵计算，而label_smoothing是将真实的one hot标签做一个标签平滑的处理，使得网络学习的标签不再是一个hard label，而是一个有概率值的soft label，其中在类别对应的位置的概率最大，其他位置概率是一个非常小的数。具体的计算方式参见论文[2]。在label_smoothing里，有一个epsilon的参数值，该值描述了将标签软化的程度，该值越大，经过label smoothing后的标签向量的标签概率值越小，标签越平滑，反之，标签越趋向于hard label，在训练ImageNet-1k的实验里通常将该值设置为0.1。
-在训练ImageNet-1k的实验中，我们发现，ResNet50大小级别及其以上的模型在使用label_smooting后，精度有稳定的提升。下表展示了ResNet50_vd在使用label_smoothing前后的精度指标。同时，由于label_smoohing相当于一种正则方式，在相对较小的模型上，精度提升不明显甚至会有所下降，下表展示了ResNet18在ImageNet-1k上使用label_smoothing前后的精度指标。可以明显看到，在使用label_smoothing后，精度有所下降。
+* A: Label_smoothing 是深度学习中的一种正则化方法，其全称是 Label Smoothing Regularization(LSR)，即标签平滑正则化。在传统的分类任务计算损失函数时，是将真实的 one hot 标签与神经网络的输出做相应的交叉熵计算，而 label_smoothing 是将真实的 one hot 标签做一个标签平滑的处理，使得网络学习的标签不再是一个 hard label，而是一个有概率值的 soft label，其中在类别对应的位置的概率最大，其他位置概率是一个非常小的数。具体的计算方式参见论文[2]。在 label_smoothing 里，有一个 epsilon 的参数值，该值描述了将标签软化的程度，该值越大，经过 label smoothing 后的标签向量的标签概率值越小，标签越平滑，反之，标签越趋向于 hard label，在训练 ImageNet-1k 的实验里通常将该值设置为 0.1。
+在训练 ImageNet-1k 的实验中，我们发现，ResNet50 大小级别及其以上的模型在使用 label_smooting 后，精度有稳定的提升。下表展示了 ResNet50_vd 在使用 label_smoothing 前后的精度指标。同时，由于 label_smoohing 相当于一种正则方式，在相对较小的模型上，精度提升不明显甚至会有所下降，下表展示了 ResNet18 在 ImageNet-1k 上使用 label_smoothing 前后的精度指标。可以明显看到，在使用 label_smoothing 后，精度有所下降。
 
 | 模型   | Use_label_smoothing | Test acc1 |
 |:--:|:--:|:--:|
@@ -99,25 +99,25 @@
 
 
 >>
-* Q: 在训练的时候怎么通过训练集和验证集的准确率或者loss确定进一步的调优策略呢？
-* A: 在训练网络的过程中，通常会打印每一个epoch的训练集准确率和验证集准确率，二者刻画了该模型在两个数据集上的表现。通常来说，训练集的准确率比验证集准确率微高或者二者相当是比较不错的状态。如果发现训练集的准确率比验证集高很多，说明在这个任务上已经过拟合，需要在训练过程中加入更多的正则，如增大l2_decay的值，加入更多的数据增广策略，加入label_smoothing策略等；如果发现训练集的准确率比验证集低一些，说明在这个任务上可能欠拟合，需要在训练过程中减弱正则效果，如减小l2_decay的值，减少数据增广方式，增大图片crop区域面积，减弱图片拉伸变换，去除label_smoothing等。
+* Q: 在训练的时候怎么通过训练集和验证集的准确率或者 loss 确定进一步的调优策略呢？
+* A: 在训练网络的过程中，通常会打印每一个 epoch 的训练集准确率和验证集准确率，二者刻画了该模型在两个数据集上的表现。通常来说，训练集的准确率比验证集准确率微高或者二者相当是比较不错的状态。如果发现训练集的准确率比验证集高很多，说明在这个任务上已经过拟合，需要在训练过程中加入更多的正则，如增大 l2_decay 的值，加入更多的数据增广策略，加入 label_smoothing 策略等；如果发现训练集的准确率比验证集低一些，说明在这个任务上可能欠拟合，需要在训练过程中减弱正则效果，如减小 l2_decay 的值，减少数据增广方式，增大图片 crop 区域面积，减弱图片拉伸变换，去除 label_smoothing 等。
 
 >>
 * Q: 怎么使用已有的预训练模型提升自己的数据集的精度呢？
-* A: 在现阶段计算机视觉领域中，加载预训练模型来训练自己的任务已成为普遍的做法，相比从随机初始化开始训练，加载预训练模型往往可以提升特定任务的精度。一般来说，业界广泛使用的预训练模型是通过训练128万张图片1000类的ImageNet-1k数据集得到的，该预训练模型的fc层权重是是一个k\*1000的矩阵，其中k是fc层以前的神经元数，在加载预训练权重时，无需加载fc层的权重。在学习率方面，如果您的任务训练的数据集特别小（如小于1千张），我们建议你使用较小的初始学习率，如0.001（batch_size:256,下同），以免较大的学习率破坏预训练权重。如果您的训练数据集规模相对较大（大于10万），我们建议你尝试更大的初始学习率，如0.01或者更大。
+* A: 在现阶段计算机视觉领域中，加载预训练模型来训练自己的任务已成为普遍的做法，相比从随机初始化开始训练，加载预训练模型往往可以提升特定任务的精度。一般来说，业界广泛使用的预训练模型是通过训练 128 万张图片 1000 类的 ImageNet-1k 数据集得到的，该预训练模型的 fc 层权重是是一个 k\*1000 的矩阵，其中 k 是 fc 层以前的神经元数，在加载预训练权重时，无需加载 fc 层的权重。在学习率方面，如果您的任务训练的数据集特别小（如小于 1 千张），我们建议你使用较小的初始学习率，如 0.001（batch_size:256,下同），以免较大的学习率破坏预训练权重。如果您的训练数据集规模相对较大（大于 10 万），我们建议你尝试更大的初始学习率，如 0.01 或者更大。
 
 <a name="1.3"></a>
 ### 1.3 数据相关
 
 >>
 * Q: 图像分类的数据预处理过程一般包括哪些步骤？
-* A: 以在ImageNet-1k数据集上训练ResNet50为例，一张图片被输入进网络，主要有图像解码、随机裁剪、随机水平翻转、标准化、数据重排，组batch并送进网络这几个步骤。图像解码指的是将图片文件读入到内存中，随机裁剪指的是将读入的图像随机拉伸并裁剪到长宽均为224的图像，随机水平翻转指的是对裁剪后的图片以0.5的概率进行水平翻转，标准化指的是将图片每个通道的数据通过去均值实现中心化的处理，使得数据尽可能符合`N(0,1)`的正态分布，数据重排指的是将数据由`[224,224,3]`的格式变为`[3,224,224]`的格式，组batch指的是将多幅图像组成一个批数据，送进网络进行训练。
+* A: 以在 ImageNet-1k 数据集上训练 ResNet50 为例，一张图片被输入进网络，主要有图像解码、随机裁剪、随机水平翻转、标准化、数据重排，组 batch 并送进网络这几个步骤。图像解码指的是将图片文件读入到内存中，随机裁剪指的是将读入的图像随机拉伸并裁剪到长宽均为 224 的图像，随机水平翻转指的是对裁剪后的图片以 0.5 的概率进行水平翻转，标准化指的是将图片每个通道的数据通过去均值实现中心化的处理，使得数据尽可能符合 `N(0,1)` 的正态分布，数据重排指的是将数据由 `[224,224,3]` 的格式变为 `[3,224,224]` 的格式，组 batch 指的是将多幅图像组成一个批数据，送进网络进行训练。
 
 >>
 * Q: 随机裁剪是怎么影响小模型训练的性能的？
-* A: 在ImageNet-1k数据的标准预处理中，随机裁剪函数中定义了scale和ratio两个值，两个值分别确定了图片crop的大小和图片的拉伸程度，其中scale的默认取值范围是0.08-1(lower_scale-upper_scale),ratio的默认取值范围是3/4-4/3(lower_ratio-upper_ratio)。在非常小的网络训练中，此类数据增强会使得网络欠拟合，导致精度有所下降。为了提升网络的精度，可以使其数据增强变的更弱，即增大图片的crop区域或者减弱图片的拉伸变换程度。我们可以分别通过增大lower_scale的值或缩小lower_ratio与upper_scale的差距来实现更弱的图片变换。下表列出了使用不同lower_scale训练MobileNetV2_x0_25的精度，可以看到，增大图片的crop区域面积后训练精度和验证精度均有提升。
+* A: 在 ImageNet-1k 数据的标准预处理中，随机裁剪函数中定义了 scale 和 ratio 两个值，两个值分别确定了图片 crop 的大小和图片的拉伸程度，其中 scale 的默认取值范围是 0.08-1(lower_scale-upper_scale),ratio 的默认取值范围是 3/4-4/3(lower_ratio-upper_ratio)。在非常小的网络训练中，此类数据增强会使得网络欠拟合，导致精度有所下降。为了提升网络的精度，可以使其数据增强变的更弱，即增大图片的 crop 区域或者减弱图片的拉伸变换程度。我们可以分别通过增大 lower_scale 的值或缩小 lower_ratio 与 upper_scale 的差距来实现更弱的图片变换。下表列出了使用不同 lower_scale 训练 MobileNetV2_x0_25 的精度，可以看到，增大图片的 crop 区域面积后训练精度和验证精度均有提升。
 
-| 模型                | Scale取值范围 | Train_acc1/acc5 | Test_acc1/acc5 |
+| 模型                | Scale 取值范围 | Train_acc1/acc5 | Test_acc1/acc5 |
 |:--:|:--:|:--:|:--:|
 | MobileNetV2_x0_25 | [0.08,1]  | 50.36%/72.98%   | 52.35%/75.65%  |
 | MobileNetV2_x0_25 | [0.2,1]   | 54.39%/77.08%   | 53.18%/76.14%  |
@@ -125,58 +125,58 @@
 
 >>
 * Q: 数据量不足的情况下，目前有哪些常见的数据增广方法来增加训练样本的丰富度呢？
-* A: PaddleClas中将目前比较常见的数据增广方法分为了三大类，分别是图像变换类、图像裁剪类和图像混叠类，图像变换类主要包括AutoAugment和RandAugment，图像裁剪类主要包括CutOut、RandErasing、HideAndSeek和GridMask，图像混叠类主要包括Mixup和Cutmix，更详细的关于数据增广的介绍可以参考：[数据增广章节](../algorithm_introduction/DataAugmentation.md)。
+* A: PaddleClas 中将目前比较常见的数据增广方法分为了三大类，分别是图像变换类、图像裁剪类和图像混叠类，图像变换类主要包括 AutoAugment 和 RandAugment，图像裁剪类主要包括 CutOut、RandErasing、HideAndSeek 和 GridMask，图像混叠类主要包括 Mixup 和 Cutmix，更详细的关于数据增广的介绍可以参考：[数据增广章节](../algorithm_introduction/DataAugmentation.md)。
 >>
 * Q: 对于遮挡情况比较常见的图像分类场景，该使用什么数据增广方法去提升模型的精度呢？
-* A: 在训练的过程中可以尝试对训练集使用CutOut、RandErasing、HideAndSeek和GridMask等裁剪类数据增广方法，让模型也能够不止学习到显著区域，也能关注到非显著性区域，从而在遮挡的情况下，也能较好地完成识别任务。
+* A: 在训练的过程中可以尝试对训练集使用 CutOut、RandErasing、HideAndSeek 和 GridMask 等裁剪类数据增广方法，让模型也能够不止学习到显著区域，也能关注到非显著性区域，从而在遮挡的情况下，也能较好地完成识别任务。
 
 >>
 * Q: 对于色彩变换情况比较复杂的情况下，应该使用哪些数据增广方法提升模型精度呢？
-* A: 可以考虑使用AutoAugment或者RandAugment的数据增广策略，这两种策略中都包括了锐化、直方图均衡化等丰富的颜色变换，可以让模型在训练的过程中对这些变换更加鲁棒。
+* A: 可以考虑使用 AutoAugment 或者 RandAugment 的数据增广策略，这两种策略中都包括了锐化、直方图均衡化等丰富的颜色变换，可以让模型在训练的过程中对这些变换更加鲁棒。
 >>
-* Q: Mixup和Cutmix的工作原理是什么？为什么它们也是非常有效的数据增广方法？
-* A: Mixup通过线性叠加两张图片生成新的图片，对应label也进行线性叠加用以训练，Cutmix则是从一幅图中随机裁剪出一个 感兴趣区域(ROI)，然后覆盖当前图像中对应的区域，label也按照图像面积比例进行线性叠加。它们其实也是生成了和训练集不同的样本和label并让网络去学习，从而扩充了样本的丰富度。
+* Q: Mixup 和 Cutmix 的工作原理是什么？为什么它们也是非常有效的数据增广方法？
+* A: Mixup 通过线性叠加两张图片生成新的图片，对应 label 也进行线性叠加用以训练，Cutmix 则是从一幅图中随机裁剪出一个 感兴趣区域(ROI)，然后覆盖当前图像中对应的区域，label 也按照图像面积比例进行线性叠加。它们其实也是生成了和训练集不同的样本和 label 并让网络去学习，从而扩充了样本的丰富度。
 >>
 * Q: 对于精度要求不是那么高的图像分类任务，大概需要准备多大的训练数据集呢？
-* A: 训练数据的数量和需要解决问题的复杂度有关系。难度越大，精度要求越高，则数据集需求越大，而且一般情况实际中的训练数据越多效果越好。当然，一般情况下，在加载预训练模型的情况下，每个类别包括10-20张图像即可保证基本的分类效果；不加载预训练模型的情况下，每个类别需要至少包含100-200张图像以保证基本的分类效果。
+* A: 训练数据的数量和需要解决问题的复杂度有关系。难度越大，精度要求越高，则数据集需求越大，而且一般情况实际中的训练数据越多效果越好。当然，一般情况下，在加载预训练模型的情况下，每个类别包括 10-20 张图像即可保证基本的分类效果；不加载预训练模型的情况下，每个类别需要至少包含 100-200 张图像以保证基本的分类效果。
 
 <a name="long_tail"></a>
 >>
 * Q: 对于长尾分布的数据集，目前有哪些比较常用的方法？
-* A:（1）可以对数据量比较少的类别进行重采样，增加其出现的概率；（2）可以修改loss，增加图像较少对应的类别的图片的loss权重；（3）可以借鉴迁移学习的方法，从常见类别中学习通用知识，然后迁移到少样本的类别中。
+* A:（1）可以对数据量比较少的类别进行重采样，增加其出现的概率；（2）可以修改 loss，增加图像较少对应的类别的图片的 loss 权重；（3）可以借鉴迁移学习的方法，从常见类别中学习通用知识，然后迁移到少样本的类别中。
 
 <a name="1.4"></a>
 ### 1.4 模型推理与预测相关
 
 >>
 * Q: 有时候图像中只有小部分区域是所关注的前景物体，直接拿原图来进行分类的话，识别效果很差，这种情况要怎么做呢？
-* A: 可以在分类之前先加一个主体检测的模型，将前景物体检测出来之后再进行分类，可以大大提升最终的识别效果。如果不考虑时间成本，也可以使用multi-crop的方式对所有的预测做融合来决定最终的类别。
+* A: 可以在分类之前先加一个主体检测的模型，将前景物体检测出来之后再进行分类，可以大大提升最终的识别效果。如果不考虑时间成本，也可以使用 multi-crop 的方式对所有的预测做融合来决定最终的类别。
 >>
 * Q: 目前推荐的，模型预测方式有哪些？
-* A: 在模型训练完成之后，推荐使用导出的固化模型（inference model），基于Paddle预测引擎进行预测，目前支持python inference与cpp inference。如果希望基于服务化部署预测模型，那么推荐使用PaddleServing的部署方式。
+* A: 在模型训练完成之后，推荐使用导出的固化模型（inference model），基于 Paddle 预测引擎进行预测，目前支持 python inference 与 cpp inference。如果希望基于服务化部署预测模型，那么推荐使用 PaddleServing 的部署方式。
 >>
 * Q: 模型训练完成之后，有哪些比较合适的预测方法进一步提升模型精度呢？
-* A:（1）可以使用更大的预测尺度，比如说训练的时候使用的是224，那么预测的时候可以考虑使用288或者320，这会直接带来0.5%左右的精度提升。（2）可以使用测试时增广的策略（Test Time Augmentation, TTA)，将测试集通过旋转、翻转、颜色变换等策略，创建多个副本，并分别预测，最后将所有的预测结果进行融合，这可以大大提升预测结果的精度和鲁棒性。（3）当然，也可以使用多模型融合的策略，将多个模型针对相同图片的预测结果进行融合。
+* A:（1）可以使用更大的预测尺度，比如说训练的时候使用的是 224，那么预测的时候可以考虑使用 288 或者 320，这会直接带来 0.5%左右的精度提升。（2）可以使用测试时增广的策略（Test Time Augmentation, TTA)，将测试集通过旋转、翻转、颜色变换等策略，创建多个副本，并分别预测，最后将所有的预测结果进行融合，这可以大大提升预测结果的精度和鲁棒性。（3）当然，也可以使用多模型融合的策略，将多个模型针对相同图片的预测结果进行融合。
 >>
 * Q: 多模型融合的时候，该怎么选择合适的模型进行融合呢？
-* A: 在不考虑预测速度的情况下，建议选择精度尽量高的模型；同时建议选择不同结构或者系列的模型进行融合，比如在精度相似的情况下，ResNet50_vd与Xception65的模型融合结果往往比ResNet50_vd与ResNet101_vd的模型融合结果要好一些。
+* A: 在不考虑预测速度的情况下，建议选择精度尽量高的模型；同时建议选择不同结构或者系列的模型进行融合，比如在精度相似的情况下，ResNet50_vd 与 Xception65 的模型融合结果往往比 ResNet50_vd 与 ResNet101_vd 的模型融合结果要好一些。
 
 >>
 * Q: 使用固定的模型进行预测时有哪些比较常用的加速方法？
-* A:（1）使用性能更优的GPU进行预测；（2）增大预测的batch size；（3）使用TenorRT以及FP16半精度浮点数等方法进行预测。
+* A:（1）使用性能更优的 GPU 进行预测；（2）增大预测的 batch size；（3）使用 TenorRT 以及 FP16 半精度浮点数等方法进行预测。
 
 
 <a name="2"></a>
-## 2. PaddleClas使用问题
+## 2. PaddleClas 使用问题
 
 >>
 * Q: 评估和预测时，已经指定了预训练模型所在文件夹的地址，但是仍然无法导入参数，这么为什么呢？
-* A: 加载预训练模型时，需要指定预训练模型的前缀，例如预训练模型参数所在的文件夹为`output/ResNet50_vd/19`，预训练模型参数的名称为`output/ResNet50_vd/19/ppcls.pdparams`，则`pretrained_model`参数需要指定为`output/ResNet50_vd/19/ppcls`，PaddleClas会自动补齐`.pdparams`的后缀。
+* A: 加载预训练模型时，需要指定预训练模型的前缀，例如预训练模型参数所在的文件夹为 `output/ResNet50_vd/19`，预训练模型参数的名称为 `output/ResNet50_vd/19/ppcls.pdparams`，则 `pretrained_model` 参数需要指定为 `output/ResNet50_vd/19/ppcls`，PaddleClas 会自动补齐`.pdparams` 的后缀。
 
 
 >>
-* Q: 在评测`EfficientNetB0_small`模型时，为什么最终的精度始终比官网的低0.3%左右？
-* A: `EfficientNet`系列的网络在进行resize的时候，是使用`cubic插值方式`(resize参数的interpolation值设置为2)，而其他模型默认情况下为None，因此在训练和评估的时候需要显式地指定resize的interpolation值。具体地，可以参考以下配置中预处理过程中ResizeImage的参数。
+* Q: 在评测 `EfficientNetB0_small` 模型时，为什么最终的精度始终比官网的低 0.3% 左右？
+* A: `EfficientNet` 系列的网络在进行 resize 的时候，是使用 `cubic 插值方式`(resize 参数的 interpolation 值设置为 2)，而其他模型默认情况下为 None，因此在训练和评估的时候需要显式地指定 resize 的 interpolation 值。具体地，可以参考以下配置中预处理过程中 ResizeImage 的参数。
 ```
   Eval:
     dataset:
@@ -200,23 +200,23 @@
 ```
 
 >>
-* Q: python2下，使用visualdl的时候，报出以下错误，`TypeError: __init__() missing 1 required positional argument: 'sync_cycle'`，这是为什么呢？
-* A: 目前visualdl仅支持在python3下运行，visualdl需要是2.0以上的版本，如果visualdl版本不对的话，可以通过以下方式进行安装：`pip3 install visualdl -i https://mirror.baidu.com/pypi/simple`
+* Q: python2 下，使用 visualdl 的时候，报出以下错误，`TypeError: __init__() missing 1 required positional argument: 'sync_cycle'`，这是为什么呢？
+* A: 目前 visualdl 仅支持在 python3 下运行，visualdl 需要是 2.0 以上的版本，如果 visualdl 版本不对的话，可以通过以下方式进行安装：`pip3 install visualdl -i https://mirror.baidu.com/pypi/simple`
 
 >>
-* Q: 自己在测ResNet50_vd预测单张图片速度的时候发现比官网提供的速度benchmark慢了很多，而且CPU速度比GPU速度快很多，这个是为什么呢？
-* A: 模型预测需要初始化，初始化的过程比较耗时，因此在统计预测速度的时候，需要批量跑一批图片，去除前若干张图片的预测耗时，再统计下平均的时间。GPU比CPU速度测试单张图片速度慢是因为GPU的初始化并CPU要慢很多。
+* Q: 自己在测 ResNet50_vd 预测单张图片速度的时候发现比官网提供的速度 benchmark 慢了很多，而且 CPU 速度比 GPU 速度快很多，这个是为什么呢？
+* A: 模型预测需要初始化，初始化的过程比较耗时，因此在统计预测速度的时候，需要批量跑一批图片，去除前若干张图片的预测耗时，再统计下平均的时间。GPU 比 CPU 速度测试单张图片速度慢是因为 GPU 的初始化并 CPU 要慢很多。
 
 >>
 * Q: 灰度图可以用于模型训练吗？
-* A: 灰度图也可以用于模型训练，不过需要修改模型的输入shape为`[1, 224, 224]`，此外数据增广部分也需要注意适配一下。不过为了更好地使用PaddleClas代码的话，即使是灰度图，也建议调整为3通道的图片进行训练（RGB通道的像素值相等）。
+* A: 灰度图也可以用于模型训练，不过需要修改模型的输入 shape 为 `[1, 224, 224]`，此外数据增广部分也需要注意适配一下。不过为了更好地使用 PaddleClas 代码的话，即使是灰度图，也建议调整为 3 通道的图片进行训练（RGB 通道的像素值相等）。
 
 >>
-* Q: 怎么在windows上或者cpu上面模型训练呢？
-* A: 可以参考[开始使用教程](../models_training/classification.md)，详细介绍了在Linux、Windows、CPU等环境中进行模型训练、评估与预测的教程。
+* Q: 怎么在 windows 上或者 cpu 上面模型训练呢？
+* A: 可以参考[开始使用教程](../models_training/classification.md)，详细介绍了在 Linux、Windows、CPU 等环境中进行模型训练、评估与预测的教程。
 >>
-* Q: 怎样在模型训练的时候使用label smoothing呢？
-* A: 可以在配置文件中的`Loss`字段下进行设置，如下所示，`epsilon=0.1` 表示设置该值为0.1，若不设置 `epsilon` 字段，则不使用 `label smoothing`。
+* Q: 怎样在模型训练的时候使用 label smoothing 呢？
+* A: 可以在配置文件中的 `Loss` 字段下进行设置，如下所示，`epsilon=0.1` 表示设置该值为 0.1，若不设置 `epsilon` 字段，则不使用 `label smoothing`。
 ```yaml
 Loss:
   Train:
@@ -225,14 +225,14 @@ Loss:
         epsilon: 0.1
 ```
 >>
-* Q: PaddleClas提供的10W类图像分类预训练模型能否用于模型推断呢？
-* A: 该10W类图像分类预训练模型没有提供fc全连接层的参数，无法用于模型推断，目前可以用于模型微调。
+* Q: PaddleClas 提供的 10W 类图像分类预训练模型能否用于模型推断呢？
+* A: 该 10W 类图像分类预训练模型没有提供 fc 全连接层的参数，无法用于模型推断，目前可以用于模型微调。
 >>
-* Q: 在使用`deploy/python/predict_cls.py`进行模型预测的时候，报了这个问题:`Error: Pass tensorrt_subgraph_pass has not been registered`，这是为什么呢？
-* A: 如果希望使用TensorRT进行模型预测推理的话，需要安装或是自己编译带TensorRT的PaddlePaddle，Linux、Windows、macOS系统的用户下载安装可以参考参考[下载预测库](https://paddleinference.paddlepaddle.org.cn/user_guides/download_lib.html)，如果没有符合您所需要的版本，则需要本地编译安装，编译方法可以参考[源码编译](https://paddleinference.paddlepaddle.org.cn/user_guides/source_compile.html)。
+* Q: 在使用 `deploy/python/predict_cls.py` 进行模型预测的时候，报了这个问题:`Error: Pass tensorrt_subgraph_pass has not been registered`，这是为什么呢？
+* A: 如果希望使用 TensorRT 进行模型预测推理的话，需要安装或是自己编译带 TensorRT 的 PaddlePaddle，Linux、Windows、macOS 系统的用户下载安装可以参考参考[下载预测库](https://paddleinference.paddlepaddle.org.cn/user_guides/download_lib.html)，如果没有符合您所需要的版本，则需要本地编译安装，编译方法可以参考[源码编译](https://paddleinference.paddlepaddle.org.cn/user_guides/source_compile.html)。
 >>
 * Q: 怎样在训练的时候使用自动混合精度(Automatic Mixed Precision, AMP)训练呢？
-* A: 可以参考[ResNet50_fp16.yaml](../../../ppcls/configs/ImageNet/ResNet/ResNet50_fp16.yaml)这个配置文件；具体地，如果希望自己的配置文件在模型训练的时候也支持自动混合精度，可以在配置文件中添加下面的配置信息。
+* A: 可以参考 [ResNet50_fp16.yaml](../../../ppcls/configs/ImageNet/ResNet/ResNet50_fp16.yaml) 这个配置文件；具体地，如果希望自己的配置文件在模型训练的时候也支持自动混合精度，可以在配置文件中添加下面的配置信息。
 ```
 # mixed precision training
 AMP:
-- 
GitLab