docs: update faq (#1377)

eb6a5520 · Tingquan Gao · GitHub · aa82bef9 · eb6a5520 · eb6a5520
4 changed file
--- a/docs/zh_CN/faq_series/faq_2020_s1.md
+++ b/docs/zh_CN/faq_series/faq_2020_s1.md
@@ -13,11 +13,10 @@
 ## 第1期
 ### Q1.1: PaddleClas可以用来做什么?
-**A**：PaddleClas是飞桨为工业界和学术界所准备的一个图像分类任务的工具集，助力使用者训练出更好的视觉模型和应用落地。PaddleClas提供了基于图像分类的模型训练、评估、预测、部署全流程的服务，方便大家更加高效地学习图像分类。具体地，PaddleClas中包含如下一些特性 。
+**A**：PaddleClas是飞桨为工业界和学术界所准备的一个图像分类任务的工具集，助力使用者训练出更好的视觉模型和应用落地。PaddleClas提供了基于图像分类的模型训练、评估、预测、部署全流程的服务，方便大家更加高效地学习图像分类。具体地，PaddleClas中包含如下一些特性。
+* PaddleClas提供了36个系列的分类网络结构(ResNet, ResNet_vd, MobileNetV3, Res2Net, HRNet等)和训练配置，175个预训练模型和性能评估与预测，供大家选择并使用。
-* PaddleClas提供了24个系列的分类网络结构(ResNet, ResNet_vd, MobileNetV3, Res2Net, HRNet等)和训练配置，122个预训练模型和性能评估与预测，供大家选择并使用。
+* PaddleClas提供了TensorRT预测、python inference、c++ inference、Paddle-Lite预测部署、PaddleServing、PaddleHub等多种预测部署推理方案，在方便在多种环境中进行部署推理。
-* PaddleClas提供了TensorRT预测、python inference、c++ inference、Paddle-Lite预测部署等多种预测部署推理方案，在方便在多种环境中进行部署推理。
 * PaddleClas提供了一种简单的SSLD知识蒸馏方案，基于该方案蒸馏模型的识别准确率普遍提升3%以上。
 * PaddleClas支持AutoAugment、Cutout、Cutmix等8种数据增广算法详细介绍、代码复现和在统一实验环境下的效果评估。
 * PaddleClas支持在Windows/Linux/MacOS环境中基于CPU/GPU进行使用。
@@ -27,7 +26,6 @@
 ### Q1.3: ResNet_vd和ResNet、ResNet_vc结构有什么区别呢？
 **A**:
 ResNet_va至vd的结构如下图所示，ResNet最早提出时为va结构，在降采样残差模块这个部分，在左边的特征变换通路中(Path A)，第一个1x1卷积部分就行了降采样，从而导致信息丢失（卷积的kernel size为1，stride为2，输入特征图中 有部分特征没有参与卷积的计算）；在vb结构中，把降采样的步骤从最开始的第一个1x1卷积调整到中间的3x3卷积中，从而避免了信息丢失的问题，PaddleClas中的ResNet模型默认就是ResNet_vb；vc结构则是将最开始这个7x7的卷积变成3个3x3的卷积，在感受野不变的情况下，计算量和存储大小几乎不变，而且实验证明精度相对于vb结构有所提升；vd结构是修改了降采样残差模块右边的特征通路(Path B)。把降采样的过程由平均池化这个操作去替代了，这一系列的改进(va->vd)，几乎没有带来新增的预测耗时，结合适当的训练策略，比如说标签平滑以及mixup数据增广，精度可以提升高达2.7%。
 <div align="center">
@@ -38,7 +36,7 @@ ResNet_va至vd的结构如下图所示，ResNet最早提出时为va结构，在
 **A**:
 ResNet系列模型中，相比于其他模型，ResNet_vd模型在预测速度几乎不变的情况下，精度有非常明显的提升，因此推荐大家使用ResNet_vd系列模型。
-下面给出了batch size=4的情况下，在T4 GPU上，不同模型的的预测耗时、flops、params与精度的变化曲线，可以根据自己自己的实际部署场景中的需求，去选择合适的模型，如果希望模型存储大小尽可能小或者预测速度尽可能快，则可以使用ResNet18_vd模型，如果希望获得尽可能高的精度，则建议使用ResNet152_vd或者ResNet200_vd模型。更多关于ResNet系列模型的介绍可以参考文档：[ResNet及其vd系列模型文档](../models/ResNet_and_vd.md)。
+[ResNet及其vd系列模型文档](../models/ResNet_and_vd.md)中给出了batch size=4的情况下，在T4 GPU上，不同模型的的预测耗时、FLOPs、Params与精度的变化曲线，可以根据自己自己的实际部署场景中的需求，去选择合适的模型，如果希望模型存储大小尽可能小或者预测速度尽可能快，则可以使用ResNet18_vd模型，如果希望获得尽可能高的精度，则建议使用ResNet152_vd或者ResNet200_vd模型。更多关于ResNet系列模型的介绍可以参考文档：[ResNet及其vd系列模型文档](../models/ResNet_and_vd.md)。
 * 精度-预测速度变化曲线
@@ -69,7 +67,7 @@ ResNet系列模型中，相比于其他模型，ResNet_vd模型在预测速度
 ### Q1.7 大卷积核一定可以带来正向收益吗？
 **A**: 不一定，将网络中的所有卷积核都增大未必会带来性能的提升，甚至会有有损性能，在论文[MixConv: Mixed Depthwise Convolutional Kernels](https://arxiv.org/abs/1907.09595)
-中指出，在一定范围内提升卷积核大小对精度的提升有正向作用，但是超出后会有损精度。所以考虑到模型的大小、计算量等问题，一般不选用大的卷积核去设计网络。
+中指出，在一定范围内提升卷积核大小对精度的提升有正向作用，但是超出后会有损精度。所以考虑到模型的大小、计算量等问题，一般不选用大的卷积核去设计网络。同时，在[PP-LCNet](../models/PP-LCNet.md)文章中，也有关于大卷积核的实验。
 <a name="第2期"></a>
 ## 第2期
@@ -77,9 +75,9 @@ ResNet系列模型中，相比于其他模型，ResNet_vd模型在预测速度
 ### Q2.1: PaddleClas如何训练自己的backbone？
 **A**：具体流程如下:
-* 首先在ppcls/modeling/architectures/文件夹下新建一个自己的模型结构文件，即你自己的backbone，模型搭建可以参考resnet.py;
+* 首先在ppcls/arch/backbone/model_zoo/文件夹下新建一个自己的模型结构文件，即你自己的backbone，模型搭建可以参考resnet.py;
-* 然后在ppcls/modeling/\_\_init\_\_.py中添加自己设计的backbone的类;
+* 然后在ppcls/arch/backbone/\_\_init\_\_.py中添加自己设计的backbone的类;
-* 其次配置训练的yaml文件，此处可以参考configs/ResNet/ResNet50.yaml;
+* 其次配置训练的yaml文件，此处可以参考ppcls/configs/ImageNet/ResNet/ResNet50.yaml;
 * 最后启动训练即可。
@@ -92,7 +90,7 @@ ResNet系列模型中，相比于其他模型，ResNet_vd模型在预测速度
 ### Q2.3: PaddleClas中configs下的默认参数适合任何一个数据集吗？
-**A**: PaddleClas中的configs下的默认参数是ImageNet-1k的训练参数，这个参数并不适合所有的数据集，具体数据集需要在此基础上进一步调试，调试方法会在之后出一个单独的faq，敬请期待。
+**A**: PaddleClas中的ppcls/configs/ImageNet/下的配置文件默认参数是ImageNet-1k的训练参数，这个参数并不适合所有的数据集，具体数据集需要在此基础上进一步调试。
 ### Q2.4 PaddleClas中的不同的模型使用了不同的分辨率，标配的应该是多少呢？
@@ -102,7 +100,7 @@ ResNet系列模型中，相比于其他模型，ResNet_vd模型在预测速度
 ### Q2.5 PaddleClas中提供了很多ssld模型，其应用的价值是？
-**A**: PaddleClas中提供了很多ssld预训练模型，其通过半监督知识蒸馏的方法获得了更好的预训练权重，在迁移任务或者下游视觉任务中，无须替换结构文件、只需要替换精度更高的ssld预训练模型即可提升精度，如在PaddleSeg中，[HRNet](https://github.com/PaddlePaddle/PaddleSeg/blob/release/v0.7.0/docs/model_zoo.md)使用了ssld预训练模型的权重后，精度大幅度超越业界同样的模型的精度，在PaddleDetection中，[PP-YOLO](https://github.com/PaddlePaddle/PaddleDetection/blob/release/0.4/configs/ppyolo/README_cn.md)使用了ssld预训练权重后，在较高的baseline上仍有进一步的提升。使用ssld预训练权重做分类的迁移表现也很抢眼，在[SSLD蒸馏策略](../advanced_tutorials/distillation/distillation.md)部分介绍了知识蒸馏对于分类任务迁移的收益。
+**A**: PaddleClas中提供了很多ssld预训练模型，其通过半监督知识蒸馏的方法获得了更好的预训练权重，在迁移任务或者下游视觉任务中，无须替换结构文件、只需要替换精度更高的ssld预训练模型即可提升精度，如在PaddleSeg中，[HRNet](https://github.com/PaddlePaddle/PaddleSeg/blob/release/v0.7.0/docs/model_zoo.md)使用了ssld预训练模型的权重后，精度大幅度超越业界同样的模型的精度，在PaddleDetection中，[PP-YOLO](https://github.com/PaddlePaddle/PaddleDetection/blob/release/0.4/configs/ppyolo/README_cn.md)使用了ssld预训练权重后，在较高的baseline上仍有进一步的提升。使用ssld预训练权重做分类的迁移表现也很抢眼，在[SSLD蒸馏策略](../advanced_tutorials/knowledge_distillation.md)部分介绍了知识蒸馏对于分类任务迁移的收益。
 <a name="第3期"></a>
@@ -121,7 +119,7 @@ ResNet系列模型中，相比于其他模型，ResNet_vd模型在预测速度
 ### Q3.3: 怎么使用多个模型进行预测融合呢？
-**A** 使用多个模型进行预测的时候，建议首先将预训练模型导出为inference模型，这样可以摆脱对网络结构定义的依赖，可以参考[模型导出脚本](../../../tools/export_model.py)进行模型导出，之后再参考[inference模型预测脚本](../../../tools/infer/predict.py)进行预测即可，在这里需要根据自己使用模型的数量创建多个predictor。
+**A** 使用多个模型进行预测的时候，建议首先将预训练模型导出为inference模型，这样可以摆脱对网络结构定义的依赖，可以参考[模型导出脚本](../../../tools/export_model.py)进行模型导出，之后再参考[inference模型预测脚本](../../../deploy/python/predict_cls.py)进行预测即可，在这里需要根据自己使用模型的数量创建多个predictor。
 ### Q3.4: PaddleClas中怎么增加自己的数据增广方法呢？
@@ -136,15 +134,17 @@ ResNet系列模型中，相比于其他模型，ResNet_vd模型在预测速度
 **A**：
-* 可以使用自动混合精度进行训练，这在精度几乎无损的情况下，可以有比较明显的速度收益，以ResNet50为例，PaddleClas中使用自动混合精度训练的配置文件可以参考：[ResNet50_fp16.yml](../../../ppcls/configs/ResNet/ResNet50_fp16.yml)，主要就是需要在标准的配置文件中添加以下几行
+* 可以使用自动混合精度进行训练，这在精度几乎无损的情况下，可以有比较明显的速度收益，以ResNet50为例，PaddleClas中使用自动混合精度训练的配置文件可以参考：[ResNet50_fp16.yml](../../../ppcls/configs/ImageNet/ResNet/ResNet50_fp16.yaml)，主要就是需要在标准的配置文件中添加以下几行
 ```
-use_fp16: True
+# mixed precision training
-amp_scale_loss: 128.0
+AMP:
-use_dynamic_loss_scaling: True
+  scale_loss: 128.0
+  use_dynamic_loss_scaling: True
+  use_pure_fp16: &use_pure_fp16 True
 ```
-* 可以开启dali，将数据预处理方法放在GPU上运行，在模型比较小时（reader耗时占比更高一些），开启dali会带来比较明显的精度收益，在训练的时候，添加`-o use_dali=True`即可使用dali进行训练，更多关于dali 安装与介绍可以参考：[dali安装教程](https://docs.nvidia.com/deeplearning/dali/user-guide/docs/installation.html#nightly-builds)。
+* 可以开启dali，将数据预处理方法放在GPU上运行，在模型比较小时（reader耗时占比更高一些），开启dali会带来比较明显的训练速度收益，在训练的时候，添加`-o Global.use_dali=True`即可使用dali进行训练，更多关于 dali 安装与介绍可以参考：[dali安装教程](https://docs.nvidia.com/deeplearning/dali/user-guide/docs/installation.html#nightly-builds)。
 <a name="第4期"></a>
 ## 第4期
@@ -294,7 +294,7 @@ Cosine_decay和piecewise_decay的学习率变化曲线如下图所示，容易
 **A**:一般来说，数据集的规模对性能影响至关重要，但是图片的标注往往比较昂贵，所以有标注的图片数量往往比较稀少，在这种情况下，数据的增广尤为重要。在训练ImageNet-1k的标准数据增广中，主要使用了Random_Crop与Random_Flip两种数据增广方式，然而，近些年，越来越多的数据增广方式被提出，如cutout、mixup、cutmix、AutoAugment等。实验表明，这些数据的增广方式可以有效提升模型的精度。具体到数据集来说：
- ImageNet-1k：下表列出了ResNet50在8种不同的数据增广方式的表现，可以看出，相比baseline，所有的数据增广方式均有收益，其中cutmix是目前最有效的数据增广。更多数据增广的介绍请参考[**数据增广章节**](../advanced_tutorials/image_augmentation/ImageAugment.md)。
+- ImageNet-1k：下表列出了ResNet50在8种不同的数据增广方式的表现，可以看出，相比baseline，所有的数据增广方式均有收益，其中cutmix是目前最有效的数据增广。更多数据增广的介绍请参考[**数据增广章节**](../advanced_tutorials/DataAugmentation.md)。
 | 模型       | 数据增广方式         | Test top-1 |
 |:--:|:--:|:--:|
@@ -332,7 +332,7 @@ Cosine_decay和piecewise_decay的学习率变化曲线如下图所示，容易
 - 挖掘相关数据：用在现有数据集上训练饱和的模型去对相关的数据做预测，将置信度较高的数据打label后加入训练集进一步训练，如此循环操作，可进一步提升模型的精度。
- 知识蒸馏：可以先使用一个较大的模型在该数据集上训练一个精度较高的teacher model，然后使用该teacher model去教导一个Student model，其中，Student model即为目标模型。PaddleClas提供了百度自研的SSLD知识蒸馏方案，即使在ImageNet-1k这么有挑战的分类任务上，其也能稳定提升3%以上。SSLD知识蒸馏的的章节请参考[**SSLD知识蒸馏**](../advanced_tutorials/distillation/distillation.md)。
+- 知识蒸馏：可以先使用一个较大的模型在该数据集上训练一个精度较高的teacher model，然后使用该teacher model去教导一个Student model，其中，Student model即为目标模型。PaddleClas提供了百度自研的SSLD知识蒸馏方案，即使在ImageNet-1k这么有挑战的分类任务上，其也能稳定提升3%以上。SSLD知识蒸馏的的章节请参考[**SSLD知识蒸馏**](../advanced_tutorials/knowledge_distillation.md)。
 <a name="第6期"></a>
@@ -342,13 +342,13 @@ Cosine_decay和piecewise_decay的学习率变化曲线如下图所示，容易
 **A**: PaddleClas目前共有3种分支：
-* 动态图分支：dygraph分支是PaddleClas的默认分支，也是更新最快的分支。所有的新功能、新改动都会先在dygraph分支上进行。如果想追踪PaddleClas的最新进展，可以关注这个分支。这个分支主要支持动态图，会跟着paddlepaddle的版本一起更新。
+* 开发分支：develop分支是PaddleClas的开发分支，也是更新最快的分支。所有的新功能、新改动都会先在develop分支上进行。如果想追踪PaddleClas的最新进展，可以关注这个分支。这个分支主要支持动态图，会跟着paddlepaddle的版本一起更新。
-* 稳定版本分支：快速更新能够让关注者了解最新进展，但也会带来不稳定性。因此在一些关键的时间点，我们会从dygraph分支中拉出分支，提供稳定的版本。这些分支的名字与paddlepaddle的版本对应，如 2.0-beta 为支持paddlepaddle2.0-beta的稳定版本。这些分支一般只会修复bug，而不更新新的特性和模型。
+* 稳定版本分支（如release/2.1.3）：快速更新能够让关注者了解最新进展，但也会带来不稳定性。因此在一些关键的时间点，我们会从develop分支中拉出分支，提供稳定的版本，最新的稳定版分支也是默认分支。需要注意，无特殊情况，我们只会维护最新的release稳定分支，并且一般只会修复bug，而不更新新的特性和模型。
-* 静态图分支：master分支是使用静态图版本的分支，主要用来支持一些老用户的使用，也只进行一些简单维护，不会更新新的特性和模型。不建议新用户使用静态图分支。老用户如果有条件，也建议迁到动态图分支或稳定版本分支。
+* 静态图分支（static）：static分支是使用静态图版本的分支，主要用来支持一些老用户的使用，也只进行一些简单维护，不会更新新的特性和模型。不建议新用户使用静态图分支。老用户如果有条件，也建议迁到动态图分支或稳定版本分支。
-总的来说，如果想跟进PaddleClas的最新进展，建议选择dygraph分支，如果需要稳定版本，建议选择最新的稳定版本分支。
+总的来说，如果想跟进PaddleClas的最新进展，建议选择develop分支，如果需要稳定版本，建议选择最新的稳定版本分支。
 ### Q6.2: 什么是静态图模式？
@@ -358,11 +358,7 @@ Cosine_decay和piecewise_decay的学习率变化曲线如下图所示，容易
 **A**: 动态图模式即为命令式编程模式，用户无需预先定义网络结构，每行代码都可以直接运行得到结果。相比静态图模式，动态图模式对用户更加友好，调试也更方便。此外，动态图模式的结构设计也更加灵活，可以在运行过程中随时调整结构。
-PaddleClas目前持续更新的dygraph分支，主要采用动态图模式。如果您是新用户，建议使用动态图模式来进行开发和训练。如果推理预测时有性能需求，可以在训练完成后，将动态图模型转为静态图模型提高效率。
+PaddleClas目前持续更新的develop分支和稳定版本的release分支，主要采用动态图模式。如果您是新用户，建议使用动态图模式来进行开发和训练。如果推理预测时有性能需求，可以在训练完成后，将动态图模型转为静态图模型提高效率。
-### Q6.4: 动态图模型的预测效率有时不如静态图，应该怎么办？
-**A**: 可以使用转换工具，将动态图模型转换为静态图模型，具体可以参考https://www.paddlepaddle.org.cn/documentation/docs/zh/2.0-rc1/guides/04_dygraph_to_static/index_cn.html。
 ### Q6.5: 构建分类数据集时，如何构建"背景"类别的数据？

--- a/docs/zh_CN/faq_series/faq_2021_s1.md
+++ b/docs/zh_CN/faq_series/faq_2021_s1.md
@@ -38,7 +38,9 @@
 ### Q1.4 PaddleClas提供的10W类图像分类预训练模型在哪里下载，应该怎么使用呢？
-**A**：基于ResNet50_vd, 百度开源了自研的大规模分类预训练模型，其中训练数据为10万个类别，4300万张图片。10万类预训练模型的下载地址：[下载地址](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_vd_10w_pretrained.tar)，在这里需要注意的是，该预训练模型没有提供最后的FC层参数，因此无法直接拿来预测；但是可以使用它作为预训练模型，在自己的数据集上进行微调。经过验证，该预训练模型相比于基于ImageNet1k数据集的ResNet50_vd预训练模型，在不同的数据集上均有比较明显的精度收益，最多可达30%，更多的对比实验可以参考：[图像分类迁移学习教程](../application/transfer_learning.md)。
+**A**：基于ResNet50_vd, 百度开源了自研的大规模分类预训练模型，其中训练数据为10万个类别，4300万张图片。10万类预训练模型的下载地址：[下载地址](https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_vd_10w_pretrained.tar)，在这里需要注意的是，该预训练模型没有提供最后的FC层参数，因此无法直接拿来预测；但是可以使用它作为预训练模型，在自己的数据集上进行微调。经过验证，该预训练模型相比于基于ImageNet1k数据集的ResNet50_vd预训练模型，在不同的数据集上均有比较明显的精度收益，最多可达30%。
+<!-- TODO(gaotingquan): -->
+<!-- ，更多的对比实验可以参考：[图像分类迁移学习教程](../application/transfer_learning.md)。 -->
 ### Q1.5 使用C++进行预测部署的时候怎么进行加速呢？
@@ -178,7 +180,7 @@ RepVGG网络与ACNet同理，只不过ACNet的`1*d`非对称卷积变成了`1*1`
 **A**:
 1. 图像对CNN的依赖是不必要的，利用Transformer的计算效率和可伸缩性，可以训练很大模型，当模型和数据集增大的情形下，仍然不会存在饱和的情况。受到Transformer在NLP上的启发，在图像分类任务中使用时，将图片分成顺序排列的patches，并将这些patches输入一个线性单元嵌入到embedding作为transformer的输入。
-2. 在中等规模数据集中如ImageNet，ImageNet21k，视觉Transformer模型低于相同规模尺寸的ResNet几个百分点。这是因为transformer缺少CNN平移和局限性，在数据量不够大的时候，不能超越卷积网络。
+2. 在中等规模数据集中如ImageNet1k，ImageNet21k，视觉Transformer模型低于相同规模尺寸的ResNet几个百分点。猜测这是因为transformer缺少CNN所具有的局部性(Locality)和空间不变性(Spatial Invariance)的特点，而在数据量不够大的时候，难以超越卷积网络，不过对于这一问题，[DeiT](https://arxiv.org/abs/2012.12877)使用数据增强的方式在一定程度上解决了Vision Transformer依赖超大规模数据集训练的问题。
 3. 在超大规模数据集14M-300M训练时，这种方式可以越过局部信息，建模更加长距离的依赖关系，而CNN能较好关注局部信息全局信息捕获能力较弱。
@@ -199,7 +201,7 @@ RepVGG网络与ACNet同理，只不过ACNet的`1*d`非对称卷积变成了`1*1`
    <img src="../../images/faq/Transformer_input.png" width="400">
 </div>
-3. 考虑以下问题：怎样将一张图片怎么传给encoder？
+3. 考虑以下问题：怎样将一张图片传给encoder？
 * 如下图所示。假设输入图片是[224,224,3]，按照顺序从左到右，从上到下，切分成很多个patch，patch大小可以为[p,p,3]（p取值可以是16，32），对其使用Linear Projection of Flattened Patches模块转成特征向量，并concat一个位置向量，传入Encoder中。
@@ -218,7 +220,7 @@ RepVGG网络与ACNet同理，只不过ACNet的`1*d`非对称卷积变成了`1*1`
 ### Q4.4: 如何理解归纳偏置Inductive Bias？
 **A**:
-1. 在机器学习中，会对算需要应用的问题做一些假设，这个假设就称为归纳偏好。在现实生活中观察得到的现象中归纳出一定的先验规则，然后对模型做一定的约束，从而起到模型选择的作用。在CNN中，假设特征具有局部性(Locality)和空间不变性(Spatial Invariance)的特点，即把相邻的的特征有联系而远离的没有，将相邻特征融合在一起，更会容易产生“解”；还有attention机制，也是从人的直觉、生活经验归纳的规则。
+1. 在机器学习中，会对算需要应用的问题做一些假设，这个假设就称为归纳偏好。在现实生活中观察得到的现象中归纳出一定的先验规则，然后对模型做一定的约束，从而起到模型选择的作用。在CNN中，假设特征具有局部性(Locality)和空间不变性(Spatial Invariance)的特点，即把相邻的特征有联系而远离的没有，将相邻特征融合在一起，更会容易产生“解”；还有attention机制，也是从人的直觉、生活经验归纳的规则。
 2. Vision Transformer利用的归纳偏置是有序列能力Sequentiality和时间不变性Time Invariance，即序列顺序上的时间间隔的联系，因此也能得出在更大规模数据集上比CNN类的模型有更好的性能。文章Conclusion里的“Unlike prior works using self-attention in computer vision, we do not introduce any image-specific inductive biases into the architecture”和Introduction里的“We find that large scale training trumps inductive bias”，可以得出直观上inductive bias在大量数据的情况中的产生是衰减性能，应该尽可能丢弃。
@@ -242,11 +244,11 @@ PaddleClas的模型包含6大模块的配置，分别为：全局配置，网络
 学习率和优化器的配置建议优先使用默认配置，这些参数是我们已经调过的。如果任务的改动比较大，也可以做微调。
-训练和预测两个配置包含了batch_size，数据集，数据预处理（transforms），读数据进程数（num_workers）等比较重要的配置，这部分要根据实际环境适度修改。要注意的是，paddleclas中的batch_size是全局的配置，即不随卡数发生变化。而num_workers定义的是单卡的进程数，即如果num_workers是8，并且使用4卡训练，则实际有32个worker。
+训练和预测两个配置包含了batch_size，数据集，数据预处理（transforms），读数据进程数（num_workers）等比较重要的配置，这部分要根据实际环境适度修改。要注意的是，paddleclas中的batch_size是单卡配置，如果是多卡训练，则总的batch_size是配置文件中所设置的倍数，例如配置文件中设置batch_size为64，4卡训练，总batch_size也就是4*64=256。而num_workers定义的是单卡的进程数，即如果num_workers是8，并且使用4卡训练，则实际有32个worker。
 ### Q5.2: 如何在命令行中快速的修改配置？
 **A**:
-在训练中，我们常常需要对个别配置不断进行微调，而不希望频繁的修改配置文件。这时可以使用-o来调整，修改是要先按层级写出要改的配置名称，层级之间用点分割，再写出要修改的值。例如我们想要修改batch_size，可以在训练的命令后加上-o TRAIN.batchsize=512。
+在训练中，我们常常需要对个别配置不断进行微调，而不希望频繁的修改配置文件。这时可以使用-o来调整，修改是要先按层级写出要改的配置名称，层级之间用点分割，再写出要修改的值。例如我们想要修改batch_size，可以在训练的命令后加上-o DataLoader.TRAIN.sampler.batch_size=512。
 ### Q5.3: 如何根据PaddleClas的精度曲线选择合适的模型？
 **A**:
@@ -264,4 +266,4 @@ PaddleClas提供了多个模型的benchmark，并绘制了性能曲线，主要
 ### Q5.5: 使用分类模型做其他任务的预训练模型时，应该选择哪些层作为feature？
 **A**:
 使用分类模型做其他任务的backbone有很多策略，这里介绍一种较为基础的方法。首先，去掉最后的全连接层，这一层主要包含的是原始任务的分类信息。如果任务比较简单，只要将前一层的输出作为featuremap，并在此基础上添加与任务对应的结构即可。如果任务涉及多尺度，需要选取不同尺度的anchor，例如某些检测模型，那么可以选取每次下采样之前一层的输出作为featuremap。
\ No newline at end of file
--- a/docs/zh_CN/faq_series/faq_2021_s2.md
+++ b/docs/zh_CN/faq_series/faq_2021_s2.md
@@ -32,11 +32,9 @@
 #### Q2.1.8: 如何在训练时使用 `Mixup` 和 `Cutmix` ？
 **A**：
-* `Mixup` 的使用方法请参考 [Mixup](https://github.com/PaddlePaddle/PaddleClas/blob/cf9fc9363877f919996954a63716acfb959619d0/ppcls/configs/ImageNet/DataAugment/ResNet50_Mixup.yaml#L63-L65)；`Cuxmix` 请参考 [Cuxmix](https://github.com/PaddlePaddle/PaddleClas/blob/cf9fc9363877f919996954a63716acfb959619d0/ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L63-L65)。
+* `Mixup` 的使用方法请参考 [Mixup](../../../ppcls/configs/ImageNet/DataAugment/ResNet50_Mixup.yaml#L63-L65)；`Cuxmix` 请参考 [Cuxmix](../../../ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L63-L65)。
-* 在使用 `Mixup` 或 `Cutmix` 时，需要注意：
+* 使用 `Mixup` 或 `Cutmix` 做训练时无法计算训练的精度（Acc）指标，因此需要在配置文件中取消 `Metric.Train.TopkAcc` 字段，可参考 [Metric.Train.TopkAcc](../../../ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L125-L128)。
-    * 配置文件中的 `Loss.Tranin.CELoss` 需要修改为 `Loss.Tranin.MixCELoss`，可参考 [MixCELoss](https://github.com/PaddlePaddle/PaddleClas/blob/cf9fc9363877f919996954a63716acfb959619d0/ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L23-L26)；
-    * 使用 `Mixup` 或 `Cutmix` 做训练时无法计算训练的精度（Acc）指标，因此需要在配置文件中取消 `Metric.Train.TopkAcc` 字段，可参考 [Metric.Train.TopkAcc](https://github.com/PaddlePaddle/PaddleClas/blob/cf9fc9363877f919996954a63716acfb959619d0/ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L125-L128)。
 #### Q2.1.9: 训练配置yaml文件中，字段 `Global.pretrain_model` 和 `Global.checkpoints` 分别用于配置什么呢？
 **A**：
@@ -103,9 +101,6 @@ pip install paddle2onnx
 #### Q1.1.1 PaddleClas和PaddleDetection区别
 **A**：PaddleClas是一个兼主体检测、图像分类、图像检索于一体的图像识别repo，用于解决大部分图像识别问题，用户可以很方便的使用PaddleClas来解决小样本、多类别的图像识别问题。PaddleDetection提供了目标检测、关键点检测、多目标跟踪等能力，方便用户定位图像中的感兴趣的点和区域，被广泛应用于工业质检、遥感图像检测、无人巡检等项目。
-#### Q1.1.2 PaddleClas 2.2和PaddleClas 2.1完全兼容吗？
-**A**：PaddleClas2.2相对PaddleClas2.1新增了metric learning模块，主体检测模块、向量检索模块。另外，也提供了商品识别、车辆识别、logo识别和动漫人物识别等4个场景应用示例。用户可以基于PaddleClas 2.2快速构建图像识别系统。在图像分类模块，二者的使用方法类似，可以参考[图像分类示例](../tutorials/getting_started.md)快速迭代和评估。新增的metric learning模块，可以参考[metric learning示例](../tutorials/getting_started_retrieval.md)。另外，新版本暂时还不支持fp16、dali训练，也暂时不支持多标签训练，这块内容将在不久后支持。
 #### Q1.1.3: Momentum 优化器中的 momentum 参数是什么意思呢？
 **A**: Momentum 优化器是在 SGD 优化器的基础上引入了“动量”的概念。在 SGD 优化器中，在 `t+1` 时刻，参数 `w` 的更新可表示为：
 ```latex
@@ -139,7 +134,7 @@ w_t+1 = w_t - v_t+1
 2. 图像裁剪类： CutOut、RandErasing、HideAndSeek、GridMask；
 3. 图像混叠类：Mixup, Cutmix.
-其中，Randangment提供了多种数据增强方式的随机组合，可以满足亮度、对比度、饱和度、色调等多方面的数据增广需求
+其中，RandAngment提供了多种数据增强方式的随机组合，可以满足亮度、对比度、饱和度、色调等多方面的数据增广需求。
 <a name="1.4通用检测模块"></a>
 ### 1.4 通用检测模块
@@ -148,7 +143,7 @@ w_t+1 = w_t - v_t+1
 **A**：主体检测这块的输出数量是可以通过配置文件配置的。在配置文件中Global.threshold控制检测的阈值，小于该阈值的检测框被舍弃，Global.max_det_results控制最大返回的结果数，这两个参数共同决定了输出检测框的数量。
 #### Q1.4.2 训练主体检测模型的数据是如何选择的？换成更小的模型会有损精度吗？
-**A**：训练数据是在COCO、Object365、RPC、LogoDet等公开数据集中随机抽取的子集，小模型精度可能会有一些损失，后续我们也会尝试下更小的检测模型。关于主体检测模型的更多信息请参考[主体检测](../application/mainbody_detection.md)。
+**A**：训练数据是在COCO、Object365、RPC、LogoDet等公开数据集中随机抽取的子集。目前我们在2.3版本中推出了超轻量的主体检测模型，具体信息可以参考[主体检测](../image_recognition_pipeline/mainbody_detection.md#2-模型选择)。关于主体检测模型的更多信息请参考[主体检测](../image_recognition_pipeline/mainbody_detection.md)。
 #### Q1.4.3: 目前使用的主体检测模型检测在某些场景中会有误检？
 **A**：目前的主体检测模型训练时使用了COCO、Object365、RPC、LogoDet等公开数据集，如果被检测数据是类似工业质检等于常见类别差异较大的数据，需要基于目前的检测模型重新微调训练。
@@ -169,7 +164,7 @@ w_t+1 = w_t - v_t+1
 ### 1.6 检索模块
 #### Q1.6.1 PaddleClas目前使用的Möbius向量检索算法支持类似于faiss的那种index.add()的功能吗? 另外，每次构建新的图都要进行train吗？这里的train是为了检索加速还是为了构建相似的图？
-**A**：Mobius提供的检索算法是一种基于图的近似最近邻搜索算法，目前支持两种距离计算方式：inner product和L2 distance. faiss中提供的index.add功能暂时不支持，如果需要增加检索库的内容，需要从头重新构建新的index. 在每次构建index时，检索算法内部执行的操作是一种类似于train的过程，不同于faiss提供的train接口，我们命名为build, 主要的目的是为了加速检索的速度。
+**A**：目前在release/2.3分支已经支持faiss检索模块，并且不再支持Möbius。关于Möbius提供的检索算法，是一种基于图的近似最近邻搜索算法，目前支持两种距离计算方式：inner product和L2 distance，但是Möbius暂不支持faiss中提供的index.add功能，如果需要增加检索库的内容，需要从头重新构建新的index. 在每次构建index时，检索算法内部执行的操作是一种类似于train的过程，不同于faiss提供的train接口。因此需要faiss模块的话，可以使用release/2.3分支，需要Möbius的话，目前需要回退到release/2.2分支。
 #### Q1.6.2: PaddleClas 图像识别用于 Eval 的配置文件中，`Query` 和 `Gallery` 配置具体是用于做什么呢？
 **A**: `Query` 与 `Gallery` 均为数据集配置，其中 `Gallery` 用于配置底库数据，`Query` 用于配置验证集。在进行 Eval 时，首先使用模型对 `Gallery` 底库数据进行前向计算特征向量，特征向量用于构建底库，然后模型对 `Query` 验证集中的数据进行前向计算特征向量，再与底库计算召回率等指标。
@@ -218,11 +213,9 @@ PaddlePaddle is installed successfully! Let's start deep learning with PaddlePad
 #### Q2.1.8: 如何在训练时使用 `Mixup` 和 `Cutmix` ？
 **A**：
-* `Mixup` 的使用方法请参考 [Mixup](https://github.com/PaddlePaddle/PaddleClas/blob/cf9fc9363877f919996954a63716acfb959619d0/ppcls/configs/ImageNet/DataAugment/ResNet50_Mixup.yaml#L63-L65)；`Cuxmix` 请参考 [Cuxmix](https://github.com/PaddlePaddle/PaddleClas/blob/cf9fc9363877f919996954a63716acfb959619d0/ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L63-L65)。
+* `Mixup` 的使用方法请参考 [Mixup](../../../ppcls/configs/ImageNet/DataAugment/ResNet50_Mixup.yaml#L63-L65)；`Cuxmix` 请参考 [Cuxmix](../../../ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L63-L65)。
-* 在使用 `Mixup` 或 `Cutmix` 时，需要注意：
+* 使用 `Mixup` 或 `Cutmix` 做训练时无法计算训练的精度（Acc）指标，因此需要在配置文件中取消 `Metric.Train.TopkAcc` 字段，可参考 [Metric.Train.TopkAcc](../../../ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L125-L128)。
-    * 配置文件中的 `Loss.Tranin.CELoss` 需要修改为 `Loss.Tranin.MixCELoss`，可参考 [MixCELoss](https://github.com/PaddlePaddle/PaddleClas/blob/cf9fc9363877f919996954a63716acfb959619d0/ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L23-L26)；
-    * 使用 `Mixup` 或 `Cutmix` 做训练时无法计算训练的精度（Acc）指标，因此需要在配置文件中取消 `Metric.Train.TopkAcc` 字段，可参考 [Metric.Train.TopkAcc](https://github.com/PaddlePaddle/PaddleClas/blob/cf9fc9363877f919996954a63716acfb959619d0/ppcls/configs/ImageNet/DataAugment/ResNet50_Cutmix.yaml#L125-L128)。
 #### Q2.1.9: 训练配置yaml文件中，字段 `Global.pretrain_model` 和 `Global.checkpoints` 分别用于配置什么呢？
 **A**：
@@ -232,9 +225,9 @@ PaddlePaddle is installed successfully! Let's start deep learning with PaddlePad
 <a name="2.2图像分类"></a>
 ### 2.2 图像分类
-#### Q2.2.1 SSLD中，大模型在500M数据上预训练后蒸馏小模型，然后在1M数据上蒸馏finetune小模型？
+#### Q2.2.1 在SSLD中，大模型在500M数据上预训练后蒸馏小模型，然后在1M数据上蒸馏finetune小模型，具体步骤是怎样做的？
 **A**：步骤如下：
-1. 基于facebook开源的`ResNeXt101-32x16d-wsl`模型 去蒸馏得到了`ResNet50-vd`模型；
+1. 基于facebook开源的`ResNeXt101-32x16d-wsl`模型去蒸馏得到了`ResNet50-vd`模型；
 2. 用这个`ResNet50-vd`，在500W数据集上去蒸馏`MobilNetV3`；
 3. 考虑到500W的数据集的分布和100W的数据分布不完全一致，所以这块，在100W上的数据上又finetune了一下，精度有微弱的提升。
@@ -257,13 +250,13 @@ PaddlePaddle is installed successfully! Let's start deep learning with PaddlePad
 ### 2.4 图像识别模块
 #### Q2.4.1: 识别模块预测时报`Illegal instruction`错？
-**A**：可能是编译生成的库文件与您的环境不兼容，导致程序报错，如果报错，推荐参考[向量检索教程](../../../deploy/vector_search/README.md)重新编译库文件。
+**A**：如果使用的是release/2.2分支，建议更新为release/2.3分支，在release/2.3分支中，我们使用faiss检索模块替换了Möbius检索模型，具体可以参考[向量检索教程](../../../deploy/vector_search/README.md)。如仍存在问题，可以在用户微信群中联系我们，也可以在GitHub提issue。
 #### Q2.4.2: 识别模型怎么在预训练模型的基础上进行微调训练？
-**A**：识别模型的微调训练和分类模型的微调训练类似，识别模型可以加载商品的预训练模型，训练过程可以参考[识别模型训练](../tutorials/getting_started_retrieval.md)，后续我们也会持续细化这块的文档。
+**A**：识别模型的微调训练和分类模型的微调训练类似，识别模型可以加载商品的预训练模型，训练过程可以参考[识别模型训练](../../zh_CN/models_training/recognition.md)，后续我们也会持续细化这块的文档。
 #### Q2.4.3: 训练metric learning时，每个epoch中，无法跑完所有mini-batch，为什么？
-**A**：在训练metric learning时，使用的Sampler是DistributedRandomIdentitySampler，该Sampler不会采样全部的图片，导致会让每一个epoch采样的数据不是所有的数据，所以无法跑完显示的mini-batch是正常现象。后续我们会优化下打印的信息，尽可能减少给大家带来的困惑。
+**A**：在训练metric learning时，使用的Sampler是DistributedRandomIdentitySampler，该Sampler不会采样全部的图片，导致会让每一个epoch采样的数据不是所有的数据，所以无法跑完显示的mini-batch是正常现象。该问题在release/2.3分支已经优化，请更新到release/2.3使用。
 #### Q2.4.4: 有些图片没有识别出结果，为什么？
 **A**：在配置文件（如inference_product.yaml）中，`IndexProcess.score_thres`中会控制被识别的图片与库中的图片的余弦相似度的最小值。当余弦相似度小于该值时，不会打印结果。您可以根据自己的实际数据调整该值。
@@ -275,10 +268,10 @@ PaddlePaddle is installed successfully! Let's start deep learning with PaddlePad
 **A**：请确保data_file.txt中图片路径和图片名称中间的间隔为单个table，而不是空格。
 #### Q2.5.2: 新增底库数据需要重新构建索引吗？
-**A**：这一版需要重新构建索引，未来版本会支持只构建新增图片的索引。
+**A**：从release/2.3分支起，我们使用faiss检索模块替换了Möbius检索模型，已经支持在不构建底库的前提下新增底库数据，具体可以参考[向量检索教程](../../../deploy/vector_search/README.md)。
 #### Q2.5.3: Mac重新编译index.so时报错如下：clang: error: unsupported option '-fopenmp', 该如何处理？
-**A**：该问题已经解决。可以参照[文档](../../../develop/deploy/vector_search/README.md)重新编译 index.so。
+**A**：如果使用的是release/2.2分支，建议更新为release/2.3分支，在release/2.3分支中，我们使用faiss检索模块替换了Möbius检索模型，具体可以参考[向量检索教程](../../../deploy/vector_search/README.md)。如仍存在问题，可以在用户微信群中联系我们，也可以在GitHub提issue。
 #### Q2.5.4: 在 build 检索底库时，参数 `pq_size` 应该如何设置？
 **A**：`pq_size` 是PQ检索算法的参数。PQ检索算法可以简单理解为“分层”检索算法，`pq_size` 是每层的“容量”，因此该参数的设置会影响检索性能，不过，在底库总数据量不太大（小于10000张）的情况下，这个参数对性能的影响很小，因此对于大多数使用场景而言，在构建底库时无需修改该参数。关于PQ检索算法的更多内容，可以查看相关[论文](https://lear.inrialpes.fr/pubs/2011/JDS11/jegou_searching_with_quantization.pdf)。

--- a/docs/zh_CN/faq_series/faq.md
+++ b/docs/zh_CN/faq_series/faq.md
@@ -31,7 +31,7 @@
 >>
 * Q: 怎样根据自己的任务选择合适的模型进行训练？
-* A: 如果希望在服务器部署，或者希望精度尽可能地高，对模型存储大小或者预测速度的要求不是很高，那么推荐使用ResNet_vd、Res2Net_vd、DenseNet、Xception等适合于服务器端的系列模型；如果希望在移动端侧部署，则推荐使用MobileNetV3、GhostNet等适合于移动端的系列模型。同时，我们推荐在选择模型的时候可以参考[模型库](../models)中的速度-精度指标图。
+* A: 如果希望在服务器部署，或者希望精度尽可能地高，对模型存储大小或者预测速度的要求不是很高，那么推荐使用ResNet_vd、Res2Net_vd、DenseNet、Xception等适合于服务器端的系列模型；如果希望在移动端侧部署，则推荐使用MobileNetV3、GhostNet等适合于移动端的系列模型。同时，我们推荐在选择模型的时候可以参考[模型库](../models/models_intro.md)中的速度-精度指标图。
 >>
 * Q: 如何进行参数初始化，什么样的初始化可以加快模型收敛？
@@ -53,12 +53,12 @@
 ### 模型训练相关
 >>
-* Q: 使用深度卷积网络做图像分类如果训练一个拥有1000万个类的模型会碰到什么问题？
+* Q: 使用深度卷积网络做图像分类，如果训练一个拥有1000万个类的模型会碰到什么问题？
 * A: 因为FC层参数很多，内存/显存/模型的存储占用都会大幅增大；模型收敛速度也会变慢一些。建议在这种情况下，再最后的FC层前加一层维度较小的FC，这样可以大幅减少模型的存储大小。
 >>
 * Q: 训练过程中，如果模型收敛效果很差，可能的原因有哪些呢？
-* A: 主要有以下几个可以排查的地方：（1）应该检查数据标注，确保训练集和验证集的数据标注没有问题。（2）可以试着调整一下学习率（初期可以以10倍为单位进行调节），过大（训练震荡）或者过小（收敛太慢）的学习率都可能导致收敛效果差。（3）数据量太大，选择的模型太小，难以学习所有数据的特征。（4）可以看下数据预处理的过程中是否使用了归一化，如果没有使用归一化操作，收敛速度可能会比较慢。（5）如果数据量比较小，可以试着加载PaddleClas中提供的基于ImageNet-1k数据集的预训练模型，这可以大大提升训练收敛速度。（6）数据集存在长尾问题，可以参考[数据长尾问题解决方案](#jump)。
+* A: 主要有以下几个可以排查的地方：（1）应该检查数据标注，确保训练集和验证集的数据标注没有问题。（2）可以试着调整一下学习率（初期可以以10倍为单位进行调节），过大（训练震荡）或者过小（收敛太慢）的学习率都可能导致收敛效果差。（3）数据量太大，选择的模型太小，难以学习所有数据的特征。（4）可以看下数据预处理的过程中是否使用了归一化，如果没有使用归一化操作，收敛速度可能会比较慢。（5）如果数据量比较小，可以试着加载PaddleClas中提供的基于ImageNet-1k数据集的预训练模型，这可以大大提升训练收敛速度。（6）数据集存在长尾问题，可以参考[数据长尾问题解决方案](#long_tail)。
 >>
 * Q: 训练图像分类任务时，该怎么选择合适的优化器？
@@ -140,8 +140,9 @@
 * Q: 对于精度要求不是那么高的图像分类任务，大概需要准备多大的训练数据集呢？
 * A: 训练数据的数量和需要解决问题的复杂度有关系。难度越大，精度要求越高，则数据集需求越大，而且一般情况实际中的训练数据越多效果越好。当然，一般情况下，在加载预训练模型的情况下，每个类别包括10-20张图像即可保证基本的分类效果；不加载预训练模型的情况下，每个类别需要至少包含100-200张图像以保证基本的分类效果。
+<a name="long_tail"></a>
 >>
-* Q: <span id="jump">对于长尾分布的数据集，目前有哪些比较常用的方法？</span>
+* Q: 对于长尾分布的数据集，目前有哪些比较常用的方法？
 * A: （1）可以对数据量比较少的类别进行重采样，增加其出现的概率；（2）可以修改loss，增加图像较少对应的类别的图片的loss权重；（3）可以借鉴迁移学习的方法，从常见类别中学习通用知识，然后迁移到少样本的类别中。
 <a name="模型推理与预测相关"></a>
@@ -152,7 +153,7 @@
 * A: 可以在分类之前先加一个主体检测的模型，将前景物体检测出来之后再进行分类，可以大大提升最终的识别效果。如果不考虑时间成本，也可以使用multi-crop的方式对所有的预测做融合来决定最终的类别。
 >>
 * Q: 目前推荐的，模型预测方式有哪些？
-* A: 在模型训练完成之后，推荐使用导出的固化模型（inference model），基于Paddle预测引擎进行预测，目前支持python inference与cpp inference。如果希望基于服务化部署预测模型，那么推荐使用HubServing的部署方式。
+* A: 在模型训练完成之后，推荐使用导出的固化模型（inference model），基于Paddle预测引擎进行预测，目前支持python inference与cpp inference。如果希望基于服务化部署预测模型，那么推荐使用PaddleServing的部署方式。
 >>
 * Q: 模型训练完成之后，有哪些比较合适的预测方法进一步提升模型精度呢？
 * A: （1）可以使用更大的预测尺度，比如说训练的时候使用的是224，那么预测的时候可以考虑使用288或者320，这会直接带来0.5%左右的精度提升。（2）可以使用测试时增广的策略（Test Time Augmentation, TTA)，将测试集通过旋转、翻转、颜色变换等策略，创建多个副本，并分别预测，最后将所有的预测结果进行融合，这可以大大提升预测结果的精度和鲁棒性。（3）当然，也可以使用多模型融合的策略，将多个模型针对相同图片的预测结果进行融合。
@@ -168,15 +169,6 @@
 <a name="PaddleClas使用问题"></a>
 ## PaddleClas使用问题
->>
-* Q: 多卡评估时，为什么每张卡输出的精度指标不相同？
-* A: 目前PaddleClas基于fleet api使用多卡，在多卡评估时，每张卡都是单独读取各自part的数据，不同卡中计算的图片是不同的，因此最终指标也会有微量差异，如果希望得到准确的评估指标，可以使用单卡评估。
->>
-* Q: 在配置文件的`TRAIN`字段中配置了`mix`的参数，为什么`mixup`的数据增广预处理没有生效呢？
-* A: 使用mixup时，数据预处理部分与模型输入部分均需要修改，因此还需要在配置文件中显式地配置`use_mix: True`，才能使得`mixup`生效。
 >>
 * Q: 评估和预测时，已经指定了预训练模型所在文件夹的地址，但是仍然无法导入参数，这么为什么呢？
 * A: 加载预训练模型时，需要指定预训练模型的前缀，例如预训练模型参数所在的文件夹为`output/ResNet50_vd/19`，预训练模型参数的名称为`output/ResNet50_vd/19/ppcls.pdparams`，则`pretrained_model`参数需要指定为`output/ResNet50_vd/19/ppcls`，PaddleClas会自动补齐`.pdparams`的后缀。
@@ -186,16 +178,14 @@
 * Q: 在评测`EfficientNetB0_small`模型时，为什么最终的精度始终比官网的低0.3%左右？
 * A: `EfficientNet`系列的网络在进行resize的时候，是使用`cubic插值方式`(resize参数的interpolation值设置为2)，而其他模型默认情况下为None，因此在训练和评估的时候需要显式地指定resize的interpolation值。具体地，可以参考以下配置中预处理过程中ResizeImage的参数。
 ```
-VALID:
+  Eval:
-    batch_size: 16
+    dataset:
-    num_workers: 4
+      name: ImageNetDataset
-    file_list: "./dataset/ILSVRC2012/val_list.txt"
+      image_root: ./dataset/ILSVRC2012/
-    data_dir: "./dataset/ILSVRC2012/"
+      cls_label_path: ./dataset/ILSVRC2012/val_list.txt
-    shuffle_seed: 0
+      transform_ops:
-    transforms:
        - DecodeImage:
            to_rgb: True
-            to_np: False
            channel_first: False
        - ResizeImage:
            resize_short: 256
@@ -207,56 +197,46 @@ VALID:
            mean: [0.485, 0.456, 0.406]
            std: [0.229, 0.224, 0.225]
            order: ''
-        - ToCHWImage:
 ```
 >>
 * Q: python2下，使用visualdl的时候，报出以下错误，`TypeError: __init__() missing 1 required positional argument: 'sync_cycle'`，这是为什么呢？
-* A: 目前visualdl仅支持在python3下运行，visualdl需要是2.0以上的版本，如果visualdl版本不对的话，可以通过以下方式进行安装：`pip3 install visualdl==2.0.0b8  -i https://mirror.baidu.com/pypi/simple`
+* A: 目前visualdl仅支持在python3下运行，visualdl需要是2.0以上的版本，如果visualdl版本不对的话，可以通过以下方式进行安装：`pip3 install visualdl -i https://mirror.baidu.com/pypi/simple`
 >>
 * Q: 自己在测ResNet50_vd预测单张图片速度的时候发现比官网提供的速度benchmark慢了很多，而且CPU速度比GPU速度快很多，这个是为什么呢？
 * A: 模型预测需要初始化，初始化的过程比较耗时，因此在统计预测速度的时候，需要批量跑一批图片，去除前若干张图片的预测耗时，再统计下平均的时间。GPU比CPU速度测试单张图片速度慢是因为GPU的初始化并CPU要慢很多。
->>
-* Q: 在动态图中加载静态图预训练模型的时候，需要注意哪些问题？
-* A: 在使用infer.py预测单张图片或者文件夹中的图片时，需要注意指定[infer.py](https://github.com/PaddlePaddle/PaddleClas/blob/53c5850df7c49a1bfcd8d989e6ccbea61f406a1d/tools/infer/infer.py#L40)中的`load_static_weights`为True，在finetune或者评估的时候需要添加`-o load_static_weights=True`的参数。
 >>
 * Q: 灰度图可以用于模型训练吗？
 * A: 灰度图也可以用于模型训练，不过需要修改模型的输入shape为`[1, 224, 224]`，此外数据增广部分也需要注意适配一下。不过为了更好地使用PaddleClas代码的话，即使是灰度图，也建议调整为3通道的图片进行训练（RGB通道的像素值相等）。
 >>
 * Q: 怎么在windows上或者cpu上面模型训练呢？
-* A: 可以参考[PaddleClas开始使用教程](https://github.com/PaddlePaddle/PaddleClas/blob/master/docs/zh_CN/tutorials/getting_started.md)，详细介绍了在Linux、Windows、CPU等环境中进行模型训练、评估与预测的教程。
+* A: 可以参考[开始使用教程](../models_training/classification.md)，详细介绍了在Linux、Windows、CPU等环境中进行模型训练、评估与预测的教程。
 >>
 * Q: 怎样在模型训练的时候使用label smoothing呢？
-* A: 可以在配置文件中设置label smoothing epsilon的值，`ls_epsilon=0.1`，表示设置该值为0.1，若该值为-1，则表示不使用label smoothing。
+* A: 可以在配置文件中的`Loss`字段下进行设置，如下所示，`epsilon=0.1` 表示设置该值为0.1，若不设置 `epsilon` 字段，则不使用 `label smoothing`。
+```yaml
+Loss:
+  Train:
+    - CELoss:
+        weight: 1.0
+        epsilon: 0.1
+```
 >>
 * Q: PaddleClas提供的10W类图像分类预训练模型能否用于模型推断呢？
 * A: 该10W类图像分类预训练模型没有提供fc全连接层的参数，无法用于模型推断，目前可以用于模型微调。
 >>
-* Q: 在使用`tools/infere/predict.py`进行模型预测的时候，报了这个问题:`Error: Pass tensorrt_subgraph_pass has not been registered`，这是为什么呢？
+* Q: 在使用`deploy/python/predict_cls.py`进行模型预测的时候，报了这个问题:`Error: Pass tensorrt_subgraph_pass has not been registered`，这是为什么呢？
-* A: 如果希望使用TensorRT进行模型预测推理的话，需要编译带TensorRT的PaddlePaddle，编译的时候参考以下的编译方式，其中`TENSORRT_ROOT`表示TensorRT的路径。
+* A: 如果希望使用TensorRT进行模型预测推理的话，需要安装或是自己编译带TensorRT的PaddlePaddle，Linux、Windows、macOS系统的用户下载安装可以参考参考[下载预测库](https://paddleinference.paddlepaddle.org.cn/user_guides/download_lib.html)，如果没有符合您所需要的版本，则需要本地编译安装，编译方法可以参考[源码编译](https://paddleinference.paddlepaddle.org.cn/user_guides/source_compile.html)。
-```
-cmake  .. \
-        -DWITH_CONTRIB=OFF \
-        -DWITH_MKL=ON \
-        -DWITH_MKLDNN=ON  \
-        -DWITH_TESTING=OFF \
-        -DCMAKE_BUILD_TYPE=Release \
-        -DWITH_INFERENCE_API_TEST=OFF \
-        -DON_INFER=ON \
-        -DWITH_PYTHON=ON \
-        -DPY_VERSION=2.7 \
-        -DTENSORRT_ROOT=/usr/local/TensorRT6-cuda10.0-cudnn7/
-make -j16
-make inference_lib_dist
-```
 >>
 * Q: 怎样在训练的时候使用自动混合精度(Automatic Mixed Precision, AMP)训练呢？
-* A: 可以参考[ResNet50_fp16.yml](https://github.com/PaddlePaddle/PaddleClas/blob/master/configs/ResNet/ResNet50_fp16.yml)这个配置文件；具体地，如果希望自己的配置文件在模型训练的时候也支持自动混合精度，可以在配置文件中添加下面的配置信息。
+* A: 可以参考[ResNet50_fp16.yaml](../../../ppcls/configs/ImageNet/ResNet/ResNet50_fp16.yaml)这个配置文件；具体地，如果希望自己的配置文件在模型训练的时候也支持自动混合精度，可以在配置文件中添加下面的配置信息。
 ```
-use_fp16: True
+# mixed precision training
-amp_scale_loss: 128.0
+AMP:
-use_dynamic_loss_scaling: True
+  scale_loss: 128.0
+  use_dynamic_loss_scaling: True
+  use_pure_fp16: &use_pure_fp16 True
 ```