diff --git a/docs/zh_CN/faq_series/faq_2020_s1.md b/docs/zh_CN/faq_series/faq_2020_s1.md
index 1cf7642218dde869b148233ca7314514be32b888..ad69fde431da3a637ca91a79c855c73ba89f7ae0 100644
--- a/docs/zh_CN/faq_series/faq_2020_s1.md
+++ b/docs/zh_CN/faq_series/faq_2020_s1.md
@@ -2,14 +2,14 @@
## 目录
-* [第1期](#第1期)(2020.11.03)
-* [第2期](#第2期)(2020.11.11)
-* [第3期](#第3期)(2020.11.18)
-* [第4期](#第4期)(2020.12.07)
-* [第5期](#第5期)(2020.12.17)
-* [第6期](#第6期)(2020.12.30)
-
-
+* [1. 第1期](#1)(2020.11.03)
+* [2. 第2期](#2)(2020.11.11)
+* [3. 第3期](#3)(2020.11.18)
+* [4. 第4期](#4)(2020.12.07)
+* [5. 第5期](#5)(2020.12.17)
+* [6. 第6期](#6)(2020.12.30)
+
+
## 第1期
### Q1.1: PaddleClas可以用来做什么?
@@ -69,7 +69,7 @@ ResNet系列模型中,相比于其他模型,ResNet_vd模型在预测速度
**A**: 不一定,将网络中的所有卷积核都增大未必会带来性能的提升,甚至会有有损性能,在论文[MixConv: Mixed Depthwise Convolutional Kernels](https://arxiv.org/abs/1907.09595)
中指出,在一定范围内提升卷积核大小对精度的提升有正向作用,但是超出后会有损精度。所以考虑到模型的大小、计算量等问题,一般不选用大的卷积核去设计网络。同时,在[PP-LCNet](../models/PP-LCNet.md)文章中,也有关于大卷积核的实验。
-
+
## 第2期
### Q2.1: PaddleClas如何训练自己的backbone?
@@ -103,7 +103,7 @@ ResNet系列模型中,相比于其他模型,ResNet_vd模型在预测速度
**A**: PaddleClas中提供了很多ssld预训练模型,其通过半监督知识蒸馏的方法获得了更好的预训练权重,在迁移任务或者下游视觉任务中,无须替换结构文件、只需要替换精度更高的ssld预训练模型即可提升精度,如在PaddleSeg中,[HRNet](https://github.com/PaddlePaddle/PaddleSeg/blob/release/v0.7.0/docs/model_zoo.md)使用了ssld预训练模型的权重后,精度大幅度超越业界同样的模型的精度,在PaddleDetection中,[PP-YOLO](https://github.com/PaddlePaddle/PaddleDetection/blob/release/0.4/configs/ppyolo/README_cn.md)使用了ssld预训练权重后,在较高的baseline上仍有进一步的提升。使用ssld预训练权重做分类的迁移表现也很抢眼,在[SSLD蒸馏策略](../advanced_tutorials/knowledge_distillation.md)部分介绍了知识蒸馏对于分类任务迁移的收益。
-
+
## 第3期
### Q3.1: DenseNet模型相比于ResNet有什么改进呢?有哪些特点或者应用场景呢?
@@ -146,7 +146,7 @@ AMP:
* 可以开启dali,将数据预处理方法放在GPU上运行,在模型比较小时(reader耗时占比更高一些),开启dali会带来比较明显的训练速度收益,在训练的时候,添加`-o Global.use_dali=True`即可使用dali进行训练,更多关于 dali 安装与介绍可以参考:[dali安装教程](https://docs.nvidia.com/deeplearning/dali/user-guide/docs/installation.html#nightly-builds)。
-
+
## 第4期
### Q4.1: PaddlePaddle 的模型文件都有哪几种?
@@ -195,7 +195,7 @@ AMP:
* 对于*Fsq*部分,关键是求得*C*维的向量,因此不局限于使用*Global Average Pooling*操作,*SENet*作者认为,最终求得的*scale*是按通道分别作用于*U*的,因此需要基于对应通道的信息计算对应的*scale*,故使用了最简单的*Global Average Pooling*操作,最终求得的*scale*向量表示了不同通道之间的分布关系,而忽略了同一个通道中的分布关系。
* 对于*Fex*部分,其作用是为了在每一个*mini batch*上的训练来求得基于所有训练数据的分布。因为我们的训练是在*mini batch*上进行的,而基于全部训练数据求得的*scale*才是最佳的,使用*Fex*部分,可以通过在每个*mini batch*上的训练来求得更为逼近全部训练数据的*scale*。
-
+
## 第5期
### Q5.1 如何选择优化器?
@@ -335,7 +335,7 @@ Cosine_decay和piecewise_decay的学习率变化曲线如下图所示,容易
- 知识蒸馏:可以先使用一个较大的模型在该数据集上训练一个精度较高的teacher model,然后使用该teacher model去教导一个Student model,其中,Student model即为目标模型。PaddleClas提供了百度自研的SSLD知识蒸馏方案,即使在ImageNet-1k这么有挑战的分类任务上,其也能稳定提升3%以上。SSLD知识蒸馏的的章节请参考[**SSLD知识蒸馏**](../advanced_tutorials/knowledge_distillation.md)。
-
+
## 第6期
### Q6.1: PaddleClas的几个分支有什么区别?应该如何选择?
diff --git a/docs/zh_CN/faq_series/faq_2021_s1.md b/docs/zh_CN/faq_series/faq_2021_s1.md
index cff7c98bb57c2c048039ee3a6c8f615038aac298..1b9a382733b1782d3ddf7c9f59f6e7d03496ad3e 100644
--- a/docs/zh_CN/faq_series/faq_2021_s1.md
+++ b/docs/zh_CN/faq_series/faq_2021_s1.md
@@ -2,13 +2,13 @@
## 目录
-* [第1期](#第1期)(2021.01.05)
-* [第2期](#第2期)(2021.01.14)
-* [第3期](#第3期)(2020.01.21)
-* [第4期](#第4期)(2021.01.28)
-* [第5期](#第5期)(2021.02.03)
+* [1. 第1期](#1)(2021.01.05)
+* [2. 第2期](#2)(2021.01.14)
+* [3. 第3期](#3)(2020.01.21)
+* [4. 第4期](#4)(2021.01.28)
+* [5. 第5期](#5)(2021.02.03)
-
+
## 第1期
### Q1.1: 在模型导出时,发现导出的inference model预测精度很低,这块是为什么呢?
@@ -54,7 +54,7 @@
更多的预测部署加速技巧,也欢迎大家补充。
-
+
## 第2期
### Q2.1: PaddleClas在设置标签的时候必须从0开始吗?class_num必须等于数据集的类别数吗?
@@ -77,7 +77,7 @@
不同的网络结构在不同的设备上运行速度优势不同。在移动端,移动端系列的网络比服务器端的网络运行速度更快,但是在服务器端,相同精度下,ResNet等经过特定优化后的网络具有更大的优势,所以需要根据具体情况来选择具体的网络结构。
-
+
## 第3期
### Q3.1: 双(多)分支结构与Plain结构,各自有什么特点?
@@ -161,7 +161,7 @@ RepVGG网络与ACNet同理,只不过ACNet的`1*d`非对称卷积变成了`1*1`
3. Memory Access Cost(MAC):内存访问成本,由于计算机在对数据进行运算(例如乘法、加法)前,需要将运算的数据从内存(此处泛指内存,包括显存)读取到运算器的Cache中,而内存的访问是十分耗时的。以分组卷积为例,假设分为`g`组,虽然分组后模型的参数量和FLOPs没有变化,但是分组卷积的内存访问次数成为之前的`g`倍(此处只是简单计算,未考虑多级Cache),因此MAC显著提高,模型的计算速度也相应变慢。
4. 并行度:常说的并行度包括数据并行和模型并行两部分,此处是指模型并行。以卷积操作为例,一个卷积层的参数量通常十分庞大,如果将卷积层中的矩阵做分块处理,然后分别交由多个GPU进行运算,即可达到加速的目的。甚至有的网络层参数量过大,单张GPU显存无法容纳时,也可能将该层分由多个GPU计算,但是能否分由多个GPU并行运算,不仅取决于硬件条件,也受特定的运算形式所限制。当然,并行度越高的模型,其运行速度也越快。
-
+
## 第4期
@@ -231,7 +231,7 @@ RepVGG网络与ACNet同理,只不过ACNet的`1*d`非对称卷积变成了`1*1`
2. 将`[CLS]`标志位对应的向量作为整个图像的语义表示,是因为与图像中已有的其它patch块图像相比,这个无明显语义信息的符号会更“公平”地融合图像中各个patch的语义信息,从而更好的表示整个图像的语义。
-
+
## 第5期
### Q5.1: PaddleClas训练配置文件中都包含了哪些内容?训练模型时如何进行修改?
diff --git a/docs/zh_CN/faq_series/faq_2021_s2.md b/docs/zh_CN/faq_series/faq_2021_s2.md
index 3172b38393536bd5342f56bf277ba61f330a5ab8..4e63596aba58c63c6d07662405e8020708764575 100644
--- a/docs/zh_CN/faq_series/faq_2021_s2.md
+++ b/docs/zh_CN/faq_series/faq_2021_s2.md
@@ -9,20 +9,20 @@
## 目录
* [近期更新](#近期更新)(2021.09.08)
* [精选](#精选)
-* [1. 理论篇](#1.理论篇)
- * [1.1 PaddleClas基础知识](#1.1PaddleClas基础知识)
- * [1.2 骨干网络和预训练模型库](#1.2骨干网络和预训练模型库)
- * [1.3 图像分类](#1.3图像分类)
- * [1.4 通用检测模块](#1.4通用检测模块)
- * [1.5 图像识别模块](#1.5图像识别模块)
- * [1.6 检索模块](#1.6检索模块)
-* [2. 实战篇](#2.实战篇)
- * [2.1 训练与评估共性问题](#2.1训练与评估共性问题)
- * [2.2 图像分类](#2.2图像分类)
- * [2.3 通用检测模块](#2.3通用检测模块)
- * [2.4 图像识别模块](#2.4图像识别模块)
- * [2.5 检索模块](#2.5检索模块)
- * [2.6 模型预测部署](#2.6模型预测部署)
+* [1. 理论篇](#1)
+ * [1.1 PaddleClas基础知识](#1.1)
+ * [1.2 骨干网络和预训练模型库](#1.2)
+ * [1.3 图像分类](#1.3)
+ * [1.4 通用检测模块](#1.4)
+ * [1.5 图像识别模块](#1.5)
+ * [1.6 检索模块](#1.6)
+* [2. 实战篇](#2)
+ * [2.1 训练与评估共性问题](#2.1)
+ * [2.2 图像分类](#2.2)
+ * [2.3 通用检测模块](#2.3)
+ * [2.4 图像识别模块](#2.4)
+ * [2.5 检索模块](#2.5)
+ * [2.6 模型预测部署](#2.6)
## 近期更新
@@ -92,10 +92,10 @@ pip install paddle2onnx
## 精选
-
+
## 1. 理论篇
-
+
### 1.1 PaddleClas基础知识
#### Q1.1.1 PaddleClas和PaddleDetection区别
@@ -122,10 +122,10 @@ w_t+1 = w_t - v_t+1
#### Q1.1.4: PaddleClas 是否有 `Fixing the train-test resolution discrepancy` 这篇论文的实现呢?
**A**: 目前 PaddleClas 没有实现。如果需要,可以尝试自己修改代码。简单来说,该论文所提出的思想是使用较大分辨率作为输入,对已经训练好的模型最后的FC层进行fine-tune。具体操作上,首先在较低分辨率的数据集上对模型网络进行训练,完成训练后,对网络除最后的FC层外的其他层的权重设置参数 `stop_gradient=True`,然后使用较大分辨率的输入对网络进行fine-tune训练。
-
+
### 1.2 骨干网络和预训练模型库
-
+
### 1.3 图像分类
#### Q1.3.1: PaddleClas有提供调整图片亮度,对比度,饱和度,色调等方面的数据增强吗?
@@ -136,7 +136,7 @@ w_t+1 = w_t - v_t+1
其中,RandAngment提供了多种数据增强方式的随机组合,可以满足亮度、对比度、饱和度、色调等多方面的数据增广需求。
-
+
### 1.4 通用检测模块
#### Q1.4.1 主体检测是每次只输出一个主体检测框吗?
@@ -148,7 +148,7 @@ w_t+1 = w_t - v_t+1
#### Q1.4.3: 目前使用的主体检测模型检测在某些场景中会有误检?
**A**:目前的主体检测模型训练时使用了COCO、Object365、RPC、LogoDet等公开数据集,如果被检测数据是类似工业质检等于常见类别差异较大的数据,需要基于目前的检测模型重新微调训练。
-
+
### 1.5 图像识别模块
#### Q1.5.1 使用`circle loss`还需加`triplet loss`吗?
@@ -160,7 +160,7 @@ w_t+1 = w_t - v_t+1
#### Q1.5.3 最后使用512维的向量,为什么不用1024或者其他维度的呢?
**A**:使用维度小的向量,为了加快计算,在实际使用过程中,可能使用128甚至更小。一般来说,512的维度已经够大,能充分表示特征了。
-
+
### 1.6 检索模块
#### Q1.6.1 PaddleClas目前使用的Möbius向量检索算法支持类似于faiss的那种index.add()的功能吗? 另外,每次构建新的图都要进行train吗?这里的train是为了检索加速还是为了构建相似的图?
@@ -169,10 +169,10 @@ w_t+1 = w_t - v_t+1
#### Q1.6.2: PaddleClas 图像识别用于 Eval 的配置文件中,`Query` 和 `Gallery` 配置具体是用于做什么呢?
**A**: `Query` 与 `Gallery` 均为数据集配置,其中 `Gallery` 用于配置底库数据,`Query` 用于配置验证集。在进行 Eval 时,首先使用模型对 `Gallery` 底库数据进行前向计算特征向量,特征向量用于构建底库,然后模型对 `Query` 验证集中的数据进行前向计算特征向量,再与底库计算召回率等指标。
-
+
## 2. 实战篇
-
+
### 2.1 训练与评估共性问题
#### Q2.1.1 PaddleClas 的`train_log`文件在哪里?
@@ -222,7 +222,7 @@ PaddlePaddle is installed successfully! Let's start deep learning with PaddlePad
* 当需要 `fine-tune` 时,可以通过字段 `Global.pretrain_model` 配置预训练模型权重文件的路径,预训练模型权重文件后缀名通常为 `.pdparams`;
* 在训练过程中,训练程序会自动保存每个epoch结束时的断点信息,包括优化器信息 `.pdopt` 和模型权重信息 `.pdparams`。在训练过程意外中断等情况下,需要恢复训练时,可以通过字段 `Global.checkpoints` 配置训练过程中保存的断点信息文件,例如通过配置 `checkpoints: ./output/ResNet18/epoch_18` 即可恢复18epoch训练结束时的断点信息,PaddleClas将自动加载 `epoch_18.pdopt` 和 `epoch_18.pdparams`,从19epoch继续训练。
-
+
### 2.2 图像分类
#### Q2.2.1 在SSLD中,大模型在500M数据上预训练后蒸馏小模型,然后在1M数据上蒸馏finetune小模型,具体步骤是怎样做的?
@@ -234,7 +234,7 @@ PaddlePaddle is installed successfully! Let's start deep learning with PaddlePad
#### Q2.2.2 训练SwinTransformer,loss出现nan
**A**:训练SwinTransformer时,请使用版本大于等于 `2.1.1` 的 `Paddle`,并且加载我们提供的预训练模型,学习率也不宜过大。
-
+
### 2.3 通用检测模块
#### Q2.3.1 为什么有一些图片检测出的结果就是原图?
@@ -246,7 +246,7 @@ PaddlePaddle is installed successfully! Let's start deep learning with PaddlePad
#### Q2.3.3: 对于未知的标签,加入gallery dataset可以用于后续的分类识别(无需训练),但是如果前面的检测模型对于未知的标签无法定位检测出来,是否还是要训练前面的检测模型?
**A**:如果检测模型在自己的数据集上表现不佳,需要在自己的检测数据集上再finetune下
-
+
### 2.4 图像识别模块
#### Q2.4.1: 识别模块预测时报`Illegal instruction`错?
@@ -261,7 +261,7 @@ PaddlePaddle is installed successfully! Let's start deep learning with PaddlePad
#### Q2.4.4: 有些图片没有识别出结果,为什么?
**A**:在配置文件(如inference_product.yaml)中,`IndexProcess.score_thres`中会控制被识别的图片与库中的图片的余弦相似度的最小值。当余弦相似度小于该值时,不会打印结果。您可以根据自己的实际数据调整该值。
-
+
### 2.5 检索模块
#### Q2.5.1: 添加图片后建索引报`assert text_num >= 2`错?
@@ -276,7 +276,7 @@ PaddlePaddle is installed successfully! Let's start deep learning with PaddlePad
#### Q2.5.4: 在 build 检索底库时,参数 `pq_size` 应该如何设置?
**A**:`pq_size` 是PQ检索算法的参数。PQ检索算法可以简单理解为“分层”检索算法,`pq_size` 是每层的“容量”,因此该参数的设置会影响检索性能,不过,在底库总数据量不太大(小于10000张)的情况下,这个参数对性能的影响很小,因此对于大多数使用场景而言,在构建底库时无需修改该参数。关于PQ检索算法的更多内容,可以查看相关[论文](https://lear.inrialpes.fr/pubs/2011/JDS11/jegou_searching_with_quantization.pdf)。
-
+
### 2.6 模型预测部署
#### Q2.6.1: hub serving方式启动某个模块,怎么添加该模块的参数呢?
diff --git a/docs/zh_CN/faq_series/faq_selected_30.md b/docs/zh_CN/faq_series/faq_selected_30.md
index edcad9a93175f391840705196a010492bd41e02c..d54f36b3e8ddcb0d90da0c515f2fd34612e0d21d 100644
--- a/docs/zh_CN/faq_series/faq_selected_30.md
+++ b/docs/zh_CN/faq_series/faq_selected_30.md
@@ -9,19 +9,19 @@
## PaddleClas常见问题汇总
-* [图像分类30个问题](#图像分类30个问题)
- * [基础知识](#基础知识)
- * [模型训练相关](#模型训练相关)
- * [数据相关](#数据相关)
- * [模型推理与预测相关](#模型推理与预测相关)
-* [PaddleClas使用问题](#PaddleClas使用问题)
+* [1. 图像分类30个问题](#1)
+ * [1.1 基础知识](#1.1)
+ * [1.2 模型训练相关](#1.2)
+ * [1.3 数据相关](#1.3)
+ * [1.4 模型推理与预测相关](#1.4)
+* [2. PaddleClas使用问题](#2)
-
-## 图像分类30个问题
+
+## 1. 图像分类30个问题
-
-### 基础知识
+
+### 1.1 基础知识
>>
* Q: 图像分类领域常用的分类指标有几种
@@ -49,8 +49,8 @@
* Q: 注意力机制是什么?目前有哪些比较常用的注意力机制方法?
* A: 注意力机制(Attention Mechanism)源于对人类视觉的研究。将注意力机制用在计算机视觉任务上,可以有效捕捉图片中有用的区域,从而提升整体网络性能。目前比较常用的有[SE block](https://arxiv.org/abs/1709.01507)、[SK-block](https://arxiv.org/abs/1903.06586)、[Non-local block](https://arxiv.org/abs/1711.07971)、[GC block](https://arxiv.org/abs/1904.11492)、[CBAM](https://arxiv.org/abs/1807.06521)等,核心思想就是去学习特征图在不同区域或者不同通道中的重要性,从而让网络更加注意显著性的区域。
-
-### 模型训练相关
+
+### 1.2 模型训练相关
>>
* Q: 使用深度卷积网络做图像分类,如果训练一个拥有1000万个类的模型会碰到什么问题?
@@ -106,8 +106,8 @@
* Q: 怎么使用已有的预训练模型提升自己的数据集的精度呢?
* A: 在现阶段计算机视觉领域中,加载预训练模型来训练自己的任务已成为普遍的做法,相比从随机初始化开始训练,加载预训练模型往往可以提升特定任务的精度。一般来说,业界广泛使用的预训练模型是通过训练128万张图片1000类的ImageNet-1k数据集得到的,该预训练模型的fc层权重是是一个k\*1000的矩阵,其中k是fc层以前的神经元数,在加载预训练权重时,无需加载fc层的权重。在学习率方面,如果您的任务训练的数据集特别小(如小于1千张),我们建议你使用较小的初始学习率,如0.001(batch_size:256,下同),以免较大的学习率破坏预训练权重。如果您的训练数据集规模相对较大(大于10万),我们建议你尝试更大的初始学习率,如0.01或者更大。
-
-### 数据相关
+
+### 1.3 数据相关
>>
* Q: 图像分类的数据预处理过程一般包括哪些步骤?
@@ -145,8 +145,8 @@
* Q: 对于长尾分布的数据集,目前有哪些比较常用的方法?
* A: (1)可以对数据量比较少的类别进行重采样,增加其出现的概率;(2)可以修改loss,增加图像较少对应的类别的图片的loss权重;(3)可以借鉴迁移学习的方法,从常见类别中学习通用知识,然后迁移到少样本的类别中。
-
-### 模型推理与预测相关
+
+### 1.4 模型推理与预测相关
>>
* Q: 有时候图像中只有小部分区域是所关注的前景物体,直接拿原图来进行分类的话,识别效果很差,这种情况要怎么做呢?
@@ -166,8 +166,8 @@
* A: (1)使用性能更优的GPU进行预测;(2)增大预测的batch size;(3)使用TenorRT以及FP16半精度浮点数等方法进行预测。
-
-## PaddleClas使用问题
+
+## 2. PaddleClas使用问题
>>
* Q: 评估和预测时,已经指定了预训练模型所在文件夹的地址,但是仍然无法导入参数,这么为什么呢?
diff --git a/docs/zh_CN/models/PP-LCNet.md b/docs/zh_CN/models/PP-LCNet.md
index 686298edc39bb8ea66e311ee0c11f5609ddb7eb7..ef13595abe154b1b4ece1b498a52f0c9870b58fb 100644
--- a/docs/zh_CN/models/PP-LCNet.md
+++ b/docs/zh_CN/models/PP-LCNet.md
@@ -11,9 +11,9 @@
- [3.3 合适的位置添加更大的卷积核](#3.3)
- [3.4 GAP 后使用更大的 1x1 卷积层](#3.4)
- [4. 实验部分](#4)
- - [图像分类](#4.1)
- - [目标检测](#4.2)
- - [语义分割](#4.3)
+ - [4.1 图像分类](#4.1)
+ - [4.2 目标检测](#4.2)
+ - [4.3 语义分割](#4.3)
- [5. 总结](#5)
- [6. 引用](#6)
diff --git a/docs/zh_CN/models_training/train_strategy.md b/docs/zh_CN/models_training/train_strategy.md
index 74c131806dfa156da55ea66cbca4f287c9f396cb..db5cf1d46f8c5e20154946569d9f0027cdfcac3a 100644
--- a/docs/zh_CN/models_training/train_strategy.md
+++ b/docs/zh_CN/models_training/train_strategy.md
@@ -5,7 +5,7 @@
- [1. 优化器的选择](#1)
- [2. 学习率以及学习率下降策略的选择](#2)
- [2.1 学习率的概念](#2.1)
- - [2. 2 学习率下降策略](#2.2)
+ - [2.2 学习率下降策略](#2.2)
- [2.3 warmup 策略](#2.3)
- [3. batch_size 的选择](#3)
- [4. weight_decay 的选择](#4)