diff --git a/docs/zh_CN/faq_series/faq_2020_s1.md b/docs/zh_CN/faq_series/faq_2020_s1.md
index fdd9f9cfe45819e95907ced9a918636bc9496de9..e780a54a993878878b2377696d5478ec94f6ae7d 100644
--- a/docs/zh_CN/faq_series/faq_2020_s1.md
+++ b/docs/zh_CN/faq_series/faq_2020_s1.md
@@ -118,7 +118,7 @@ ResNet 系列模型中，相比于其他模型，ResNet_vd 模型在预测速度
 * 对于一个 batch 图像的增广，可以参考[基于 batch 数据的数据增广脚本](../../../ppcls/data/preprocess/batch_ops)，参考 `MixupOperator` 或者 `CutmixOperator` 等数据算子的写法，创建一个新的类，然后在 `__call__` 中，实现对应的增广方法即可。
 
 
-## Q3.5: 怎么进一步加速模型训练过程呢？
+### Q3.5: 怎么进一步加速模型训练过程呢？
 
 **A**：
 
@@ -170,7 +170,6 @@ AMP:
 
 ![](../../images/faq/SE_structure.png)
 **A**:  
-
 * *SE*结构具体如上图所示，首先，*Ftr* 表示常规的卷积操作，*X* 和 *U* 则是 *Ftr* 的输入与输出的特征图，在得到特征图*U*后，使用 *Fsq* 和 *Fex* 操作求得 *scale* 向量，*scale* 向量维度为 *C*，与 *U* 通道数相同，因此可以通过乘积的方式作用到 *U* 上，进而得到 *X~*。
 * 具体地，*Fsq* 为 *Global Average Pooling* 操作，*SENet* 作者将其称之为 *Squeeze*，因为该操作可以将 *U* 从 *C × H × W* 压缩到 *C × 1 × 1*，对 *Fsq* 的输出再做 *Fex* 操作。
 * *Fex*操作表示两次全连接，作者将该操作称为 *Excitation*。其中第一次全连接将向量的维度从 *1 × 1 × C* 压缩到 *1 × 1 × C/r*，然后使用 *RELU*，再通过第二次全连接将向量的维度恢复到 *C*，这样操作的目的是为了减小计算量，*SENet* 作者通过实验得出结论：在 *r=16* 时可以获得增益与计算量之间的平衡。