diff --git a/docs/zh_CN/others/feature_visiualization.md b/docs/zh_CN/others/feature_visiualization.md
new file mode 100644
index 0000000000000000000000000000000000000000..8a7229e8d7565d354a232cb7872acb9b077d24fc
--- /dev/null
+++ b/docs/zh_CN/others/feature_visiualization.md
@@ -0,0 +1,84 @@
+# 特征图可视化指南
+
+## 一、概述
+
+特征图是输入图片在卷积网络中的特征表达,对特征图的研究可以有利于我们对于模型的理解与设计,所以基于动态图我们使用本工具来可视化特征图。
+
+## 二、准备工作
+
+首先需要选定研究的模型,本文设定ResNet50作为研究模型,将resnet.py从[模型库](../../../ppcls/arch/architecture/)拷贝到当前目录下,并下载预训练模型[预训练模型](../../zh_CN/models/models_intro), 复制resnet50的模型链接,使用下列命令下载并解压预训练模型。
+
+```bash
+wget The Link for Pretrained Model
+tar -xf Downloaded Pretrained Model
+```
+
+以resnet50为例:
+```bash
+wget https://paddle-imagenet-models-name.bj.bcebos.com/ResNet50_pretrained.tar
+tar -xf ResNet50_pretrained.tar
+```
+
+## 三、修改模型
+
+找到我们所需要的特征图位置,设置self.fm将其fetch出来,本文以resnet50中的stem层之后的特征图为例。
+
+在fm_vis.py中修改模型的名字。
+
+在ResNet50的__init__函数中定义self.fm
+```python
+self.fm = None
+```
+在ResNet50的forward函数中指定特征图
+```python
+def forward(self, inputs):
+ y = self.conv(inputs)
+ self.fm = y
+ y = self.pool2d_max(y)
+ for bottleneck_block in self.bottleneck_block_list:
+ y = bottleneck_block(y)
+ y = self.avg_pool(y)
+ y = fluid.layers.reshape(y, shape=[-1, self.pool2d_avg_output])
+ y = self.out(y)
+ return y, self.fm
+```
+执行函数
+```bash
+python tools/feature_maps_visualization/fm_vis.py -i the image you want to test \
+ -c channel_num -p pretrained model \
+ --show whether to show \
+ --interpolation interpolation method\
+ --save_path where to save \
+ --use_gpu whether to use gpu
+```
+参数说明:
++ `-i`:待预测的图片文件路径,如 `./test.jpeg`
++ `-c`:特征图维度,如 `./resnet50_vd/model`
++ `-p`:权重文件路径,如 `./ResNet50_pretrained/`
++ `--interpolation`: 图像插值方式, 默认值 1
++ `--save_path`:保存路径,如:`./tools/`
++ `--use_gpu`:是否使用 GPU 预测,默认值:True
+
+## 四、结果
+
+* 输入图片:
+
+![](../../../docs/images/feature_maps/feature_visualization_input.jpg)
+
+* 运行下面的特征图可视化脚本
+
+```
+python tools/feature_maps_visualization/fm_vis.py \
+ -i ./docs/images/feature_maps/feature_visualization_input.jpg \
+ -c 5 \
+ -p pretrained/ResNet50_pretrained/ \
+ --show=True \
+ --interpolation=1 \
+ --save_path="./output.png" \
+ --use_gpu=False \
+ --load_static_weights=True
+```
+
+* 输出特征图保存为`output.png`,如下所示。
+
+![](../../../docs/images/feature_maps/feature_visualization_output.jpg)
diff --git a/docs/zh_CN/others/multi_machine_training.md b/docs/zh_CN/others/multi_machine_training.md
new file mode 100644
index 0000000000000000000000000000000000000000..6c66a9bc9a738a3b18dfba6121dcd5e47207b609
--- /dev/null
+++ b/docs/zh_CN/others/multi_machine_training.md
@@ -0,0 +1,5 @@
+# 多机训练
+
+分布式训练的高性能,是飞桨的核心优势技术之一,在分类任务上,分布式训练可以达到几乎线性的加速比。
+[Fleet](https://github.com/PaddlePaddle/Fleet) 是用于 PaddlePaddle 分布式训练的高层 API,基于这套接口用户可以很容易切换到分布式训练程序。
+为了可以同时支持单机训练和多机训练,[PaddleClas](https://github.com/PaddlePaddle/PaddleClas) 采用 Fleet API 接口,更多的分布式训练可以参考 [Fleet API设计文档](https://github.com/PaddlePaddle/Fleet/blob/develop/README.md)。
diff --git a/docs/zh_CN/others/train_on_xpu.md b/docs/zh_CN/others/train_on_xpu.md
new file mode 100644
index 0000000000000000000000000000000000000000..c1b9a6d28362353fcb635d7145ae5538e8ac146f
--- /dev/null
+++ b/docs/zh_CN/others/train_on_xpu.md
@@ -0,0 +1,32 @@
+# 图像分类昆仑模型介绍(持续更新中)
+
+## 前言
+
+* 本文档介绍了目前昆仑支持的模型以及如何在昆仑设备上训练这些模型。支持昆仑的PaddlePaddle安装参考install_kunlun(https://github.com/PaddlePaddle/FluidDoc/blob/develop/doc/paddle/install/install_Kunlun_zh.md)
+
+## 昆仑训练
+* 数据来源和预训练模型参考[quick_start](../tutorials/quick_start_new_user.md)。昆仑训练效果与CPU/GPU对齐。
+
+### ResNet50
+* 命令:
+
+```python3.7 tools/static/train.py -c configs/quick_start/ResNet50_vd_finetune_kunlun.yaml -o use_gpu=False -o use_xpu=True -o is_distributed=False```
+
+与cpu/gpu训练的区别是加上-o use_xpu=True, 表示执行在昆仑设备上。
+
+### MobileNetV3
+* 命令:
+
+```python3.7 tools/static/train.py -c configs/quick_start/MobileNetV3_large_x1_0_finetune.yaml -o use_gpu=False -o use_xpu=True -o is_distributed=False```
+
+### HRNet
+* 命令:
+
+```python3.7 tools/static/train.py -c configs/quick_start/HRNet_W18_C_finetune.yaml -o is_distributed=False -o use_cpu=False -o use_xpu=True -o use_gpu=False```
+
+
+### VGG16/19
+* 命令:
+
+```python3.7 tools/static/train.py -c configs/quick_start/VGG16_finetune_kunlun.yaml -o use_gpu=False -o use_cpu=False -o use_xpu=True -o is_distributed=False```
+```python3.7 tools/static/train.py -c configs/quick_start/VGG19_finetune_kunlun.yaml -o use_gpu=False -o use_cpu=False -o use_xpu=True -o is_distributed=False```
diff --git a/docs/zh_CN/others/train_with_DALI.md b/docs/zh_CN/others/train_with_DALI.md
new file mode 100644
index 0000000000000000000000000000000000000000..b31b5cfdac7ae8d942546ca52252462fd1272019
--- /dev/null
+++ b/docs/zh_CN/others/train_with_DALI.md
@@ -0,0 +1,61 @@
+# 使用DALI加速训练
+
+## 前言
+[NVIDIA数据加载库](https://docs.nvidia.com/deeplearning/dali/user-guide/docs/index.html)(The NVIDIA Data Loading Library,DALI)是用于数据加载和预处理的开源库,用于加速深度学习训练、推理过程,它可以直接构建飞桨Paddle的DataLoader数据读取器。
+
+由于深度学习程序在训练阶段依赖大量数据,这些数据需要经过加载、预处理等操作后,才能送入训练程序,而这些操作通常在CPU完成,因此限制了训练速度进一步提高,特别是在batch_size较大时,数据读取可能成为训练速度的瓶颈。DALI可以基于GPU的高并行特性实现数据加载及预处理操作,可以进一步提高训练速度。
+
+## 安装DALI
+目前DALI仅支持Linux x64平台,且CUDA版本大于等于10.2。
+
+* 对于CUDA 10:
+
+ pip install --extra-index-url https://developer.download.nvidia.com/compute/redist nvidia-dali-cuda100
+
+* 对于CUDA 11.0:
+
+ pip install --extra-index-url https://developer.download.nvidia.com/compute/redist nvidia-dali-cuda110
+
+关于更多DALI安装的信息,可以参考[DALI官方](https://docs.nvidia.com/deeplearning/dali/user-guide/docs/installation.html)。
+
+## 使用DALI
+PaddleClas支持在静态图训练方式中使用DALI加速,由于DALI仅支持GPU训练,因此需要设置GPU,且DALI需要占用GPU显存,需要为DALI预留显存。使用DALI训练只需在训练配置文件中设置字段`use_dali=True`,或通过以下命令启动训练即可:
+
+```shell
+# 设置用于训练的GPU卡号
+export CUDA_VISIBLE_DEVICES="0"
+
+# 设置用于神经网络训练的显存大小,可根据具体情况设置,一般可设置为0.8或0.7,剩余显存则预留DALI使用
+export FLAGS_fraction_of_gpu_memory_to_use=0.80
+
+python tools/static/train.py -c configs/ResNet/ResNet50.yaml -o use_dali=True
+```
+
+也可以使用多卡训练:
+
+```shell
+# 设置用于训练的GPU卡号
+export CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"
+
+# 设置用于神经网络训练的显存大小,可根据具体情况设置,一般可设置为0.8或0.7,剩余显存则预留DALI使用
+export FLAGS_fraction_of_gpu_memory_to_use=0.80
+
+python -m paddle.distributed.launch \
+ --gpus="0,1,2,3,4,5,6,7" \
+ tools/static/train.py \
+ -c ./configs/ResNet/ResNet50.yaml \
+ -o use_dali=True
+```
+
+## 使用FP16训练
+在上述基础上,使用FP16半精度训练,可以进一步提高速度,可以参考下面的配置与运行命令。
+
+```shell
+export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
+export FLAGS_fraction_of_gpu_memory_to_use=0.8
+
+python -m paddle.distributed.launch \
+ --gpus="0,1,2,3,4,5,6,7" \
+ tools/static/train.py \
+ -c configs/ResNet/ResNet50_fp16.yaml
+```
diff --git a/docs/zh_CN/others/transfer_learning.md b/docs/zh_CN/others/transfer_learning.md
new file mode 100644
index 0000000000000000000000000000000000000000..81500927e3ec061d49a70b265b63ea69d4d39f93
--- /dev/null
+++ b/docs/zh_CN/others/transfer_learning.md
@@ -0,0 +1,86 @@
+# 图像分类迁移学习
+
+迁移学习是机器学习领域的一个重要分支,广泛应用于文本、图像等各种领域,此处我们主要介绍的是图像分类领域的迁移学习,也就是我们常说的域迁移,比如将 ImageNet 分类模型迁移到我们自己场景的图像分类任务上,如花卉分类。
+
+## 一、 超参搜索
+
+ImageNet 作为业界常用的图像分类数据被大家广泛使用,已经总结出一系列经验性的超参,使用这些超参往往能够得到不错的训练精度,而这些经验性的参数在迁移到自己的业务中时,有时效果不佳。有两种常用的超参搜索方法可以用于获得更好的模型超参。
+
+### 1.1 网格搜索
+
+网格搜索,即穷举搜索,通过查找搜索空间内所有的点,确定最优值。方法简单有效,但当搜索空间较大时,需要消耗大量的计算资源。
+
+### 1.2 贝叶斯搜索
+
+贝叶斯搜索,即贝叶斯优化,在搜索空间中随机选取超参数点,采用高斯过程,即根据上一个超参数点的结果,更新当前的先验信息,计算前面n个超参数点的后验概率分布,得到搜索空间中每一个超参数点的期望均值和方差,其中期望均值越大表示接近最优指标的可能性越大,方差越大表示不确定性越大。通常将选择期望均值大的超参数点称为`exporitation`,选择方差大的超参数点称为`exploration`。在贝叶斯优化中通过定义`acquisition function`权衡期望均值和方差。贝叶斯搜索认为当前选择的超参数点是处于最大值可能出现的位置。
+
+------
+
+基于上述两种搜索方案,我们在8个开源数据集上将固定一组参数实验以及两种搜索方案做了对比实验,参照[1]的实验方案,我们对4个超参数进行搜索,搜索空间及实验结果如下所示:
+
+- 固定参数:
+
+```
+初始学习率lr=0.003,l2 decay=1e-4,label smoothing=False,mixup=False
+```
+
+- 超参搜索空间:
+
+```
+初始学习率lr: [0.1, 0.03, 0.01, 0.003, 0.001, 0.0003, 0.0001]
+
+L2 decay: [1e-3, 3e-4, 1e-4, 3e-5, 1e-5, 3e-6, 1e-6]
+
+Label smoothing: [False, True]
+
+Mixup: [False, True]
+```
+
+网格搜索的搜索次数为196次,而贝叶斯搜索通过设置最大迭代次数(`max_iter`)和是否重复搜索(`de_duplication`)来确定搜索次数。我们设计了系列实验,baseline为ImageNet1k校验集Top1 Acc为79.12%的ResNet50_vd预训练模型,并固定超参,在新数据集上finetune得到的模型。下表给出了固定参数、网格搜索以及贝叶斯搜索的精度与搜索次数对比。
+
+- 精度与搜索次数对比:
+
+| 数据集 | 固定参数 | 网格搜索 | 网格搜索次数 | 贝叶斯搜索 | 贝叶斯搜索次数|
+| ------------------ | -------- | -------- | -------- | -------- | ---------- |
+| Oxford-IIIT-Pets | 93.64% | 94.55% | 196 | 94.04% | 20 |
+| Oxford-102-Flowers | 96.08% | 97.69% | 196 | 97.49% | 20 |
+| Food101 | 87.07% | 87.52% | 196 | 87.33% | 23 |
+| SUN397 | 63.27% | 64.84% | 196 | 64.55% | 20 |
+| Caltech101 | 91.71% | 92.54% | 196 | 92.16% | 14 |
+| DTD | 76.87% | 77.53% | 196 | 77.47% | 13 |
+| Stanford Cars | 85.14% | 92.72% | 196 | 92.72% | 25 |
+| FGVC Aircraft | 80.32% | 88.45% | 196 | 88.36% | 20 |
+
+
+- 上述实验验证了贝叶斯搜索相比网格搜索,在减少搜索次数10倍左右条件下,精度只下降0%~0.4%。
+- 当搜索空间进一步扩大时,例如将是否进行AutoAugment,RandAugment,Cutout, Cutmix以及Dropout这些正则化策略作为选择时,贝叶斯搜索能够在获取较优精度的前提下,有效地降低搜索次数。
+
+## 二、 大规模分类模型
+
+在实际应用中,由于训练数据的匮乏,往往将ImageNet1k数据集训练的分类模型作为预训练模型,进行图像分类的迁移学习。为了进一步助力解决实际问题,基于ResNet50_vd, 百度开源了自研的大规模分类预训练模型,其中训练数据为10万个类别,4300万张图片。10万类预训练模型的下载地址:[**下载地址**](https://paddle-imagenet-models-name.bj.bcebos.com/dygraph/ResNet50_vd_10w_pretrained.pdparams)
+
+我们在6个自有采集的数据集上进行迁移学习实验,采用一组固定参数以及网格搜索方式,其中训练轮数设置为20epochs,选用ResNet50_vd模型,ImageNet预训练精度为79.12%。实验数据集参数以及模型精度的对比结果如下:
+
+固定参数:
+
+```
+初始学习率lr=0.001,l2 decay=1e-4,label smoothing=False,mixup=False
+```
+
+| 数据集 | 数据统计 | **ImageNet预训练模型
固定参数Top-1/参数搜索Top-1** | **大规模分类预训练模型
固定参数Top-1/参数搜索Top-1** |
+| --------------- | ----------------------------------------- | -------------------------------------------------------- | --------------------------------------------------------- |
+| 花卉 | class:102
train:5789
valid:2396 | 0.7779/0.9883 | 0.9892/0.9954 |
+| 手绘简笔画 | Class:18
train:1007
valid:432 | 0.8795/0.9196 | 0.9107/0.9219 |
+| 植物叶子 | class:6
train:5256
valid:2278 | 0.8212/0.8482 | 0.8385/0.8659 |
+| 集装箱车辆 | Class:115
train:4879
valid:2094 | 0.6230/0.9556 | 0.9524/0.9702 |
+| 椅子 | class:5
train:169
valid:78 | 0.8557/0.9688 | 0.9077/0.9792 |
+| 地质 | class:4
train:671
valid:296 | 0.5719/0.8094 | 0.6781/0.8219 |
+
+- 通过上述的实验验证了当使用一组固定参数时,相比于ImageNet预训练模型,使用大规模分类模型作为预训练模型在大多数情况下能够提升模型在新的数据集上得效果,通过参数搜索可以进一步提升精度。
+
+
+## 参考文献
+
+[1] Kornblith, Simon, Jonathon Shlens, and Quoc V. Le. "Do better imagenet models transfer better?." *Proceedings of the IEEE conference on computer vision and pattern recognition*. 2019.
+
+[2] Kolesnikov, Alexander, et al. "Large Scale Learning of General Visual Representations for Transfer." *arXiv preprint arXiv:1912.11370* (2019).