Update Tricks.md

1974871d · cuicheng01 · GitHub · 711bfbaa · 1974871d
隐藏空白更改
内联并排

Showing with 6 addition and 6 deletion

docs/zh_CN/models/Tricks.md docs/zh_CN/models/Tricks.md +6 -6

未找到文件。
--- a/docs/zh_CN/models/Tricks.md
+++ b/docs/zh_CN/models/Tricks.md
@@ -24,14 +24,14 @@ batch_size是训练神经网络中的一个重要的超参数，该值决定了
 过拟合是机器学习中常见的一个名词，简单理解即为模型在训练数据上表现很好，但在测试数据上表现较差，在卷积神经网络中，同样存在过拟合的问题，为了避免过拟合，很多正则方式被提出，其中，weight_decay是其中一个广泛使用的避免过拟合的方式。Weight_decay等价于在最终的损失函数后添加L2正则化，L2正则化使得网络的权重倾向于选择更小的值，最终整个网络中的参数值更趋向于0，模型的泛化性能相应提高。在各大深度学习框架的实现中，该值表达的含义是L2正则前的系数，在paddle框架中，该值的名称是l2_decay，所以以下都称其为l2_decay。该系数越大，表示加入的正则越强，模型越趋于欠拟合状态。在训练ImageNet的任务中，大多数的网络将该参数值设置为1e-4，在一些小的网络如MobileNet系列网络中，为了避免网络欠拟合，该值设置为1e-5~4e-5之间。当然，该值的设置也和具体的数据集有关系，当任务的数据集较大时，网络本身趋向于欠拟合状态，可以将该值适当减小，当任务的数据集较小时，网络本身趋向于过拟合状态，可以将该值适当增大。下表展示了MobileNetV1_x0_25在ImageNet-1k上使用不同l2_decay的精度情况。由于MobileNetV1_x0_25是一个比较小的网络，所以l2_decay过大会使网络趋向于欠拟合状态，所以在该网络中，相对1e-4，3e-5是更好的选择。
 | 模型                | L2_decay | Train acc1/acc5 | Test acc1/acc5 |
-|-------------------|----------|-----------------|----------------|
+|:--:|:--:|:--:|:--:|
 | MobileNetV1_x0_25 | 1e-4     | 43.79%/67.61%   | 50.41%/74.70%  |
 | MobileNetV1_x0_25 | 3e-5     | 47.38%/70.83%   | 51.45%/75.45%  |
 另外，该值的设置也和训练过程中是否使用其他正则化有关系。如果训练过程中的数据预处理比较复杂，相当于训练任务变的更难，可以将该值适当减小，下表展示了在ImageNet-1k上，ResNet50在使用randaugment预处理方式后使用不同l2_decay的精度。容易观察到，在任务变难后，使用更小的l2_decay有助于模型精度的提升。
 | 模型       | L2_decay | Train acc1/acc5 | Test acc1/acc5 |
-|----------|----------|-----------------|----------------|
+|:--:|:--:|:--:|:--:|
 | ResNet50 | 1e-4     | 75.13%/90.42%   | 77.65%/93.79%  |
 | ResNet50 | 7e-5     | 75.56%/90.55%   | 78.04%/93.74%  |
@@ -42,14 +42,14 @@ Label_smoothing是深度学习中的一种正则化方法，其全称是 Label S
 在训练ImageNet-1k的实验中，我们发现，ResNet50大小级别及其以上的模型在使用label_smooting后，精度有稳定的提升。下表展示了ResNet50_vd在使用label_smoothing前后的精度指标。
 | 模型          | Use_label_smoothing | Test acc1 |
-|-------------|---------------------|-----------|
+|:--:|:--:|:--:|
 | ResNet50_vd | 0                   | 77.9%     |
 | ResNet50_vd | 1                   | 78.4%     |
 同时，由于label_smoohing相当于一种正则方式，在相对较小的模型上，精度提升不明显甚至会有所下降，下表展示了ResNet18在ImageNet-1k上使用label_smoothing前后的精度指标。可以明显看到，在使用label_smoothing后，精度有所下降。
 | 模型       | Use_label_smoohing | Train acc1/acc5 | Test acc1/acc5 |
-|----------|--------------------|-----------------|----------------|
+|:--:|:--:|:--:|:--:|
 | ResNet18 | 0                  | 69.81%/87.70%   | 70.98%/89.92%  |
 | ResNet18 | 1                  | 68.00%/86.56%   | 70.81%/89.89%  |
@@ -60,7 +60,7 @@ Label_smoothing是深度学习中的一种正则化方法，其全称是 Label S
 在ImageNet-1k数据的标准预处理中，random_crop函数中定义了scale和ratio两个值，两个值分别确定了图片crop的大小和图片的拉伸程度，其中scale的默认取值范围是0.08-1(lower_scale-upper_scale),ratio的默认取值范围是3/4-4/3(lower_ratio-upper_ratio)。在非常小的网络训练中，此类数据增强会使得网络欠拟合，导致精度有所下降。为了提升网络的精度，可以使其数据增强变的更弱，即增大图片的crop区域或者减弱图片的拉伸变换程度。我们可以分别通过增大lower_scale的值或缩小lower_ratio与upper_scale的差距来实现更弱的图片变换。下表列出了使用不同lower_scale训练MobileNetV2_x0_25的精度，可以看到，增大图片的crop区域面积后训练精度和验证精度均有提升。
 | 模型                | Scale取值范围 | Train_acc1/acc5 | Test_acc1/acc5 |
-|-------------------|-----------|-----------------|----------------|
+|:--:|:--:|:--:|:--:|
 | MobileNetV2_x0_25 | [0.08,1]  | 50.36%/72.98%   | 52.35%/75.65%  |
 | MobileNetV2_x0_25 | [0.2,1]   | 54.39%/77.08%   | 53.18%/76.14%  |
@@ -68,7 +68,7 @@ Label_smoothing是深度学习中的一种正则化方法，其全称是 Label S
 一般来说，数据集的规模对性能影响至关重要，但是图片的标注往往比较昂贵，所以有标注的图片数量往往比较稀少，在这种情况下，数据的增广尤为重要。在训练ImageNet-1k的标准数据增广中，主要使用了random_crop与random_flip两种数据增广方式，然而，近些年，越来越多的数据增广方式被提出，如cutout、mixup、cutmix、AutoAugment等。实验表明，这些数据的增广方式可以有效提升模型的精度，下表列出了ResNet50在8种不同的数据增广方式的表现，可以看出，相比baseline，所有的数据增广方式均有收益，其中cutmix是目前最有效的数据增广。更多数据增广的介绍请参考[**数据增广章节**](https://paddleclas.readthedocs.io/zh_CN/latest/advanced_tutorials/image_augmentation/ImageAugment.html)
 | 模型       | 数据增广方式         | Test top-1 |
-|----------|----------------|------------|
+|:--:|:--:|:--:|
 | ResNet50 | 标准变换           | 77.31%     |
 | ResNet50 | Auto-Augment   | 77.95%     |
 | ResNet50 | Mixup          | 78.28%     |