未验证 提交 23b066be 编写于 作者: littletomatodonkey's avatar littletomatodonkey 提交者: GitHub

fix distillation link (#2347)

上级 c4653b7e
...@@ -120,8 +120,8 @@ PP-ShiTuV2 Android Demo APP,可扫描如下二维码,下载体验 ...@@ -120,8 +120,8 @@ PP-ShiTuV2 Android Demo APP,可扫描如下二维码,下载体验
- [度量学习](docs/zh_CN/algorithm_introduction/metric_learning.md) - [度量学习](docs/zh_CN/algorithm_introduction/metric_learning.md)
- [ReID](./docs/zh_CN/algorithm_introduction/ReID.md) - [ReID](./docs/zh_CN/algorithm_introduction/ReID.md)
- [模型压缩](docs/zh_CN/algorithm_introduction/prune_quantization.md) - [模型压缩](docs/zh_CN/algorithm_introduction/prune_quantization.md)
- [模型蒸馏](docs/zh_CN/algorithm_introduction/knowledge_distillation.md) - [模型蒸馏](./docs/zh_CN/training/advanced/knowledge_distillation.md)
- [数据增强](docs/zh_CN/training/config_discription/data_augmentation.md) - [数据增强](docs/zh_CN/training/config_description/data_augmentation.md)
- [产业实用范例库](docs/zh_CN/samples) - [产业实用范例库](docs/zh_CN/samples)
- [30分钟快速体验图像分类](docs/zh_CN/quick_start/quick_start_classification_new_user.md) - [30分钟快速体验图像分类](docs/zh_CN/quick_start/quick_start_classification_new_user.md)
- FAQ - FAQ
......
...@@ -28,7 +28,7 @@ ...@@ -28,7 +28,7 @@
## 2. 知识蒸馏应用 ## 2. 知识蒸馏应用
知识蒸馏算法在模型轻量化过程任务中应用广泛,对于需要满足特定的精度的任务,通过使用知识蒸馏的方法,我们可以使用更小的模型便能达到要求的精度,从而减小了模型部署的成本。 知识蒸馏算法在模型轻量化过程任务中应用广泛,对于需要满足特定的精度的任务,通过使用知识蒸馏的方法,我们可以使用更小的模型便能达到要求的精度,从而减小了模型部署的成本。
此外,对于相同的模型结构,使用知识蒸馏训练得到的预训练模型精度往往更高,这些预训练模型往往也可以提升下游任务的模型精度。比如在图像分类任务中,基于知识蒸馏算法得到的精度更高的预训练模型,也能够在目标检测、图像分割、OCR、视频分类等任务中获得明显的精度收益。 此外,对于相同的模型结构,使用知识蒸馏训练得到的预训练模型精度往往更高,这些预训练模型往往也可以提升下游任务的模型精度。比如在图像分类任务中,基于知识蒸馏算法得到的精度更高的预训练模型,也能够在目标检测、图像分割、OCR、视频分类等任务中获得明显的精度收益。
...@@ -54,7 +54,7 @@ Heo 等人提出了 OverHaul [8], 计算学生模型与教师模型的 feature m ...@@ -54,7 +54,7 @@ Heo 等人提出了 OverHaul [8], 计算学生模型与教师模型的 feature m
<a name='3.3'></a> <a name='3.3'></a>
### 3.3 Relation based distillation ### 3.3 Relation based distillation

`3.1``3.2` 章节中的论文中主要是考虑到学生模型与教师模型的输出或者中间层 feature map,这些知识蒸馏算法只关注个体的输出结果,没有考虑到个体之间的输出关系。 `3.1``3.2` 章节中的论文中主要是考虑到学生模型与教师模型的输出或者中间层 feature map,这些知识蒸馏算法只关注个体的输出结果,没有考虑到个体之间的输出关系。
Park 等人提出了 RKD [10],基于关系的知识蒸馏算法,RKD 中进一步考虑个体输出之间的关系,使用 2 种损失函数,二阶的距离损失(distance-wise)和三阶的角度损失(angle-wise) Park 等人提出了 RKD [10],基于关系的知识蒸馏算法,RKD 中进一步考虑个体输出之间的关系,使用 2 种损失函数,二阶的距离损失(distance-wise)和三阶的角度损失(angle-wise)
......
...@@ -70,6 +70,9 @@ Park 等人提出了 RKD [10],基于关系的知识蒸馏算法,RKD 中进 ...@@ -70,6 +70,9 @@ Park 等人提出了 RKD [10],基于关系的知识蒸馏算法,RKD 中进
本论文提出的算法关系知识蒸馏(RKD)迁移教师模型得到的输出结果间的结构化关系给学生模型,不同于之前的只关注个体输出结果,RKD 算法使用两种损失函数:二阶的距离损失(distance-wise)和三阶的角度损失(angle-wise)。在最终计算蒸馏损失函数的时候,同时考虑 KD loss 和 RKD loss。最终精度优于单独使用 KD loss 蒸馏得到的模型精度。 本论文提出的算法关系知识蒸馏(RKD)迁移教师模型得到的输出结果间的结构化关系给学生模型,不同于之前的只关注个体输出结果,RKD 算法使用两种损失函数:二阶的距离损失(distance-wise)和三阶的角度损失(angle-wise)。在最终计算蒸馏损失函数的时候,同时考虑 KD loss 和 RKD loss。最终精度优于单独使用 KD loss 蒸馏得到的模型精度。
更多关于知识蒸馏的算法简介以及应用介绍,请参考:[知识蒸馏算法简介](../../algorithm_introduction/knowledge_distillation.md)
<a name='1.2'></a> <a name='1.2'></a>
### 1.2 PaddleClas支持的知识蒸馏算法 ### 1.2 PaddleClas支持的知识蒸馏算法
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册