README.md 7.4 KB
Newer Older
D
dyning 已提交
1
# PaddleClas
D
dyning 已提交
2

D
dyning 已提交
3 4
**文档教程**:https://paddleclas.readthedocs.io (正在持续更新中)

D
dyning 已提交
5
## 简介
D
dyning 已提交
6
PaddleClas的目的是为工业界和学术界提供一个图像分类任务相关的百宝箱,特色如下:
D
dyning 已提交
7
- 模型库:ResNet_vd、MobileNetV3等23种系列的分类网络结构和训练技巧,以及对应的117个分类预训练模型和性能评估
D
dyning 已提交
8

D
dyning 已提交
9
- 高阶使用:高精度的实用知识蒸馏方案(准确率82.39%的ResNet50_vd和78.9%的MobileNetV3)、8种数据增广方法的复现和验证
D
dyning 已提交
10

D
dyning 已提交
11
- 应用拓展:常见视觉任务的特色方案,包括图像分类领域的迁移学习(百度自研的10万类图像分类预训练模型)和通用目标检测(mAP 47.8%的实用检测方案)等
D
dyning 已提交
12

D
dyning 已提交
13
- 实用工具:便于工业应用部署的实用工具,包括TensorRT预测、移动端预测、模型服务化部署等
D
dyning 已提交
14 15

- 赛事支持:助力多个视觉全球挑战赛取得领先成绩,包括2018年Kaggle Open Images V4图像目标检测挑战赛冠军、2019年Kaggle地标检索挑战赛亚军等
littletomatodonkey's avatar
littletomatodonkey 已提交
16

D
dyning 已提交
17
## 模型库
D
dyning 已提交
18

D
dyning 已提交
19
基于ImageNet1k分类数据集,PaddleClas提供ResNet、ResNet_vd、EfficientNet、Res2Net、HRNet、MobileNetV3等23种常用分类网络结构的简单介绍、论文指标复现配置,以及在复现过程中的训练技巧。与此同时,PaddleClas也提供了对应的117个图像分类预训练模型,并且基于TensorRT评估了所有模型的GPU预测时间,以及在骁龙855(SD855)上评估了移动端模型的CPU预测时间和存储大小。支持的***预训练模型列表、下载地址以及更多信息***请见文档教程中的[**模型库章节**](https://paddleclas.readthedocs.io/zh_CN/latest/zh_cn/models/models_intro.html)。
D
dyning 已提交
20

D
dyning 已提交
21 22 23
<div align="center">
    <img src="docs/images/models/main_fps_top1.png" width="600">
</div>
D
dyning 已提交
24

D
dyning 已提交
25
上图展示了一些适合服务器端应用的模型,使用V100,FP16和TensorRT预测一个batch的时间,其中batch_size=32,图中ResNet50_vd_ssld,是采用PaddleClas提供的SSLD蒸馏方法训练的模型。图中相同颜色和符号的点代表同一系列不同规模的模型。不同模型的FLOPS和Parameters、FP16和FP32的预测时间以及不同batch_size的预测时间请参考文档教程中的[**模型库章节**](https://paddleclas.readthedocs.io/zh_CN/latest/zh_cn/models/models_intro.html)
D
dyning 已提交
26

D
dyning 已提交
27 28
<div align="center">
<img
D
dyning 已提交
29
src="docs/images/models/mobile_arm_top1.png" width="700">
D
dyning 已提交
30
</div>
D
dyning 已提交
31

D
dyning 已提交
32
上图展示了一些适合移动端应用的模型,在SD855上预测一张图像的CPU时间。图中MV3_large_x1_0_ssld(M是MobileNet的简称),MV3_small_x1_0_ssld、MV2_ssld和MV1_ssld,是采用PaddleClas提供的SSLD蒸馏方法训练的模型。MV3_large_x1_0_ssld_int8是进一步进行INT8量化的模型。不同模型的FLOPS、Parameters、模型存储大小,以及更多的GPU预测时间请参考文档教程中的[**模型库章节**](https://paddleclas.readthedocs.io/zh_CN/latest/zh_cn/models/models_intro.html)
D
dyning 已提交
33

littletomatodonkey's avatar
littletomatodonkey 已提交
34
- TODO
D
dyning 已提交
35
- [ ] EfficientLite、GhostNet、RegNet论文指标复现和性能评估
D
dyning 已提交
36

D
dyning 已提交
37
## 高阶使用
D
dyning 已提交
38
除了提供丰富的分类网络结构和预训练模型,PaddleClas也支持了一系列有助于图像分类任务效果和效率提升的算法或工具。
D
dyning 已提交
39
### 知识蒸馏
D
dyning 已提交
40

D
dyning 已提交
41
知识蒸馏是指使用教师模型(teacher model)去指导学生模型(student model)学习特定任务,保证小模型在参数量不变的情况下,得到比较大的效果提升,甚至获得与大模型相似的精度指标。
D
dyning 已提交
42 43 44

<div align="center">
<img
D
dyning 已提交
45
src="docs/images/distillation/distillation_perform.png" width="500">
D
dyning 已提交
46 47
</div>

D
dyning 已提交
48
PaddleClas提供了一种简单的半监督标签知识蒸馏方案(SSLD,Simple Semi-supervised Label Distillation),使用该方案大幅提升了ResNet50_vd、MobileNetV1、MobileNetV2和MobileNetV3在ImageNet数据集上分类效果,如上图所示。该知识蒸馏方案的框架图如下,详细的知识蒸馏方法介绍以及使用正在持续更新中。
D
dyning 已提交
49

D
dyning 已提交
50 51
<div align="center">
<img
D
dyning 已提交
52
src="docs/images/distillation/ppcls_distillation_v1.png" width="700">
D
dyning 已提交
53
</div>
D
dyning 已提交
54

D
dyning 已提交
55
### 数据增广
D
dyning 已提交
56

D
dyning 已提交
57
在图像分类任务中,图像数据的增广是一种常用的正则化方法,可以有效提升图像分类的效果,尤其对于数据量不足或者模型网络较大的场景。PaddleClas支持了最新的8种数据增广算法的复现和在统一实验环境下的效果评估,如下图所示。每种数据增广方法的详细介绍、对比的实验环境以及使用正在持续更新中。
D
dyning 已提交
58 59 60

<div align="center">
<img
D
dyning 已提交
61
src="docs/images/image_aug/main_image_aug.png" width="600">
littletomatodonkey's avatar
littletomatodonkey 已提交
62
</div>
D
dyning 已提交
63

D
dyning 已提交
64
- TODO
D
dyning 已提交
65 66
- [ ] 更多的优化器支持和效果验证
- [ ] 支持模型可解释性工具
D
dyning 已提交
67

D
dyning 已提交
68
## 应用拓展
D
dyning 已提交
69
效果更优的图像分类网络结构和预训练模型往往有助于提升其他视觉任务的效果,PaddleClas提供了一系列在常见视觉任务中的特色方案。
D
dyning 已提交
70

D
dyning 已提交
71
### 图像分类的迁移学习
D
dyning 已提交
72

D
dyning 已提交
73
在实际应用中,由于训练数据的匮乏,往往将ImageNet1K数据集训练的分类模型作为预训练模型,进行图像分类的迁移学习。为了进一步助力实际问题的解决,PaddleClas计划开源百度自研的基于10万种类别、4千多万的有标签数据训练的预训练模型,同时给出多种超参搜索方法。该部分内容正在持续更新中。
D
dyning 已提交
74

D
dyning 已提交
75
### 通用目标检测
D
dyning 已提交
76

D
dyning 已提交
77
近年来,学术界和工业界广泛关注图像中目标检测任务。PaddleClas基于82.39%的ResNet50_vd的预训练模型,结合PaddleDetection中丰富的检测算子,提供了一种面向服务器端应用的目标检测方案,PSS-DET (Practical Server Side Detection),在COCO目标检测数据集上,当V100单卡预测速度为61FPS时,mAP是41.6%,预测速度为20FPS时,mAP是47.8%。详细的网络配置和训练代码,请参看<a href="https://github.com/PaddlePaddle/PaddleDetection/tree/master/configs/rcnn_server_side_det" rel="nofollow"> PaddleDetection中的相关内容</a>。更多的PaddleClas在目标检测中的特色应用,正在持续更新中。
D
dyning 已提交
78 79 80 81 82 83

<div align="center">
<img
src="docs/images/det/pssdet.png" width="500">
</div>

D
dyning 已提交
84
- TODO
D
dyning 已提交
85 86
- [ ] PaddleClas在OCR任务中的特色应用
- [ ] PaddleClas在人脸检测和识别中的特色应用
D
dyning 已提交
87

D
dyning 已提交
88
## 实用工具
D
dyning 已提交
89
PaddlePaddle提供了一系列实用工具,便于工业应用部署PaddleClas,具体请参考文档教程中的[**实用工具章节**](https://paddleclas.readthedocs.io/zh_CN/latest/zh_cn/extension/index.html)
D
dyning 已提交
90 91

- TensorRT预测
D
dyning 已提交
92 93 94
- Paddle-Lite
- 模型服务化部署
- 模型量化
D
dyning 已提交
95
- 多机训练
D
dyning 已提交
96
- Paddle Hub
D
dyning 已提交
97

D
dyning 已提交
98
## 赛事支持
D
dyning 已提交
99
PaddleClas的建设源于百度实际视觉业务应用的淬炼和视觉前沿能力的探索,助力多个视觉重点赛事取得领先成绩,并且持续推进更多的前沿视觉问题的解决和落地应用。更多内容请关注文档教程中的[**赛事支持章节**](https://paddleclas.readthedocs.io/zh_CN/latest/zh_cn/competition_support.html)
D
dyning 已提交
100 101 102 103 104 105 106

- 2018年Kaggle Open Images V4图像目标检测挑战赛冠军
- 2019年Kaggle Open Images V5图像目标检测挑战赛亚军
- 2019年Kaggle地标检索挑战赛亚军
- 2019年Kaggle地标识别挑战赛亚军
- 首届多媒体信息识别技术竞赛中印刷文本OCR、人脸识别和地标识别三项任务A级证书

D
dyning 已提交
107
## 许可证书
D
dyning 已提交
108
本项目的发布受<a href="https://github.com/PaddlePaddle/PaddleCLS/blob/master/LICENSE">Apache 2.0 license</a>许可认证。
D
dyning 已提交
109

D
dyning 已提交
110
## 版本更新
D
dyning 已提交
111

D
dyning 已提交
112
## 如何贡献代码
littletomatodonkey's avatar
littletomatodonkey 已提交
113
我们非常欢迎你为PaddleClas贡献代码,也十分感谢你的反馈。