提交 4658e3d9 编写于 作者: G gaotingquan

docs: update

上级 e83c2664
......@@ -43,7 +43,7 @@ DeiT(Data-efficient Image Transformers)系列模型是由 FaceBook 在 2020
| DeiT_base_distilled_patch16_224 | 0.831 | 0.964 | 0.834 | 0.965 | 16.93 | 87.18 |
| DeiT_base_distilled_patch16_384 | 0.851 | 0.973 | 0.852 | 0.972 | 49.43 | 87.18 |
**备注:** 精度类型为 FP32,推理过程使用 TensorRT
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得
### 1.3 Benchmark
......@@ -62,6 +62,8 @@ DeiT(Data-efficient Image Transformers)系列模型是由 FaceBook 在 2020
| DeiT_base_<br>distilled_patch16_224 | 224 | 6.17 | 14.94 | 28.58 |
| DeiT_base_<br>distilled_patch16_384 | 384 | 14.12 | 48.76 | 97.09 |
**备注:** 精度类型为 FP32,推理过程使用 TensorRT。
<a name="2"></a>
## 2. 模型快速体验
......
......@@ -57,6 +57,8 @@ EfficientNet 是 Google 于 2019 年发布的一个基于 NAS 的轻量级网络
| EfficientNetB7 | 0.843 | 0.969 | 0.844 | 0.971 | 72.350 | 64.920 |
| EfficientNetB0_<br>small | 0.758 | 0.926 | | | 0.720 | 4.650 |
**备注:** PaddleClas 所提供的该系列模型中,EfficientNetB1-B7模型的预训练模型权重,均是基于其官方提供的权重转得。
### 1.3 Benchmark
<a name='1.3.1'></a>
......
......@@ -39,6 +39,8 @@ CSWinTransformer 是一种新的视觉 Transformer 网络,可以用作计算
| CSWinTransformer_base_384 | 0.8550 | 0.9749 | 0.855 | - | 42.2 | 77 |
| CSWinTransformer_large_384 | 0.8748 | 0.9833 | 0.875 | - | 94.7 | 173.3 |
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
<a name="2"></a>
## 2. 模型快速体验
......
......@@ -44,6 +44,8 @@ DLA(Deep Layer Aggregation)。 视觉识别需要丰富的表示形式,其范
| DLA102x2 | 78.85 | 94.45 | - | - | 9.3 | 41.4 |
| DLA169 | 78.09 | 94.09 | - | - | 11.6 | 53.5 |
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
### 1.3 Benchmark
<a name='1.3.1'></a>
......
......@@ -31,12 +31,15 @@ HarDNet(Harmonic DenseNet)是 2019 年由国立清华大学提出的一种
<a name='1.2'></a>
### 1.2 模型指标
| Models | Top1 | Top5 | Reference<br>top1 | Reference<br>top5 | FLOPs<br>(G) | Params<br>(M) |
|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
| HarDNet68 | 75.46 | 92.65 | - | - | 4.3 | 17.6 |
| HarDNet85 | 77.44 | 93.55 | - | - | 9.1 | 36.7 |
| HarDNet39_ds | 71.33 | 89.98 | - | - | 0.4 | 3.5 |
| HarDNet68_ds | 73.62 | 91.52 | - | - | 0.8 | 4.2 |
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
### 1.3 Benchmark
<a name='1.3.1'></a>
......
......@@ -38,7 +38,9 @@ LeViT 是一种快速推理的、用于图像分类任务的混合神经网络
| LeViT-256 | 0.8085 | 0.9497 | 0.816 | 0.954 | 1120 | 19 |
| LeViT-384 | 0.8191 | 0.9551 | 0.826 | 0.960 | 2353 | 39 |
**注**:与 Reference 的精度差异源于数据预处理不同及未使用蒸馏的 head 作为输出。
**备注:**
1. 与 Reference 的精度差异源于数据预处理不同及未使用蒸馏的 head 作为输出。
2. PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
<a name="2"></a>
......
......@@ -43,6 +43,8 @@ MixNet 是谷歌出的一篇关于轻量级网络的文章,主要工作就在
| MixNet_M | 77.67 | 93.64 | 77.0 | - | 357.119 | 5.065 |
| MixNet_L | 78.60 | 94.37 | 78.9 | - | 579.017 | 7.384 |
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
### 1.3 Benchmark
<a name='1.3.1'></a>
......
......@@ -38,6 +38,8 @@ MobileViT 是一个轻量级的视觉 Transformer 网络,可以用作计算机
| MobileViT_XS | 0.7454 | 0.9227 | 0.747 | - | 930.75 | 2.33 |
| MobileViT_S | 0.7814 | 0.9413 | 0.783 | - | 1849.35 | 5.59 |
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
<a name="2"></a>
## 2. 模型快速体验
......
......@@ -40,6 +40,8 @@ ReXNet 是 NAVER 集团 ClovaAI 研发中心基于一种网络架构设计新范
| ReXNet_2_0 | 81.22 | 95.36 | 81.6 | - | 1.561 | 16.449 |
| ReXNet_3_0 | 82.09 | 96.12 | 82.8 | - | 3.445 | 34.833 |
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
### 1.3 Benchmark
<a name='1.3.1'></a>
......
......@@ -40,6 +40,8 @@
| RedNet101 | 78.94 | 94.36 | - | - | 4.7 | 25.7 |
| RedNet152 | 79.17 | 94.40 | - | - | 6.8 | 34.0 |
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
### 1.3 Benchmark
<a name='1.3.1'></a>
......
......@@ -45,6 +45,8 @@ RepVGG(Making VGG-style ConvNets Great Again)系列模型是由清华大学(丁
关于 Params、FLOPs、Inference speed 等信息,敬请期待。
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
<a name="2"></a>
## 2. 模型快速体验
......
......@@ -46,7 +46,9 @@ Swin Transformer 是一种新的视觉 Transformer 网络,可以用作计算
[1]:基于 ImageNet22k 数据集预训练,然后在 ImageNet1k 数据集迁移学习得到。
**注**:与 Reference 的精度差异源于数据预处理不同。
**备注:**
1. 与 Reference 的精度差异源于数据预处理不同。
2. PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
<a name='1.3'></a>
......
......@@ -36,6 +36,8 @@ PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其
|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
| TNT_small | 0.8121 | 0.9563 | - | - | 5.2 | 23.8 |
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
<a name="2"></a>
## 2. 模型快速体验
......
......@@ -51,6 +51,8 @@ ResNeXt 是 facebook 于 2016 年提出的一种对 ResNet 的改进版网络。
| ResNeXt101_<br>32x48d_wsl | 0.854 | 0.977 | 0.854 | 0.976 | 173.580 | 456.200 |
| Fix_ResNeXt101_<br>32x48d_wsl | 0.863 | 0.980 | 0.864 | 0.980 | 354.230 | 456.200 |
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
### 1.3 Benchmark
<a name='1.3.1'></a>
......
......@@ -42,6 +42,8 @@ ViT(Vision Transformer)系列模型是 Google 在 2020 年提出的,该模
| ViT_large_patch16_384 | 0.8513 | 0.9736 | 0.8517 | 0.9736 | 174.70 | 304.12 |
| ViT_large_patch32_384 | 0.8153 | 0.9608 | 0.815 | - | 44.24 | 306.48 |
**备注:** PaddleClas 所提供的该系列模型的预训练模型权重,均是基于其官方提供的权重转得。
### 1.3 Benchmark
<a name='1.3.1'></a>
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册