未验证 提交 3f510c87 编写于 作者: D dyning 提交者: GitHub

Merge pull request #30 from littletomatodonkey/add_docs

add models doc
# DPN与DenseNet系列
## 概述
正在持续更新中......
DenseNet是2017年CVPR best paper提出的一种新的网络结构,该网络设计了一种新的跨层连接的block,即dense-block。相比ResNet中的bottleneck,dense-block设计了一个更激进的密集连接机制,即互相连接所有的层,每个层都会接受其前面所有层作为其额外的输入。DenseNet将所有的dense-block堆叠,组合成了一个密集连接型网络。密集的连接方式使得DenseNe更容易进行梯度的反向传播,使得网络更容易训练。
DPN的全称是Dual Path Networks,即双通道网络。该网络是由DenseNet和ResNeXt结合的一个网络,其证明了DenseNet能从靠前的层级中提取到新的特征,而ResNeXt本质上是对之前层级中已提取特征的复用。作者进一步分析发现,ResNeXt对特征有高复用率,但冗余度低,DenseNet能创造新特征,但冗余度高。结合二者结构的优势,作者设计了DPN网络。最终DPN网络在同样FLOPS和参数量下,取得了比ResNeXt与DenseNet更好的结果。
该系列模型的FLOPS、参数量以及FP32预测耗时如下图所示。
......@@ -11,7 +12,9 @@
![](../../images/models/DPN.png.fp32.png)
所有模型在预测时,图像的crop_size设置为224,resize_short_size设置为256。
目前PaddleClas开源的这两类模型的预训练模型一共有10个,其指标如上图所示,可以看到,在相同的FLOPS和参数量下,相比DenseNet,DPN拥有更高的精度。但是由于DPN有更多的分支,所以其推理速度要慢于DenseNet。由于DenseNet264的网络层数最深,所以该网络是DenseNet系列模型中参数量最大的网络,DenseNet161的网络的宽度最大,导致其是该系列中网络中计算量最大、精度最高的网络。从推理速度来看,计算量大且精度高的的DenseNet161比DenseNet264具有更快的速度,所以其比DenseNet264具有更大的优势。
对于DPN系列网络,模型的FLOPS和参数量越大,模型的精度越高。其中,由于DPN107的网络宽度最大,所以其是该系列网络中参数量与计算量最大的网络。
## 精度、FLOPS和参数量
......
# EfficientNet与ResNeXt101_wsl系列
## 概述
正在持续更新中......
EfficientNet是Google于2019年发布的一个基于NAS的轻量级网络,其中EfficientNetB7刷新了当时ImageNet-1k的分类准确率。在该文章中,作者指出,传统的提升神经网络性能的方法主要是从网络的宽度、网络的深度、以及输入图片的分辨率入手,但是作者通过实验发现,平衡这三个维度对精度和效率的提升至关重要,于是,作者通过一系列的实验中总结出了如何同时平衡这三个维度的放缩,与此同时,基于这种放缩方法,作者在EfficientNet_B0的基础上,构建了EfficientNet系列中B1-B7共7个网络,并在同样FLOPS与参数量的情况下,精度达到了state-of-the-art的效果。
ResNeXt是facebook于2016年提出的一种对ResNet的改进版网络。在2019年,facebook通过弱监督学习研究了该系列网络在ImageNet上的精度上限,为了区别之前的ResNeXt网络,该系列网络的后缀为wsl,其中wsl是弱监督学习(weakly-supervised-learning)的简称。为了能有更强的特征提取能力,研究者将其网络宽度进一步放大,其中最大的ResNeXt101_32x48d_wsl拥有8亿个参数,将其在9.4亿的弱标签图片下训练并在ImageNet-1k上做finetune,最终在ImageNet-1k的top-1达到了85.4%,这也是迄今为止在ImageNet-1k的数据集上以224x224的分辨率下精度最高的网络。Fix-ResNeXt中,作者使用了更大的图像分辨率,针对训练图片和验证图片数据预处理不一致的情况下做了专门的Fix策略,并使得ResNeXt101_32x48d_wsl拥有了更高的精度,由于其用到了Fix策略,故命名为Fix-ResNeXt101_32x48d_wsl。
该系列模型的FLOPS、参数量以及FP32预测耗时如下图所示。
......@@ -11,6 +14,7 @@
![](../../images/models/EfficientNet.png.fp32.png)
目前PaddleClas开源的这两类模型的预训练模型一共有14个。从上图中可以看出EfficientNet系列网络优势非常明显,ResNeXt101_wsl系列模型由于用到了更多的数据,最终的精度也更高。EfficientNet_B0_Small是去掉了SE_block的EfficientNet_B0,其具有更快的推理速度。
## 精度、FLOPS和参数量
......
# HRNet系列
## 概述
正在持续更新中......
HRNet是2019年由微软亚洲研究院提出的一种全新的神经网络,不同于以往的卷积神经网络,该网络在网络深层仍然可以保持高分辨率,因此预测的关键点热图更准确,在空间上也更精确。此外,该网络在对分辨率敏感的其他视觉任务中,如检测、分割等,表现尤为优异。
该系列模型的FLOPS、参数量以及FP32预测耗时如下图所示。
......@@ -10,6 +10,7 @@
![](../../images/models/HRNet.png.params.png)
![](../../images/models/HRNet.png.fp32.png)
目前PaddleClas开源的这类模型的预训练模型一共有7个,其指标如图所示,其中HRNet_W48_C指标精度异常的原因可能是因为网络训练的正常波动。
## 精度、FLOPS和参数量
......
# Inception系列
## 概述
正在持续更新中......
GoogLeNet是2014年由Google设计的一种新的神经网络结构,其与VGG网络并列成为当年ImageNet挑战赛的双雄。GoogLeNet首次引入Inception结构,在网络中堆叠该结构使得网络层数达到了22层,这也是卷积网络首次超过20层的标志。由于在Inception结构中使用了1x1的卷积用于通道数降维,并且使用了Global-pooling代替传统的多fc层加工特征的方式,最终的GoogLeNet网络的FLOPS和参数量远小于VGG网络,成为当时神经网络设计的一道亮丽风景线。
Xception 是 Google 继 Inception 后提出的对 InceptionV3 的另一种改进。在Xception中,作者使用了深度可分离卷积代替了传统的卷积操作,该操作大大节省了网络的FLOPS和参数量,但是精度反而有所提升。在DeeplabV3+中,作者将Xception做了进一步的改进,同时增加了Xception的层数,设计出了Xception65和Xception71的网络。
InceptionV4是2016年由Google设计的新的神经网络,当时残差结构风靡一时,但是作者认为仅使用Inception 结构也可以达到很高的性能。InceptionV4使用了更多的Inception module,在ImageNet上的精度再创新高。
该系列模型的FLOPS、参数量以及FP32预测耗时如下图所示。
......@@ -11,6 +17,9 @@
![](../../images/models/Inception.png.fp32.png)
上图反映了Xception系列和InceptionV4的精度和其他指标的关系。其中Xception_deeplab与论文结构保持一致,Xception是PaddleClas的改进模型,在预测速度基本不变的情况下,精度提升约0.6%。关于该改进模型的详细介绍正在持续更新中,敬请期待。
## 精度、FLOPS和参数量
......
# 其他模型
## 概述
正在持续更新中......
2012年,Alex等人提出的AlexNet网络在ImageNet大赛上以远超第二名的成绩夺冠,卷积神经网络乃至深度学习引起了广泛的关注。AlexNet使用relu作为CNN的激活函数,解决了sigmoid在网络较深时的梯度弥散问题。训练时使用Dropout随机丢掉一部分神经元,避免了模型过拟合。网络中使用重叠的最大池化代替了此前CNN中普遍使用的平均池化,避免了平均池化的模糊效果,提升了特征的丰富性。从某种意义上说,AlexNet引爆了神经网络的研究与应用热潮。
SqueezeNet在ImageNet-1k上实现了与AlexNet相同的精度,但只用了1/50的参数量。该网络的核心是Fire模块,Fire模块通过使用1x1的卷积实现通道降维,从而大大节省了参数量。作者通过大量堆叠Fire模块组成了SqueezeNet。
VGG由牛津大学计算机视觉组和DeepMind公司研究员一起研发的卷积神经网络。该网络探索了卷积神经网络的深度和其性能之间的关系,通过反复的堆叠3x3的小型卷积核和2x2的最大池化层,成功的构建了多层卷积神经网络并取得了不错的收敛精度。最终,VGG获得了ILSVRC 2014比赛分类项目的亚军和定位项目的冠军。
DarkNet53是YOLO作者在论文设计的用于目标检测的backbone,该网络基本由1x1与3x3卷积构成,共53层,取名为DarkNet53。
## 精度、FLOPS和参数量
......
......@@ -26,6 +26,11 @@ python tools/infer/predict.py \
![](../../images/models/main_fps_top1.png)
![](../../images/models/mobile_arm_top1.png)
**此处插播一条硬广~**
> 如果您觉得此文档对您有帮助,欢迎star、watch、fork,三连我们的项目:[https://github.com/PaddlePaddle/PaddleClas](https://github.com/PaddlePaddle/PaddleClas)
## 预训练模型列表及下载地址
- ResNet及其Vd系列
- ResNet系列<sup>[[1](#ref1)]</sup>([论文地址](http://openaccess.thecvf.com/content_cvpr_2016/html/He_Deep_Residual_Learning_CVPR_2016_paper.html))
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册