提交 8cc14d22 编写于 作者: W wizardforcel

2020-08-27 22:57:32

上级 a7a20dce
此差异已折叠。
......@@ -17,7 +17,7 @@
# 基于深度学习的图像分类
**卷积神经网络****CNN**)是这项深度学习革命的核心,旨在改善图像分类任务。 CNN 是处理图像数据的专用神经网络。 作为快速补充,CNN 可以通过它们共享的权重架构帮助我们推断出位移和空间不变特征,并且基本上是前馈网络的变体。 在第 3 章*了解深度学习架构*和第 5 章,*中,我们已经详细介绍了 CNN 的基础知识。* 。 在继续进行之前,我们鼓励读者快速复习以更好地理解。 下图展示了运行中的典型 CNN:
**卷积神经网络****CNN**)是这项深度学习革命的核心,旨在改善图像分类任务。 CNN 是处理图像数据的专用神经网络。 作为快速补充,CNN 可以通过它们共享的权重架构帮助我们推断出位移和空间不变特征,并且基本上是前馈网络的变体。 在第 3 章“了解深度学习架构”和第 5 章中,我们已经详细介绍了 CNN 的基础知识。 在继续进行之前,我们鼓励读者快速复习以更好地理解。 下图展示了运行中的典型 CNN:
![](img/e6d21542-8a77-4a59-8dbe-58e16803c0be.png)
......@@ -38,7 +38,7 @@
* **CIFAR-10**:由加拿大高级研究所开发,CIFAR-10 是**机器学习****ML**)研究中使用最广泛的数据集之一。 该数据集包含 60,000 张横跨 10 个非重叠类的低分辨率图像。
* **CIFAR-100**:来自同一研究组,该数据集包含 60,000 张图像,均匀分布在 100 个不同的类别中。
* **上下文中的公共对象****上下文中的公共对象****COCO**)是用于对象标识,分段和字幕的大型可视数据库。 该数据集包含超过 200,000 张跨越不同类别的标记图像。
* **打开的图像**:这可能是最大的可用注释数据集之一。 该数据集的版本 4 包含超过 900 万个带批注的图像。
* **开放图像**:这可能是最大的可用注释数据集之一。 该数据集的版本 4 包含超过 900 万个带批注的图像。
* **Caltech 101 和 Caltech 256**:这些数据集包含分别跨越 101 和 256 个类别的带注释的图像。 加州理工学院 101 包含约 9,000 张图像,而加州理工学院 256 包含近 30,000 张图像。
* **斯坦福犬数据集**:这是一个有趣的数据集,特定于不同的犬种。 它包含 20,000 个彩色图像,涵盖 120 个不同的犬种。
* **MNIST**:MNIST 是有史以来最著名的视觉数据集之一,已成为 ML 爱好者的事实上的 *Hello,World* 数据集。 它包含超过 60,000 个手工标记的数字(零到九个数字)。
......@@ -51,11 +51,11 @@
* **AlexNet**:这是可以归功于*打开闸门*的网络。 由深度学习的先驱之一 Geoffrey Hinton 和团队设计,该网络将前五名的错误率降低到了 15.3%。 它也是最早利用 GPU 加快学习过程的架构之一。
* **VGG-16**:牛津大学视觉几何小组的网络是性能最好的体系结构之一,广泛用于对其他设计进行基准测试。 VGG-16 采用了一个简单的体系结构,该体系结构是基于 3 x 3 个卷积层(一个 16 层)相互堆叠,然后是一个最大池化层,以实现强大的性能。 该模型由稍微更复杂的模型 **VGG19** 继承。
* **初始**:也称为 **GoogleNet** ,该网络是在 **ImageNet 大规模视觉识别挑战赛****ILSVRC**)在 2014 年实现了前五名的错误率为 6.67%。 它是最早实现接近人类性能的体系结构之一。 该网络背后的新颖之处在于使用了起始层,该起始层包括了在同一级别将不同大小的内核连接在一起的过程。
* **ResNet**:由 Microsoft Research Asia 引入,**残网络****ResNet**)是一种新颖的体系结构,利用批处理规范化和跳过连接来实现前五位的错误率 只有 3.57%。 它比诸如 VGG 之类的简单体系结构要深很多(152 层)并且要复杂得多。
* **Inception**:也称为 **GoogleNet** ,该网络是在 **ImageNet 大规模视觉识别挑战赛****ILSVRC**)在 2014 年实现了前五名的错误率为 6.67%。 它是最早实现接近人类性能的体系结构之一。 该网络背后的新颖之处在于使用了起始层,该起始层包括了在同一级别将不同大小的内核连接在一起的过程。
* **ResNet**:由 Microsoft Research Asia 引入,**残网络****ResNet**)是一种新颖的体系结构,利用批处理规范化和跳过连接来实现前五位的错误率 只有 3.57%。 它比诸如 VGG 之类的简单体系结构要深很多(152 层)并且要复杂得多。
* **MobileNet**:尽管大多数架构都在竞争中胜过其他架构,但每个新的复杂网络都需要更多的计算能力和数据资源。 MobileNet 偏离了此类架构,并被设计为适用于移动和嵌入式系统。 该网络利用了一种新颖的思想,即使用深度可分离卷积来减少训练网络所需的参数总数。
我们提供了基于深度学习的图像分类空间中一些最新架构的快速概述和概述。 有关详细讨论,读者可以查看第 3 章,*了解深度学习架构*中的*卷积神经网络*部分。
我们提供了基于深度学习的图像分类空间中一些最新架构的快速概述和概述。 有关详细讨论,读者可以查看第 3 章,“了解深度学习架构”中的“卷积神经网络”部分。
# 图像分类与迁移学习
......@@ -441,11 +441,11 @@ history = model.fit_generator(train_generator,
狗品种分类器性能
该模型在训练集和验证集上仅在 15 个时期内就获得了 **80%** 精度以上的可嘉性能。 右侧的图显示了损耗下降并收敛到 **0.5** 的速度。 这是一个很好的例子,说明了迁移学习的强大而简单。
该模型在训练集和验证集上仅在 15 个时期内就获得了 **80%** 精度以上的可嘉性能。 右侧的图显示了损耗下降并收敛到 **0.5** 的速度。 这是一个很好的例子,说明了迁移学习的强大而简单。
训练和验证的性能相当不错,但是对看不见的数据的性能如何? 由于我们已经将原始数据集分为三个单独的部分。 这里要记住的重要一点是,测试数据集必须经过与训练数据集相似的预处理。 为了解决这个问题,在将测试数据集输入到函数之前,我们还对它进行了缩放。
该模型在测试数据集上实现了惊人的 **85准确度**以及 **0.85 F1 得分**。 鉴于我们仅用最少的投入就训练了 15 个纪元,迁移学习帮助我们实现了一个不错的分类器:
该模型在测试数据集上实现了惊人的 **85% 准确度**以及 **0.85 F1 得分**。 鉴于我们仅用最少的投入就训练了 15 个纪元,迁移学习帮助我们实现了一个不错的分类器:
![](img/37a13513-298a-414a-beeb-76c68f9c1a36.png)
......
此差异已折叠。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册