Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
d2l-zh
提交
7d2e71ac
D
d2l-zh
项目概览
OpenDocCN
/
d2l-zh
通知
2
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
d2l-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
7d2e71ac
编写于
11月 08, 2018
作者:
A
Aston Zhang
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
till fast rcnn
上级
359e14a4
变更
5
展开全部
隐藏空白更改
内联
并排
Showing
5 changed file
with
247 addition
and
212 deletion
+247
-212
chapter_computer-vision/rcnn.md
chapter_computer-vision/rcnn.md
+5
-7
img/fast-rcnn.svg
img/fast-rcnn.svg
+84
-76
img/faster-rcnn.svg
img/faster-rcnn.svg
+72
-64
img/mask-rcnn.svg
img/mask-rcnn.svg
+83
-62
img/r-cnn.svg
img/r-cnn.svg
+3
-3
未找到文件。
chapter_computer-vision/rcnn.md
浏览文件 @
7d2e71ac
# 区域卷积神经网络(R-CNN)系列
区域卷积神经网络(region-based CNN或regions with CNN features,简称R-CNN)是将深度模型应用于目标检测的开创性工作之一 [1]。本节中,我们将介绍R-CNN和它的一系列改进方法:快速的R-CNN(fast R-CNN)[3]、更快的R-CNN(faster R-CNN)[4] 以及掩码R-CNN(mask R-CNN)[5]。由于篇幅有限,这里只介绍模型的大体设计思路。
区域卷积神经网络(region-based CNN或regions with CNN features,简称R-CNN)是将深度模型应用于目标检测的开创性工作之一 [1]。本节中,我们将介绍R-CNN和它的一系列改进方法:快速的R-CNN(fast R-CNN)[3]、更快的R-CNN(faster R-CNN)[4] 以及掩码R-CNN(mask R-CNN)[5]。由于篇幅有限,这里只介绍
这些
模型的大体设计思路。
## R-CNN
R-CNN首先对图像选取若干提议区域(例如锚框也是一种选取方法)并标注
类别和边界框,然后用卷积神经网络对每个提议区域做前向计算抽取特征,以得到若干提议区域样本。之后,我们对每个提议区域样本
预测类别和边界框。图9.5描述了R-CNN模型。
R-CNN首先对图像选取若干提议区域(例如锚框也是一种选取方法)并标注
它们的类别和边界框(例如偏移量)。然后,用卷积神经网络对每个提议区域做前向计算抽取特征。之后,我们用每个提议区域的特征
预测类别和边界框。图9.5描述了R-CNN模型。
![
R-CNN模型。
](
../img/r-cnn.svg
)
具体来说,R-CNN主要由以下四步构成:
1.
对输入图像使用选择性搜索(selective search)来选取多个高质量的提议区域 [2]。这些提议区域通常是在多个尺度下选取的,并具有不同的形状和大小。然后为每个提议区域标注类别和真实边界框。
1.
选取一个预训练的卷积神经网络,并将其在输出层之前截断。将每个提议区域变形为网络需要的输入尺寸,并通过前向计算输出抽取的提议区域特征。
1.
将每个提议区域的特征连同其标注的类别作为一个样本,训练多个支持向量机对目标分类。其中每个支持向量机用来判断样本是否属于某一个类别。
1.
将每个提议区域的特征连同其标注的边界框作为一个样本,训练线性回归模型来预测真实边界框。
1.
将每个提议区域的特征连同其标注的类别做成一个样本,训练多个支持向量机来进行目标类别分类,这里第$i$个支持向量机预测样本是否属于第$i$类。
1.
在这些样本上训练一个线性回归模型来预测真实边界框。
R-CNN对之前目标识别算法的主要改进是使用了预先训练好的卷积神经网络来抽取特征,有效的提升了识别精度。但R-CNN的一个主要缺点在于速度。对一张图像我们可能选出上千个兴趣区域,这样导致每张图像需要对卷积网络做上千次的前向计算。当然在训练的时候我们可以事先算好每个区域的特征并保存,因为训练中不更新卷积网络的权重。但在做预测时,我们仍然需要计算上千次的前向计算,其带来的巨大计算量使得RCNN很难在实际应用中被使用。
R-CNN虽然通过预训练的卷积神经网络有效抽取了图像特征,但它的主要缺点在于速度慢。例如,我们可能从一张图像中选出上千个提议区域,对该图像做目标检测将导致上千次的卷积神经网络的前向计算。这个巨大的计算量令R-CNN难以在实际应用中普及。
## Fast R-CNN:快速的区域卷积神经网络
...
...
img/fast-rcnn.svg
浏览文件 @
7d2e71ac
此差异已折叠。
点击以展开。
img/faster-rcnn.svg
浏览文件 @
7d2e71ac
此差异已折叠。
点击以展开。
img/mask-rcnn.svg
浏览文件 @
7d2e71ac
此差异已折叠。
点击以展开。
img/r-cnn.svg
浏览文件 @
7d2e71ac
此差异已折叠。
点击以展开。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录