2pass rcnn

2ca3e98e · Aston Zhang · 2c3946c6 · 2ca3e98e
隐藏空白更改
内联并排

Showing with 11 addition and 14 deletion

chapter_computer-vision/rcnn.md chapter_computer-vision/rcnn.md +11 -14

未找到文件。
--- a/chapter_computer-vision/rcnn.md
+++ b/chapter_computer-vision/rcnn.md
@@ -29,7 +29,7 @@ R-CNN的主要性能瓶颈在于需要对每个提议区域独立抽取特征。
 图9.6描述了Fast R-CNN模型。它的主要计算步骤如下：

 1. 与R-CNN相比，Fast R-CNN用来提取特征的卷积神经网络的输入是整个图像，而不是各个提议区域。而且，这个网络通常会参与训练，即更新模型参数。设输入为一张图像，将卷积神经网络的输出的形状记为$1 \times c \times h_1 \times w_1$。
-1. 假设选择性搜索生成$n$个提议区域。这些形状各异的提议区域在卷积神经网络的输出上分别标出形状各异的兴趣区域。这些兴趣区域需要抽取出形状相同的特征（假设高和宽均分别指定为$h_2,w_2$），从而便于连结。Fast R-CNN引入兴趣区域池化层（Region of Interest Pooling，简称RoI池化层），将卷积神经网络的输出和提议区域作为输入，输出连结后的各个提议区域抽取的特征，形状为$n \times c \times h_2 \times w_2$。
+1. 假设选择性搜索生成$n$个提议区域。这些形状各异的提议区域在卷积神经网络的输出上分别标出形状各异的兴趣区域。这些兴趣区域需要抽取出形状相同的特征（假设高和宽均分别指定为$h_2,w_2$）。Fast R-CNN引入兴趣区域池化层（Region of Interest Pooling，简称RoI池化层），将卷积神经网络的输出和提议区域作为输入，输出连结后的各个提议区域抽取的特征，形状为$n \times c \times h_2 \times w_2$。
 1. 通过全连接层将输出形状变换为$n \times d$，其中$d$是超参数。
 1. 类别预测时，将全连接层的输出的形状再变换为$n \times q$并使用softmax回归（$q$为类别个数）。边界框预测时，将全连接层的输出的形状再变换为$n \times 4$。也就是说，我们为每个提议区域预测类别和边界框。

@@ -79,32 +79,27 @@ Fast R-CNN通常需要在选择性搜索中生成较多的提议区域，以获
 值得一提的是，区域提议网络作为Faster R-CNN的一部分，是和整个模型一起训练得到的。也就是说，Faster R-CNN的目标函数既包括目标检测中的类别和边界框预测，又包括区域提议网络中锚框的二元类别和边界框预测。最终，区域提议网络能够学习到如何生成高质量的提议区域，从而在减少提议区域数量的情况下也能保证目标检测的精度。


-## Mask R-CNN：使用全连接卷积网络的Faster RCNN
+## Mask R-CNN

-如果训练数据中我们标注了每个目标的精确边框，而不是一个简单的方形边界框，那么Mask R-CNN能有效的利用这些详尽的标注信息来进一步提升目标识别精度 [5]。具体来说，Mask R-CNN使用额外的全连接卷积网络来利用像素级别标注信息，这个网络将在稍后的[“语义分割”](fcn.md)这一节做详细介绍。图9.9描述了Mask R-CNN模型。
+如果训练数据还标注了每个目标在图像上的像素级位置，那么Mask R-CNN能有效利用这些详尽的标注信息进一步提升目标检测的精度。

 ![Mask R-CNN模型。](../img/mask-rcnn.svg)

-注意到RPN输出的是实数坐标的提议区域，在输入到RoI池化层时我们将实数坐标定点化成整数来确定区域中的像素。在计算过程中，我们将每个区域分割成多块然后同样定点化区域边缘到最近的像素上。这两步定点化会使得定点化后的边缘和原始区域中定义的有数个像素的偏差，这个对于边界框预测来说问题不大，但在像素级别的预测上则会带来麻烦。
+如图9.9所示，Mask R-CNN在Faster R-CNN的基础上做了修改。Mask R-CNN将兴趣区域池化层替换成了兴趣区域对齐层，即通过双线性插值（bilinear interpolation）来保留特征图上的空间信息，从而更适于像素级预测。兴趣区域对齐层的输出包含了所有兴趣区域的形状相同的特征图。它们既用来预测兴趣区域的类别和边界框，又通过额外的全卷积网络预测目标的像素级位置。我们将在本章稍后小节介绍如何使用全卷积网络预测图像中像素级的语义。

-Mask R-CNN中提出了RoI对齐层（RoI Align）。它去掉了RoI池化层中的定点化过程，从而使得不管是输入的提议区域还是其分割区域的坐标均使用实数。如果边界不是整数，那么其元素值则通过相邻像素插值而来。
-
-然后有
-
-$$f(x,y) = (\lfloor y \rfloor + 1-y)f(x, \lfloor y \rfloor) + (y-\lfloor y \rfloor)f(x, \lfloor y \rfloor + 1).$$


 ## 小结

-* R-CNN对每张图像选取多个提议区域，然后使用卷积层来对每个区域抽取特征，之后对每个区域进行目标分类和真实边界框预测。
-* Fast R-CNN对整个图像进行特征抽取后再选取提议区域来提升计算性能，它引入了兴趣区域池化层将每个提议区域提取同样大小的输出以便输入之后的神经层。
-* Faster R-CNN引入区域提议网络来进一步简化区域提议流程。
-* Mask R-CNN在Faster R-CNN基础上进入一个全卷积网络可以借助像素粒度的标注来进一步提升模型精度。
+* R-CNN对图像选取若干提议区域，然后用卷积神经网络对每个提议区域做前向计算抽取特征，再用这些特征预测提议区域的类别和边界框。
+* Fast R-CNN对R-CNN的一个主要改进在于只对整个图像做卷积神经网络的前向计算。它引入了兴趣区域池化层，从而令兴趣区域能够抽取出形状相同的特征。
+* Faster R-CNN将Fast R-CNN中的选择性搜索替换成区域提议网络，从而减少提议区域的生成数量，并保证目标检测的精度。
+* Mask R-CNN在Faster R-CNN基础上引入一个全卷积网络，从而借助目标的像素级位置进一步提升目标检测的精度。


 ## 练习

-* 介于篇幅原因这里没有提供R-CNN系列模型的实现。有兴趣的读者可以参考Gluon CV工具包（https://gluon-cv.mxnet.io/ ）来学习它们的实现。
+* 了解GluonCV工具包中有关本节中各个模型的实现 [6]。

 ## 扫码直达[讨论区](https://discuss.gluon.ai/t/topic/7219)

@@ -123,3 +118,5 @@ $$f(x,y) = (\lfloor y \rfloor + 1-y)f(x, \lfloor y \rfloor) + (y-\lfloor y \rflo
 [4] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems (pp. 91-99).

 [5] He, K., Gkioxari, G., Dollár, P., & Girshick, R. (2017, October). Mask r-cnn. In Computer Vision (ICCV), 2017 IEEE International Conference on (pp. 2980-2988). IEEE.
+
+[6] GluonCV 工具包。https://gluon-cv.mxnet.io/