Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
book
提交
9851e010
B
book
项目概览
PaddlePaddle
/
book
通知
16
Star
4
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
40
列表
看板
标记
里程碑
合并请求
37
Wiki
5
Wiki
分析
仓库
DevOps
项目成员
Pages
B
book
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
40
Issue
40
列表
看板
标记
里程碑
合并请求
37
合并请求
37
Pages
分析
分析
仓库分析
DevOps
Wiki
5
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
9851e010
编写于
3月 08, 2017
作者:
T
Tao Luo
提交者:
GitHub
3月 08, 2017
浏览文件
操作
浏览文件
下载
差异文件
Merge pull request #177 from qingqing01/mnist_img
update image for mnist
上级
22ed2a01
abfa3f9c
变更
6
隐藏空白更改
内联
并排
Showing
6 changed file
with
16 addition
and
28 deletion
+16
-28
recognize_digits/README.en.md
recognize_digits/README.en.md
+1
-1
recognize_digits/README.md
recognize_digits/README.md
+7
-13
recognize_digits/image/conv_layer.png
recognize_digits/image/conv_layer.png
+0
-0
recognize_digits/image/conv_layer_en.png
recognize_digits/image/conv_layer_en.png
+0
-0
recognize_digits/index.en.html
recognize_digits/index.en.html
+1
-1
recognize_digits/index.html
recognize_digits/index.html
+7
-13
未找到文件。
recognize_digits/README.en.md
浏览文件 @
9851e010
...
...
@@ -70,7 +70,7 @@ Fig. 3. Multilayer Perceptron network architecture<br/>
#### Convolutional Layer
<p
align=
"center"
>
<img
src=
"image/conv_layer
_en.png"
width=
500
><br/>
<img
src=
"image/conv_layer
.png"
width=
'750'
><br/>
Fig. 4. Convolutional layer
<br/>
</p>
...
...
recognize_digits/README.md
浏览文件 @
9851e010
...
...
@@ -67,11 +67,11 @@ Softmax回归模型采用了最简单的两层神经网络,即只有输入层
### 卷积神经网络(Convolutional Neural Network, CNN)
在多层感知器模型中,将图像展开成一维向量输入到网络中,忽略了图像的位置和结构信息,而卷积神经网络能够更好的利用图像的结构信息。
[
LeNet-5
](
http://yann.lecun.com/exdb/lenet/
)
是一个较简单的卷积神经网络。图
6
显示了其结构:输入的二维图像,先经过两次卷积层到池化层,再经过全连接层,最后使用softmax分类作为输出层。下面我们主要介绍卷积层和池化层。
在多层感知器模型中,将图像展开成一维向量输入到网络中,忽略了图像的位置和结构信息,而卷积神经网络能够更好的利用图像的结构信息。
[
LeNet-5
](
http://yann.lecun.com/exdb/lenet/
)
是一个较简单的卷积神经网络。图
4
显示了其结构:输入的二维图像,先经过两次卷积层到池化层,再经过全连接层,最后使用softmax分类作为输出层。下面我们主要介绍卷积层和池化层。
<p
align=
"center"
>
<img
src=
"image/cnn.png"
><br/>
图
6
. LeNet-5卷积神经网络结构
<br/>
图
4
. LeNet-5卷积神经网络结构
<br/>
</p>
#### 卷积层
...
...
@@ -79,17 +79,11 @@ Softmax回归模型采用了最简单的两层神经网络,即只有输入层
卷积层是卷积神经网络的核心基石。在图像识别里我们提到的卷积是二维卷积,即离散二维滤波器(也称作卷积核)与二维图像做卷积操作,简单的讲是二维滤波器滑动到二维图像上所有位置,并在每个位置上与该像素点及其领域像素点做内积。卷积操作被广泛应用与图像处理领域,不同卷积核可以提取不同的特征,例如边沿、线性、角等特征。在深层卷积神经网络中,通过卷积操作可以提取出图像低级到复杂的特征。
<p
align=
"center"
>
<img
src=
"image/conv_layer.png"
><br/>
图
4
. 卷积层图片
<br/>
<img
src=
"image/conv_layer.png"
width=
'750'
><br/>
图
5
. 卷积层图片
<br/>
</p>
图4给出一个卷积计算过程的示例图,输入图像大小为$H=5,W=5,D=3$,即$5
\t
imes 5$大小的3通道(RGB,也称作深度)彩色图像。这个示例图中包含两(用$K$表示)组卷积核,即图中滤波器$W_0$和$W_1$。在卷积计算中,通常对不同的输入通道采用不同的卷积核,如图示例中每组卷积核包含($D=3)$个$3
\t
imes 3$(用$F
\t
imes F$表示)大小的卷积核。另外,这个示例中卷积核在图像的水平方向($W$方向)和垂直方向($H$方向)的滑动步长为2(用$S$表示);对输入图像周围各填充1(用$P$表示)个0,即图中输入层原始数据为蓝色部分,灰色部分是进行了大小为1的扩展,用0来进行扩展。经过卷积操作得到输出为$3
\t
imes 3
\t
imes 2$(用$H_{o}
\t
imes W_{o}
\t
imes K$表示)大小的特征图,即$3
\t
imes 3$大小的2通道特征图,其中$H_o$计算公式为:$H_o = (H - F + 2
\t
imes P)/S + 1$,$W_o$同理。 而输出特征图中的每个像素,是每组滤波器与输入图像每个特征图的内积再求和,再加上偏置$b_o$,偏置通常对于每个输出特征图是共享的。例如图中输出特征图$o[:,:,0]$中的第一个$2$计算如下:
$$ o[0,0,0] =
\s
um x[0:3,0:3,0]
* w_{0}[:,:,0]] + \sum x[0:3,0:3,1] *
w_{0}[:,:,1]] +
\s
um x[0:3,0:3,2]
*
w_{0}[:,:,2]] + b_0 = 2 $$
$$
\s
um x[0:3,0:3,0]
* w_{0}[:,:,0]] = 0*
1 + 0
*1 + 0*
1 + 0
*1 + 1*
1 + 2
*(-1) + 0*
(-1) + 0
*1 + 0*
(-1) = -1 $$
$$
\s
um x[0:3,0:3,1]
* w_{0}[:,:,1]] = 0*
0 + 0
*1 + 0*
1 + 0
*(-1) + 0*
0 + 1
*1 + 0*
1 + 2
*0 + 1*
1 = 2 $$
$$
\s
um x[0:3,0:3,2]
* w_{0}[:,:,2]] = 0*
(-1) + 0
*1 + 0*
(-1) + 0
*0 + 1*
1 + 1
*0 + 0*
(-1) + 1
*0 + 1*
(-1) = 0 $$
$$ b_0 = 1 $$
图5给出一个卷积计算过程的示例图,输入图像大小为$H=5,W=5,D=3$,即$5
\t
imes 5$大小的3通道(RGB,也称作深度)彩色图像。这个示例图中包含两(用$K$表示)组卷积核,即图中滤波器$W_0$和$W_1$。在卷积计算中,通常对不同的输入通道采用不同的卷积核,如图示例中每组卷积核包含($D=3)$个$3
\t
imes 3$(用$F
\t
imes F$表示)大小的卷积核。另外,这个示例中卷积核在图像的水平方向($W$方向)和垂直方向($H$方向)的滑动步长为2(用$S$表示);对输入图像周围各填充1(用$P$表示)个0,即图中输入层原始数据为蓝色部分,灰色部分是进行了大小为1的扩展,用0来进行扩展。经过卷积操作得到输出为$3
\t
imes 3
\t
imes 2$(用$H_{o}
\t
imes W_{o}
\t
imes K$表示)大小的特征图,即$3
\t
imes 3$大小的2通道特征图,其中$H_o$计算公式为:$H_o = (H - F + 2
\t
imes P)/S + 1$,$W_o$同理。 而输出特征图中的每个像素,是每组滤波器与输入图像每个特征图的内积再求和,再加上偏置$b_o$,偏置通常对于每个输出特征图是共享的。输出特征图$o[:,:,0]$中的最后一个$-2$计算如图5右下角公式所示。
在卷积操作中卷积核是可学习的参数,经过上面示例介绍,每层卷积的参数大小为$D
\t
imes F
\t
imes F
\t
imes K$。在多层感知器模型中,神经元通常是全部连接,参数较多。而卷积层的参数较少,这也是由卷积层的主要特性即局部连接和共享权重所决定。
...
...
@@ -103,10 +97,10 @@ $$ b_0 = 1 $$
<p
align=
"center"
>
<img
src=
"image/max_pooling.png"
width=
"400px"
><br/>
图
5
. 池化层图片
<br/>
图
6
. 池化层图片
<br/>
</p>
池化是非线性下采样的一种形式,主要作用是通过减少网络的参数来减小计算量,并且能够在一定程度上控制过拟合。通常在卷积层的后面会加上一个池化层。池化包括最大池化、平均池化等。其中最大池化是用不重叠的矩形框将输入层分成不同的区域,对于每个矩形框的数取最大值作为输出层,如图
5
所示。
池化是非线性下采样的一种形式,主要作用是通过减少网络的参数来减小计算量,并且能够在一定程度上控制过拟合。通常在卷积层的后面会加上一个池化层。池化包括最大池化、平均池化等。其中最大池化是用不重叠的矩形框将输入层分成不同的区域,对于每个矩形框的数取最大值作为输出层,如图
6
所示。
更详细的关于卷积神经网络的具体知识可以参考
[
斯坦福大学公开课
](
http://cs231n.github.io/convolutional-networks/
)
和
[
图像分类
](
https://github.com/PaddlePaddle/book/blob/develop/image_classification/README.md
)
教程。
...
...
recognize_digits/image/conv_layer.png
查看替换文件 @
22ed2a01
浏览文件 @
9851e010
248.3 KB
|
W:
|
H:
571.4 KB
|
W:
|
H:
2-up
Swipe
Onion skin
recognize_digits/image/conv_layer_en.png
已删除
100755 → 0
浏览文件 @
22ed2a01
248.5 KB
recognize_digits/index.en.html
浏览文件 @
9851e010
...
...
@@ -112,7 +112,7 @@ Fig. 3. Multilayer Perceptron network architecture<br/>
#### Convolutional Layer
<p
align=
"center"
>
<img
src=
"image/conv_layer
_en.png"
width=
500
><br/>
<img
src=
"image/conv_layer
.png"
width=
'750'
><br/>
Fig. 4. Convolutional layer
<br/>
</p>
...
...
recognize_digits/index.html
浏览文件 @
9851e010
...
...
@@ -109,11 +109,11 @@ Softmax回归模型采用了最简单的两层神经网络,即只有输入层
### 卷积神经网络(Convolutional Neural Network, CNN)
在多层感知器模型中,将图像展开成一维向量输入到网络中,忽略了图像的位置和结构信息,而卷积神经网络能够更好的利用图像的结构信息。[LeNet-5](http://yann.lecun.com/exdb/lenet/)是一个较简单的卷积神经网络。图
6
显示了其结构:输入的二维图像,先经过两次卷积层到池化层,再经过全连接层,最后使用softmax分类作为输出层。下面我们主要介绍卷积层和池化层。
在多层感知器模型中,将图像展开成一维向量输入到网络中,忽略了图像的位置和结构信息,而卷积神经网络能够更好的利用图像的结构信息。[LeNet-5](http://yann.lecun.com/exdb/lenet/)是一个较简单的卷积神经网络。图
4
显示了其结构:输入的二维图像,先经过两次卷积层到池化层,再经过全连接层,最后使用softmax分类作为输出层。下面我们主要介绍卷积层和池化层。
<p
align=
"center"
>
<img
src=
"image/cnn.png"
><br/>
图
6
. LeNet-5卷积神经网络结构
<br/>
图
4
. LeNet-5卷积神经网络结构
<br/>
</p>
#### 卷积层
...
...
@@ -121,17 +121,11 @@ Softmax回归模型采用了最简单的两层神经网络,即只有输入层
卷积层是卷积神经网络的核心基石。在图像识别里我们提到的卷积是二维卷积,即离散二维滤波器(也称作卷积核)与二维图像做卷积操作,简单的讲是二维滤波器滑动到二维图像上所有位置,并在每个位置上与该像素点及其领域像素点做内积。卷积操作被广泛应用与图像处理领域,不同卷积核可以提取不同的特征,例如边沿、线性、角等特征。在深层卷积神经网络中,通过卷积操作可以提取出图像低级到复杂的特征。
<p
align=
"center"
>
<img
src=
"image/conv_layer.png"
><br/>
图
4
. 卷积层图片
<br/>
<img
src=
"image/conv_layer.png"
width=
'750'
><br/>
图
5
. 卷积层图片
<br/>
</p>
图4给出一个卷积计算过程的示例图,输入图像大小为$H=5,W=5,D=3$,即$5 \times 5$大小的3通道(RGB,也称作深度)彩色图像。这个示例图中包含两(用$K$表示)组卷积核,即图中滤波器$W_0$和$W_1$。在卷积计算中,通常对不同的输入通道采用不同的卷积核,如图示例中每组卷积核包含($D=3)$个$3 \times 3$(用$F \times F$表示)大小的卷积核。另外,这个示例中卷积核在图像的水平方向($W$方向)和垂直方向($H$方向)的滑动步长为2(用$S$表示);对输入图像周围各填充1(用$P$表示)个0,即图中输入层原始数据为蓝色部分,灰色部分是进行了大小为1的扩展,用0来进行扩展。经过卷积操作得到输出为$3 \times 3 \times 2$(用$H_{o} \times W_{o} \times K$表示)大小的特征图,即$3 \times 3$大小的2通道特征图,其中$H_o$计算公式为:$H_o = (H - F + 2 \times P)/S + 1$,$W_o$同理。 而输出特征图中的每个像素,是每组滤波器与输入图像每个特征图的内积再求和,再加上偏置$b_o$,偏置通常对于每个输出特征图是共享的。例如图中输出特征图$o[:,:,0]$中的第一个$2$计算如下:
$$ o[0,0,0] = \sum x[0:3,0:3,0] * w_{0}[:,:,0]] + \sum x[0:3,0:3,1] * w_{0}[:,:,1]] + \sum x[0:3,0:3,2] * w_{0}[:,:,2]] + b_0 = 2 $$
$$ \sum x[0:3,0:3,0] * w_{0}[:,:,0]] = 0*1 + 0*1 + 0*1 + 0*1 + 1*1 + 2*(-1) + 0*(-1) + 0*1 + 0*(-1) = -1 $$
$$ \sum x[0:3,0:3,1] * w_{0}[:,:,1]] = 0*0 + 0*1 + 0*1 + 0*(-1) + 0*0 + 1*1 + 0*1 + 2*0 + 1*1 = 2 $$
$$ \sum x[0:3,0:3,2] * w_{0}[:,:,2]] = 0*(-1) + 0*1 + 0*(-1) + 0*0 + 1*1 + 1*0 + 0*(-1) + 1*0 + 1*(-1) = 0 $$
$$ b_0 = 1 $$
图5给出一个卷积计算过程的示例图,输入图像大小为$H=5,W=5,D=3$,即$5 \times 5$大小的3通道(RGB,也称作深度)彩色图像。这个示例图中包含两(用$K$表示)组卷积核,即图中滤波器$W_0$和$W_1$。在卷积计算中,通常对不同的输入通道采用不同的卷积核,如图示例中每组卷积核包含($D=3)$个$3 \times 3$(用$F \times F$表示)大小的卷积核。另外,这个示例中卷积核在图像的水平方向($W$方向)和垂直方向($H$方向)的滑动步长为2(用$S$表示);对输入图像周围各填充1(用$P$表示)个0,即图中输入层原始数据为蓝色部分,灰色部分是进行了大小为1的扩展,用0来进行扩展。经过卷积操作得到输出为$3 \times 3 \times 2$(用$H_{o} \times W_{o} \times K$表示)大小的特征图,即$3 \times 3$大小的2通道特征图,其中$H_o$计算公式为:$H_o = (H - F + 2 \times P)/S + 1$,$W_o$同理。 而输出特征图中的每个像素,是每组滤波器与输入图像每个特征图的内积再求和,再加上偏置$b_o$,偏置通常对于每个输出特征图是共享的。输出特征图$o[:,:,0]$中的最后一个$-2$计算如图5右下角公式所示。
在卷积操作中卷积核是可学习的参数,经过上面示例介绍,每层卷积的参数大小为$D \times F \times F \times K$。在多层感知器模型中,神经元通常是全部连接,参数较多。而卷积层的参数较少,这也是由卷积层的主要特性即局部连接和共享权重所决定。
...
...
@@ -145,10 +139,10 @@ $$ b_0 = 1 $$
<p
align=
"center"
>
<img
src=
"image/max_pooling.png"
width=
"400px"
><br/>
图
5
. 池化层图片
<br/>
图
6
. 池化层图片
<br/>
</p>
池化是非线性下采样的一种形式,主要作用是通过减少网络的参数来减小计算量,并且能够在一定程度上控制过拟合。通常在卷积层的后面会加上一个池化层。池化包括最大池化、平均池化等。其中最大池化是用不重叠的矩形框将输入层分成不同的区域,对于每个矩形框的数取最大值作为输出层,如图
5
所示。
池化是非线性下采样的一种形式,主要作用是通过减少网络的参数来减小计算量,并且能够在一定程度上控制过拟合。通常在卷积层的后面会加上一个池化层。池化包括最大池化、平均池化等。其中最大池化是用不重叠的矩形框将输入层分成不同的区域,对于每个矩形框的数取最大值作为输出层,如图
6
所示。
更详细的关于卷积神经网络的具体知识可以参考[斯坦福大学公开课]( http://cs231n.github.io/convolutional-networks/ )和[图像分类](https://github.com/PaddlePaddle/book/blob/develop/image_classification/README.md)教程。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录