diff --git a/recognize_digits/README.md b/recognize_digits/README.md index eba6877ac2feb82fe6b747115c45d9c95b552a6d..5d5ca8b9085984f4833950c7a10c8be0aada89b5 100644 --- a/recognize_digits/README.md +++ b/recognize_digits/README.md @@ -23,9 +23,9 @@ Yann LeCun早先在手写字符识别上做了很多研究,并在研究过程 这是一个分类问题,基于MNIST数据,我们希望训练一个分类器 $f$。输入为MNIST数据库的图片, $28\times28$ 的二维图像,为了进行计算,我们一般将上将 $28\times28$ 的二维图像转化为 $n(n=784)$ 维的向量,因此我们采用$x_i(i=0,1,2,...,n-1)$(向量表示为$X$)来表示输入的图片数据。对于每张给定的图片数据 $X$,我们采用$ y_i (i=0,1,2,..9)$(向量表示为 $Y$来表示预测的输出,预测结果为 $ Y = f(X) $。然后,我们用 $label_i$ (向量表示为$L$)来代表标签,则预测结果 $Y$ 应该尽可能准确的接近真实标签 $L$。 -$Y$和$L$具体含义为:比如说,$y_i$组成的向量$Y$为[0.2,0.3,0,1,0,0.1,0.1,0.1,0.1,0],每一维分别代表图像数字预测为0~9的概率;而此时$label_i$组成的向量$L$可能为[0,1,0,0,0,0,0,0,0,0],其代表标签为1,即输入$X$代表图片的数字为1。则$Y$和$L$尽可能接近的意思是$Y$中概率最大的一维为$L$中对应的标签,并且概率越大则代表越接近。 +$Y$和$L$具体含义为:比如说,$y_i$组成的向量$Y$为[0.2,0.3,0,1,0,0.1,0.1,0.1,0.1,0],每一维$y_i$分别代表图像数字预测为第$i$类的概率($i\in[0,9]$);而图像的真实标签$L$由$label_i$表示,其中只有一维为1,其他为0,如[0,1,0,0,0,0,0,0,0,0],其代表标签为第二类,即标签为0到9中的1。则$Y$和$L$尽可能接近的意思是$Y$中概率最大的一维为$L$中对应的标签,并且概率越大则代表越接近。 -下面我们一一介绍本章中使用的三个分类器Softmax回归、多层感知器、卷积神经网络。 +下面我们一一介绍本章中使用的三个基本图像分类网络Softmax回归、多层感知器、卷积神经网络。 ### Softmax回归(Softmax Regression) @@ -46,11 +46,11 @@ $$ y_i = softmax(\sum_j W_{i,j}x_j + b_i) $$ 图2. softmax回归网络结构图

-神经网络的训练采用 `backpropagation` 的形式,其一般会定义一个损失函数(也称目标函数),训练的目的是为了减小目标函数的值。在分类问题中,我们一般采用交叉熵代价损失函数(cross entropy),其形式如下: +神经网络一般会定义一个损失函数(也称目标函数),训练的过程是通过改变网络参数来最小化这个损失函数,此过程可以采用`backpropagation`算法。在分类问题中,我们一般采用交叉熵代价损失函数(cross entropy),其形式如下: $$ CE(label, y) = -\sum_i label_ilog(y_i) $$ -上面公式为softmax输出层的交叉熵代价损失函数,CE为cross entropy的简称,y是预测每一类的概率,label是标签。 +上面公式为softmax输出层的交叉熵代价损失函数,CE为cross entropy的简称,$y_i$是预测每一类的概率,$label_i$是标签。