diff --git a/recognize_digits/README.md b/recognize_digits/README.md
index eba6877ac2feb82fe6b747115c45d9c95b552a6d..5d5ca8b9085984f4833950c7a10c8be0aada89b5 100644
--- a/recognize_digits/README.md
+++ b/recognize_digits/README.md
@@ -23,9 +23,9 @@ Yann LeCun早先在手写字符识别上做了很多研究，并在研究过程
 
 这是一个分类问题，基于MNIST数据，我们希望训练一个分类器 $f$。输入为MNIST数据库的图片， $28\times28$ 的二维图像，为了进行计算，我们一般将上将 $28\times28$ 的二维图像转化为 $n(n=784)$ 维的向量，因此我们采用$x_i(i=0,1,2,...,n-1)$(向量表示为$X$)来表示输入的图片数据。对于每张给定的图片数据 $X$，我们采用$ y_i (i=0,1,2,..9)$(向量表示为 $Y$来表示预测的输出，预测结果为 $ Y = f(X) $。然后，我们用 $label_i$ (向量表示为$L$)来代表标签，则预测结果 $Y$ 应该尽可能准确的接近真实标签 $L$。
 
-$Y$和$L$具体含义为：比如说，$y_i$组成的向量$Y$为[0.2,0.3,0,1,0,0.1,0.1,0.1,0.1,0]，每一维分别代表图像数字预测为0~9的概率；而此时$label_i$组成的向量$L$可能为[0,1,0,0,0,0,0,0,0,0]，其代表标签为1，即输入$X$代表图片的数字为1。则$Y$和$L$尽可能接近的意思是$Y$中概率最大的一维为$L$中对应的标签，并且概率越大则代表越接近。
+$Y$和$L$具体含义为：比如说，$y_i$组成的向量$Y$为[0.2,0.3,0,1,0,0.1,0.1,0.1,0.1,0]，每一维$y_i$分别代表图像数字预测为第$i$类的概率（$i\in[0,9]$）；而图像的真实标签$L$由$label_i$表示，其中只有一维为1，其他为0，如[0,1,0,0,0,0,0,0,0,0]，其代表标签为第二类，即标签为0到9中的1。则$Y$和$L$尽可能接近的意思是$Y$中概率最大的一维为$L$中对应的标签，并且概率越大则代表越接近。
 
-下面我们一一介绍本章中使用的三个分类器Softmax回归、多层感知器、卷积神经网络。
+下面我们一一介绍本章中使用的三个基本图像分类网络Softmax回归、多层感知器、卷积神经网络。
 
 
 ### Softmax回归(Softmax Regression)
@@ -46,11 +46,11 @@ $$ y_i = softmax(\sum_j W_{i,j}x_j + b_i) $$
 图2. softmax回归网络结构图<br/>
 </p>
 
-神经网络的训练采用 `backpropagation` 的形式，其一般会定义一个损失函数（也称目标函数），训练的目的是为了减小目标函数的值。在分类问题中，我们一般采用交叉熵代价损失函数(cross entropy)，其形式如下：
+神经网络一般会定义一个损失函数（也称目标函数），训练的过程是通过改变网络参数来最小化这个损失函数，此过程可以采用`backpropagation`算法。在分类问题中，我们一般采用交叉熵代价损失函数（cross entropy），其形式如下：
 
 $$  CE(label, y) = -\sum_i label_ilog(y_i) $$
 
-上面公式为softmax输出层的交叉熵代价损失函数，CE为cross entropy的简称，y是预测每一类的概率，label是标签。
+上面公式为softmax输出层的交叉熵代价损失函数，CE为cross entropy的简称，$y_i$是预测每一类的概率，$label_i$是标签。