diff --git a/README.md b/README.md index 0daed10ed33eb7904feb31ec4ec1cb53411e8e97..2f7b6d3c467c5615968bda552e85e5a77dbe9007 100644 --- a/README.md +++ b/README.md @@ -177,6 +177,7 @@ pipeline,流水线 size,大小 +transformation,变换 ## 样式规范 diff --git a/chapter_crashcourse/ndarray.md b/chapter_crashcourse/ndarray.md index 5faf6ed2c337096a7be1a823c92688ded29e47db..eb17315ef552169acd78c761a15eada05a67c498 100644 --- a/chapter_crashcourse/ndarray.md +++ b/chapter_crashcourse/ndarray.md @@ -2,7 +2,7 @@ 在深度学习中,我们通常会频繁地对数据进行操作。作为动手学深度学习的基础,本节将介绍如何对内存中的数据进行操作。 -在MXNet中,NDArray是存储和转换数据的主要工具。如果你之前用过NumPy,你会发现NDArray和NumPy的多维数组非常类似。然而,NDArray提供更多的功能,例如CPU和GPU的异步计算,以及自动求导。这些都使得NDArray更加适合深度学习。 +在MXNet中,NDArray是存储和变换数据的主要工具。如果你之前用过NumPy,你会发现NDArray和NumPy的多维数组非常类似。然而,NDArray提供更多的功能,例如CPU和GPU的异步计算,以及自动求导。这些都使得NDArray更加适合深度学习。 ## 创建NDArray @@ -196,22 +196,22 @@ x[1:2, 1:3] = 10 x ``` -## NDArray和NumPy相互转换 +## NDArray和NumPy相互变换 我们可以通过`array`和`asnumpy`函数令数据在NDArray和Numpy格式之间相互转换。以下是一个例子。 ```{.python .input n=22} import numpy as np x = np.ones((2, 3)) -y = nd.array(x) # NumPy转换成NDArray。 -z = y.asnumpy() # NDArray转换成NumPy。 +y = nd.array(x) # NumPy变换成NDArray。 +z = y.asnumpy() # NDArray变换成NumPy。 z, y ``` ## 小结 -* NDArray是MXNet中存储和转换数据的主要工具。 -* 我们可以轻松地对NDArray进行创建、运算、指定索引和与NumPy之间的相互转换。 +* NDArray是MXNet中存储和变换数据的主要工具。 +* 我们可以轻松地对NDArray进行创建、运算、指定索引和与NumPy之间的相互变换。 ## 练习 diff --git a/chapter_supervised-learning/multi-layer.md b/chapter_supervised-learning/multi-layer.md index 26ed8db84506e3027f5f3a9c574d9090914013e8..bac70817cad4594f3b41629537de41f7d083553e 100644 --- a/chapter_supervised-learning/multi-layer.md +++ b/chapter_supervised-learning/multi-layer.md @@ -14,7 +14,7 @@ 在图3.3的多层感知机中,输入和输出个数分别为4和3,中间的隐藏层中包含了5个隐藏单元(hidden unit)。由于输入层不涉及计算,图3.3中的多层感知机的层数为2。由图3.3可见,隐藏层中的神经元和输入层中各个输入完全连接,输出层中的神经元和隐藏层中的各个神经元也完全连接。因此,多层感知机中的隐藏层和输出层都是全连接层。 -## 线性转换 +## 仿射变换 在描述隐藏层的计算之前,让我们看看多层感知机输出层是怎样计算的。它的计算和之前介绍的单层神经网络的输出层的计算类似:只是输出层的输入变成了隐藏层的输出。我们通常将隐藏层的输出称为隐藏层变量或隐藏变量。 @@ -24,22 +24,23 @@ $$ \boldsymbol{O} = \boldsymbol{H} \boldsymbol{W}_o + \boldsymbol{b}_o, $$ -其中的加法运算使用了广播机制,$\boldsymbol{O} \in \mathbb{R}^{n \times y}$。可见,多层感知机的输出$\boldsymbol{O}$是对上一层的输出$\boldsymbol{H}$的线性转换。 +其中的加法运算使用了广播机制,$\boldsymbol{O} \in \mathbb{R}^{n \times y}$。实际上,多层感知机的输出$\boldsymbol{O}$是对上一层的输出$\boldsymbol{H}$的仿射变换(affine transformation)。它包括一次通过乘以权重参数的线性变换和一次通过加上偏差参数的平移。 -那么,如果隐藏层也对输入做线性转换会怎么样呢?为了便于描述这一问题,让我们暂时忽略每一层的偏差参数。设批量特征为$\boldsymbol{X} \in \mathbb{R}^{n \times x}$,隐藏层的权重参数$\boldsymbol{W}_h \in \mathbb{R}^{x \times h}$。假设$\boldsymbol{H} = \boldsymbol{X} \boldsymbol{W}_h$且$\boldsymbol{O} = \boldsymbol{H} \boldsymbol{W}_o$,联立两式可得$\boldsymbol{O} = \boldsymbol{X} \boldsymbol{W}_h \boldsymbol{W}_o$:它等价于$\boldsymbol{O} = \boldsymbol{X} \boldsymbol{W}^\prime$,其中$\boldsymbol{W}^\prime = \boldsymbol{W}_h \boldsymbol{W}_o$。因此,使用线性转换的隐藏层使多层感知机与前面介绍的单层神经网络没什么区别。 +那么,如果隐藏层也只对输入做仿射变换会怎么样呢?设单个样本的特征为$\boldsymbol{x} \in \mathbb{R}^{1 \times x}$,隐藏层的权重参数和偏差参数分别为$\boldsymbol{W}_h \in \mathbb{R}^{x \times h}, \boldsymbol{b}_h \in \mathbb{R}^{1 \times h}$。 +假设$\boldsymbol{h} = \boldsymbol{x} \boldsymbol{W}_h + \boldsymbol{b}_h$且$\boldsymbol{o} = \boldsymbol{h} \boldsymbol{W}_o + \boldsymbol{b}_o$,联立两式可得$\boldsymbol{o} = \boldsymbol{x} \boldsymbol{W}_h \boldsymbol{W}_o + \boldsymbol{b}_h \boldsymbol{W}_o + \boldsymbol{b}_o$:它等价于单层神经网络的输出$\boldsymbol{o} = \boldsymbol{x} \boldsymbol{W}^\prime + \boldsymbol{b}^\prime$,其中$\boldsymbol{W}^\prime = \boldsymbol{W}_h \boldsymbol{W}_o, \boldsymbol{b}^\prime = \boldsymbol{b}_h \boldsymbol{W}_o + \boldsymbol{b}_o$。因此,仅使用仿射变换的隐藏层使多层感知机与前面介绍的单层神经网络没什么区别。 ## 激活函数 -由上面的例子可以看出,我们必须在隐藏层中添加非线性转换,这样才能使多层感知机变得有意义。我们将这些非线性转换称为激活函数(activation function)。激活函数能对任意形状的输入按元素操作且不改变输入的形状。以下列举了三种常用的激活函数。 +由上面的例子可以看出,我们必须在隐藏层中使用其他变换,例如添加非线性变换,这样才能使多层感知机变得有意义。我们将这些非线性变换称为激活函数(activation function)。激活函数能对任意形状的输入按元素操作且不改变输入的形状。以下列举了三种常用的激活函数。 ### ReLU函数 -ReLU(rectified linear unit)函数提供了一个很简单的非线性转换。给定元素$x$,该函数的输出是 +ReLU(rectified linear unit)函数提供了一个很简单的非线性变换。给定元素$x$,该函数的输出是 $$\text{relu}(x) = \max(x, 0).$$ -ReLU函数只保留正数元素,并将负数元素清零。为了直观地观察这一非线性转换,让我们先导入一些包或模块。 +ReLU函数只保留正数元素,并将负数元素清零。为了直观地观察这一非线性变换,让我们先导入一些包或模块。 ```{.python .input n=1} %matplotlib inline @@ -51,7 +52,7 @@ import matplotlib.pyplot as plt from mxnet import nd ``` -下面,让我们绘制ReLU函数。当元素值非负时,ReLU函数实际上在做线性转换。 +下面,让我们绘制ReLU函数。当元素值非负时,ReLU函数实际上在做线性变换。 ```{.python .input n=2} gb.set_fig_size(mpl) @@ -63,33 +64,15 @@ plt.ylabel('relu(x)') plt.show() ``` -```{.json .output n=2} -[ - { - "data": { - "image/png": "\n", - "text/plain": "
" - }, - "metadata": { - "image/png": { - "height": 182, - "width": 238 - } - }, - "output_type": "display_data" - } -] -``` - ### Sigmoid函数 -Sigmoid函数可以将元素的值转换到0和1之间: +Sigmoid函数可以将元素的值变换到0和1之间: $$\text{sigmoid}(x) = \frac{1}{1 + \exp(-x)}.$$ 我们会在后面“循环神经网络”一章中介绍如何利用sigmoid函数值域在0到1之间这一特性来控制信息在神经网络中的流动。 -下面绘制了sigmoid函数。当元素值接近0时,sigmoid函数接近线性转换。 +下面绘制了sigmoid函数。当元素值接近0时,sigmoid函数接近线性变换。 ```{.python .input n=3} plt.plot(x.asnumpy(), x.sigmoid().asnumpy()) @@ -98,31 +81,13 @@ plt.ylabel('sigmoid(x)') plt.show() ``` -```{.json .output n=3} -[ - { - "data": { - "image/png": "\n", - "text/plain": "
" - }, - "metadata": { - "image/png": { - "height": 182, - "width": 247 - } - }, - "output_type": "display_data" - } -] -``` - ### Tanh函数 -Tanh(双曲正切)函数可以将元素的值转换到-1和1之间: +Tanh(双曲正切)函数可以将元素的值变换到-1和1之间: $$\text{tanh}(x) = \frac{1 - \exp(-2x)}{1 + \exp(-2x)}.$$ -下面绘制了tanh函数。当元素值接近0时,tanh函数接近线性转换。值得一提的是,它的形状和sigmoid函数很像,且当元素在实数域上均匀分布时,tanh函数值的均值为0。 +下面绘制了tanh函数。当元素值接近0时,tanh函数接近线性变换。值得一提的是,它的形状和sigmoid函数很像,且当元素在实数域上均匀分布时,tanh函数值的均值为0。 ```{.python .input n=4} plt.plot(x.asnumpy(), x.tanh().asnumpy()) @@ -131,44 +96,13 @@ plt.ylabel('tanh(x)') plt.show() ``` -```{.json .output n=4} -[ - { - "data": { - "image/png": "\n", - "text/plain": "
" - }, - "metadata": { - "image/png": { - "height": 182, - "width": 256 - } - }, - "output_type": "display_data" - } -] -``` - -下面,我们使用三种激活函数来转换输入。按元素操作后,输入和输出形状相同。 +下面,我们使用三种激活函数来变换输入。按元素操作后,输入和输出形状相同。 ```{.python .input n=5} X = nd.array([[[0,1], [-2,3], [4,-5]], [[6,-7], [8,-9], [10,-11]]]) X.relu(), X.sigmoid(), X.tanh() ``` -```{.json .output n=5} -[ - { - "data": { - "text/plain": "(\n [[[ 0. 1.]\n [ 0. 3.]\n [ 4. 0.]]\n \n [[ 6. 0.]\n [ 8. 0.]\n [10. 0.]]]\n , \n [[[5.0000000e-01 7.3105860e-01]\n [1.1920292e-01 9.5257413e-01]\n [9.8201376e-01 6.6928510e-03]]\n \n [[9.9752742e-01 9.1105117e-04]\n [9.9966466e-01 1.2339458e-04]\n [9.9995458e-01 1.6701422e-05]]]\n , \n [[[ 0. 0.7615942 ]\n [-0.9640276 0.9950548 ]\n [ 0.9993293 -0.9999092 ]]\n \n [[ 0.9999877 -0.99999833]\n [ 0.99999976 -0.99999994]\n [ 1. -1. ]]]\n )" - }, - "execution_count": 5, - "metadata": {}, - "output_type": "execute_result" - } -] -``` - ## 多层感知机 现在,我们可以给出多层感知机的矢量计算表达式了。 @@ -224,7 +158,7 @@ $$U(-\sqrt{\frac{6}{a+b}}, \sqrt{\frac{6}{a+b}}).$$ ## 小结 -* 多层感知机本质上是对输入做一系列线性和非线性的转换。 +* 多层感知机对输入做了一系列的线性和非线性的变换。 * 常用的激活函数包括ReLU函数、sigmoid函数和tanh函数。 * 我们需要随机初始化神经网络的模型参数。