2pass wd

7767debd · Aston Zhang · 96354f13 · 7767debd
隐藏空白更改
内联并排

Showing with 37 addition and 37 deletion

chapter_deep-learning-basics/weight-decay.md chapter_deep-learning-basics/weight-decay.md +37 -37

未找到文件。
--- a/chapter_deep-learning-basics/weight-decay.md
+++ b/chapter_deep-learning-basics/weight-decay.md
 # 权重衰减

-上一节中我们观察了过拟合现象，即模型的训练误差远小于它在测试数据集上的误差。本节将介绍应对过拟合问题的常用方法：权重衰减。
+上一节中我们观察了过拟合现象，即模型的训练误差远小于它在测试集上的误差。虽然增大训练数据集可能会减轻过拟合，但是获取额外的训练数据往往代价高昂。本节介绍应对过拟合问题的常用方法：权重衰减（weight decay）。


 ## 方法

 权重衰减等价于$L_2$范数正则化。我们先描述$L_2$范数正则化，再解释它为何又称权重衰减。

-$L_2$范数正则化在模型原先损失函数基础上添加$L_2$范数惩罚项，从而得到训练所需要最小化的函数。$L_2$范数惩罚项指的是模型权重参数每个元素的平方和与一个超参数的乘积。以[“线性回归”](linear-regression.md)一节中线性回归的损失函数$\ell(w_1, w_2, b)$为例（$w_1, w_2$是权重参数，$b$是偏差参数），带有$L_2$范数惩罚项的新损失函数为
+$L_2$范数正则化在模型原损失函数基础上添加$L_2$范数惩罚项，从而得到训练所需要最小化的函数。$L_2$范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。以[“线性回归”](linear-regression.md)一节中的线性回归损失函数

-$$\ell(w_1, w_2, b) + \frac{\lambda}{2}\left(w_1^2 + w_2^2\right),$$
+$$\ell(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right)^2$$

-其中超参数$\lambda > 0$。当权重参数均为0时，惩罚项最小。当$\lambda$较大时，惩罚项在损失函数中的比重较大，这通常会使学到的权重参数的元素较接近0。当$\lambda$设为0时，惩罚项完全不起作用。
+为例，其中$w_1, w_2$是权重参数，$b$是偏差参数，样本$i$的输入为$x_1^{(i)}, x_2^{(i)}$，标签为$y^{(i)}$，样本数为$n$。将权重参数用向量$\boldsymbol{w} = [w_1, w_2]$表示，带有$L_2$范数惩罚项的新损失函数为

-有了$L_2$范数惩罚项后，在小批量随机梯度下降中，我们将[“线性回归”](linear-regression.md)一节中权重$w_1$和$w_2$的迭代方式更改为
+$$\ell(w_1, w_2, b) + \frac{\lambda}{2n} \|\boldsymbol{w}\|^2,$$
+
+其中超参数$\lambda > 0$。当权重参数均为0时，惩罚项最小。当$\lambda$较大时，惩罚项在损失函数中的比重较大，这通常会使学到的权重参数的元素较接近0。当$\lambda$设为0时，惩罚项完全不起作用。上式中$L_2$范数平方$\|\boldsymbol{w}\|^2$展开后得到$w_1^2 + w_2^2$。有了$L_2$范数惩罚项后，在小批量随机梯度下降中，我们将[“线性回归”](linear-regression.md)一节中权重$w_1$和$w_2$的迭代方式更改为

 $$
 \begin{aligned}
-w_1 &\leftarrow (1-\lambda)w_1 -   \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}x_1^{(i)} (x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}),\\
-w_2 &\leftarrow (1-\lambda)w_2 -   \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}x_2^{(i)} (x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}).
+w_1 &\leftarrow \left(1- \frac{\eta\lambda}{|\mathcal{B}|} \right)w_1 -   \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}x_1^{(i)} \left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right),\\
+w_2 &\leftarrow \left(1- \frac{\eta\lambda}{|\mathcal{B}|} \right)w_2 -   \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}}x_2^{(i)} \left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right).
 \end{aligned}
 $$

-可见，$L_2$范数正则化令权重$w_1$和$w_2$先乘以$1-\lambda$然后再减去没有惩罚项的梯度。在深度学习里，$\lambda$通常是小于1的正的常数，所以它也被称为权重衰减（weight decay）。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制，这可能对过拟合有效。实际场景中，我们有时也在惩罚项中添加偏差元素的平方和。
+可见，$L_2$范数正则化令权重$w_1$和$w_2$先自乘小于1的数，再减去不含惩罚项的梯度。因此，$L_2$范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制，这可能对过拟合有效。实际场景中，我们有时也在惩罚项中添加偏差元素的平方和。

 ## 高维线性回归实验

@@ -41,7 +43,7 @@ import gluonbook as gb
 from mxnet import autograd, gluon, init, nd
 from mxnet.gluon import data as gdata, loss as gloss, nn

-n_train, n_test, num_inputs,  = 20, 100, 200
+n_train, n_test, num_inputs = 20, 100, 200
 true_w, true_b = nd.ones((num_inputs, 1)) * 0.01, 0.05

 features = nd.random.normal(shape=(n_train + n_test, num_inputs))
@@ -51,9 +53,13 @@ train_features, test_features = features[:n_train, :], features[n_train:, :]
 train_labels, test_labels = labels[:n_train], labels[n_train:]
 ```

+## 权重衰减的从零开始实现
+
+下面先介绍从零开始实现权重衰减的方法。我们通过在目标函数后添加$L_2$范数惩罚项来实现权重衰减。
+
 ### 初始化模型参数

-接着，定义随机初始化模型参数的函数。该函数也给每个参数都附上梯度。
+首先，定义随机初始化模型参数的函数。该函数为每个参数都附上梯度。

 ```{.python .input  n=5}
 def init_params():
@@ -64,13 +70,9 @@ def init_params():
    return [w, b]
 ```

-## 权重衰减的从零开始实现
-
-这里我们通过在目标函数里加入$L_2$范数惩罚项来实现权重衰减。
-
 ### 定义$L_2$范数惩罚项

-下面定义$L_2$范数惩罚项，其数学表示为$\|\boldsymbol{w}\|_2^2$。这里只惩罚模型的权重参数。
+以下定义了$L_2$范数惩罚项。这里只惩罚模型的权重参数。

 ```{.python .input  n=6}
 def l2_penalty(w):
@@ -89,8 +91,7 @@ train_iter = gdata.DataLoader(gdata.ArrayDataset(

 def fit_and_plot(lambd):
    w, b = init_params()
-    train_ls = []
-    test_ls = []
+    train_ls, test_ls = [], []
    for _ in range(num_epochs):        
        for X, y in train_iter:
            with autograd.record():
@@ -109,7 +110,7 @@ def fit_and_plot(lambd):

 ### 观察过拟合

-接下来，让我们训练并测试高维线性回归模型。当`lambd`设为0时，我们没有使用权重衰减。结果训练误差远小于测试数据集上的误差。这是典型的过拟合现象。
+接下来，让我们训练并测试高维线性回归模型。当`lambd`设为0时，我们没有使用权重衰减。结果训练误差远小于测试集上的误差。这是典型的过拟合现象。

 ```{.python .input  n=8}
 fit_and_plot(lambd=0)
@@ -117,35 +118,34 @@ fit_and_plot(lambd=0)

 ### 使用权重衰减

-下面我们使用权重衰减。我们发现训练误差虽然有所提高，但测试数据集上的误差有所下降。过拟合现象得到一定程度上的缓解。另外，学到的权重参数的绝对值比不使用正则化时的权重参数更接近0。然而，即便是使用了正则化的模型依然没有学出较准确的模型参数。这主要是因为训练数据集的样本数相对维度来说太小。
+下面我们使用权重衰减。可以看出，训练误差虽然有所提高，但测试集上的误差有所下降。过拟合现象得到一定程度上的缓解。另外，权重参数的$L_2$范数比不使用权重衰减时的更小：此时的权重参数更接近0。

 ```{.python .input  n=9}
-fit_and_plot(lambd=5)
+fit_and_plot(lambd=3)
 ```

 ## 权重衰减的Gluon来实现

-这里我们直接在构造Trainer实例时通过`wd`参数来指定衰减值。默认我们会对权重和偏差同时作用权重衰减，这里可以通过分别对权重和偏差构造Trainer实例来使得只对权重进行衰减。
+这里我们直接在构造`Trainer`实例时通过`wd`参数来指定权重衰减超参数。默认下，Gluon会对权重和偏差同时衰减。我们可以分别对权重和偏差构造`Trainer`实例，从而只对权重衰减。

 ```{.python .input}
-def fit_and_plot_gluon(weight_decay):
+def fit_and_plot_gluon(wd):
    net = nn.Sequential()
    net.add(nn.Dense(1))
    net.initialize(init.Normal(sigma=1))
-    # 对权重参数做 L2 范数正则化，即权重衰减。权重名称一般是以 weight 结尾。
-    trainer_w = gluon.Trainer(net.collect_params('.*weight'), 'sgd', {
-        'learning_rate': lr, 'wd': weight_decay})
-    # 不对偏差参数做 L2 范数正则化。偏差名称一般是以 bias 结尾。
-    trainer_b = gluon.Trainer(net.collect_params('.*bias'), 'sgd', {
-        'learning_rate': lr})
-    train_ls = []
-    test_ls = []
+    # 对权重参数衰减。权重名称一般是以 weight 结尾。
+    trainer_w = gluon.Trainer(net.collect_params('.*weight'), 'sgd',
+                              {'learning_rate': lr, 'wd': wd})
+    # 不对偏差参数衰减。偏差名称一般是以 bias 结尾。
+    trainer_b = gluon.Trainer(net.collect_params('.*bias'), 'sgd',
+                              {'learning_rate': lr})
+    train_ls, test_ls = [], []
    for _ in range(num_epochs):
        for X, y in train_iter:
            with autograd.record():
                l = loss(net(X), y)
            l.backward()
-            # 对两个 Trainer 实例分别调用 step 函数。
+            # 对两个 Trainer 实例分别调用 step 函数，从而分别更新权重和偏差。
            trainer_w.step(batch_size)
            trainer_b.step(batch_size)
        train_ls.append(loss(net(train_features),
@@ -157,14 +157,14 @@ def fit_and_plot_gluon(weight_decay):
    print('L2 norm of w:', net[0].weight.data().norm().asscalar())    
 ```

-同上类似，使用权重衰减可以在一定程度上缓解过拟合问题。
+与从零开始实现权重衰减的实验现象类似，使用权重衰减可以在一定程度上缓解过拟合问题。

 ```{.python .input}
 fit_and_plot_gluon(0)
 ```

 ```{.python .input}
-fit_and_plot_gluon(5)
+fit_and_plot_gluon(3)
 ```

 ## 小结
@@ -172,14 +172,14 @@ fit_and_plot_gluon(5)
 * 我们可以使用权重衰减来应对过拟合问题。
 * 权重衰减通常会使学到的权重参数的元素较接近0。
 * 权重衰减等价于$L_2$范数正则化。
-* 权重衰减可以使用Gluon的`wd`超参数来指定。
-* 我们可以定义多个Trainer实例对不同的模型参数使用不同的迭代方法。
+* 权重衰减可以通过Gluon的`wd`超参数来指定。
+* 我们可以定义多个`Trainer`实例对不同的模型参数使用不同的迭代方法。

 ## 练习

-* 除了权重衰减、增大训练量以及使用复杂度合适的模型，你还能想到哪些办法可以应对过拟合现象？
+* 回顾一下训练误差和泛化误差的关系。除了权重衰减、增大训练量以及使用复杂度合适的模型，你还能想到哪些办法来应对过拟合？
 * 如果你了解贝叶斯统计，你觉得权重衰减对应贝叶斯统计里的哪个重要概念？
-* `fit_and_plot`中的`lambd`和`fit_and_plot_gluon`中的`weight_decay`是等价的吗？不是的话，它们的换算关系如何？
+* 调节实验中的权重衰减超参数，观察并分析实验结果。

 ## 扫码直达[讨论区](https://discuss.gluon.ai/t/topic/984)