提交 c72b0c3d 编写于 作者: A Aston Zhang

assignment with leftarrow

上级 9f716a48
......@@ -59,7 +59,7 @@ $$D_{\boldsymbol{u}} f(\boldsymbol{x}) = \nabla f(\boldsymbol{x}) \cdot \boldsym
由于$D_{\boldsymbol{u}} f(\boldsymbol{x}) = \|\nabla f(\boldsymbol{x})\| \cdot \|\boldsymbol{u}\| \cdot \text{cos} (\theta) = \|\nabla f(\boldsymbol{x})\| \cdot \text{cos} (\theta)$,
其中$\theta$为梯度$\nabla f(\boldsymbol{x})$和单位向量$\boldsymbol{u}$之间的夹角,当$\theta = \pi$,$\text{cos}(\theta)$取得最小值-1。因此,当$\boldsymbol{u}$在梯度方向$\nabla f(\boldsymbol{x})$的相反方向时,方向导数$D_{\boldsymbol{u}} f(\boldsymbol{x})$被最小化。所以,我们可能通过下面的梯度下降算法来不断降低目标函数$f$的值:
$$\boldsymbol{x} := \boldsymbol{x} - \eta \nabla f(\boldsymbol{x}).$$
$$\boldsymbol{x} \leftarrow \boldsymbol{x} - \eta \nabla f(\boldsymbol{x}).$$
相同地,其中$\eta$(取正数)称作学习率。
......@@ -75,7 +75,7 @@ $$\nabla f(\boldsymbol{x}) = \frac{1}{n} \sum_{i = 1}^n \nabla f_i(\boldsymbol{x
梯度下降每次迭代的计算开销随着$n$线性增长。因此,当训练数据样本数很大时,梯度下降每次迭代的计算开销很高。这时我们可以使用随机梯度下降。给定学习率$\eta$(取正数),在每次迭代时,随机梯度下降算法随机均匀采样$i$并计算$\nabla f_i(\boldsymbol{x})$来迭代$\boldsymbol{x}$:
$$\boldsymbol{x} := \boldsymbol{x} - \eta \nabla f_i(\boldsymbol{x}).$$
$$\boldsymbol{x} \leftarrow \boldsymbol{x} - \eta \nabla f_i(\boldsymbol{x}).$$
事实上,随机梯度$\nabla f_i(\boldsymbol{x})$是对梯度$\nabla f(\boldsymbol{x})$的无偏估计:
......@@ -91,7 +91,7 @@ $$\nabla f_\mathcal{B}(\boldsymbol{x}) = \frac{1}{|\mathcal{B}|} \sum_{i \in \ma
来迭代$\boldsymbol{x}$:
$$\boldsymbol{x} := \boldsymbol{x} - \eta \nabla f_\mathcal{B}(\boldsymbol{x}).$$
$$\boldsymbol{x} \leftarrow \boldsymbol{x} - \eta \nabla f_\mathcal{B}(\boldsymbol{x}).$$
在上式中,$|\mathcal{B}|$代表样本批量大小,$\eta$(取正数)称作学习率。同样,小批量随机梯度$\nabla f_\mathcal{B}(\boldsymbol{x})$也是对梯度$\nabla f(\boldsymbol{x})$的无偏估计:
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册