Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
d2l-zh
提交
c72b0c3d
D
d2l-zh
项目概览
OpenDocCN
/
d2l-zh
通知
2
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
d2l-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
c72b0c3d
编写于
4月 05, 2018
作者:
A
Aston Zhang
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
assignment with leftarrow
上级
9f716a48
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
3 addition
and
3 deletion
+3
-3
chapter_optimization/gd-sgd-scratch.md
chapter_optimization/gd-sgd-scratch.md
+3
-3
未找到文件。
chapter_optimization/gd-sgd-scratch.md
浏览文件 @
c72b0c3d
...
@@ -59,7 +59,7 @@ $$D_{\boldsymbol{u}} f(\boldsymbol{x}) = \nabla f(\boldsymbol{x}) \cdot \boldsym
...
@@ -59,7 +59,7 @@ $$D_{\boldsymbol{u}} f(\boldsymbol{x}) = \nabla f(\boldsymbol{x}) \cdot \boldsym
由于$D_{
\b
oldsymbol{u}} f(
\b
oldsymbol{x}) =
\|\n
abla f(
\b
oldsymbol{x})
\|
\c
dot
\|\b
oldsymbol{u}
\|
\c
dot
\t
ext{cos} (
\t
heta) =
\|\n
abla f(
\b
oldsymbol{x})
\|
\c
dot
\t
ext{cos} (
\t
heta)$,
由于$D_{
\b
oldsymbol{u}} f(
\b
oldsymbol{x}) =
\|\n
abla f(
\b
oldsymbol{x})
\|
\c
dot
\|\b
oldsymbol{u}
\|
\c
dot
\t
ext{cos} (
\t
heta) =
\|\n
abla f(
\b
oldsymbol{x})
\|
\c
dot
\t
ext{cos} (
\t
heta)$,
其中$
\t
heta$为梯度$
\n
abla f(
\b
oldsymbol{x})$和单位向量$
\b
oldsymbol{u}$之间的夹角,当$
\t
heta =
\p
i$,$
\t
ext{cos}(
\t
heta)$取得最小值-1。因此,当$
\b
oldsymbol{u}$在梯度方向$
\n
abla f(
\b
oldsymbol{x})$的相反方向时,方向导数$D_{
\b
oldsymbol{u}} f(
\b
oldsymbol{x})$被最小化。所以,我们可能通过下面的梯度下降算法来不断降低目标函数$f$的值:
其中$
\t
heta$为梯度$
\n
abla f(
\b
oldsymbol{x})$和单位向量$
\b
oldsymbol{u}$之间的夹角,当$
\t
heta =
\p
i$,$
\t
ext{cos}(
\t
heta)$取得最小值-1。因此,当$
\b
oldsymbol{u}$在梯度方向$
\n
abla f(
\b
oldsymbol{x})$的相反方向时,方向导数$D_{
\b
oldsymbol{u}} f(
\b
oldsymbol{x})$被最小化。所以,我们可能通过下面的梯度下降算法来不断降低目标函数$f$的值:
$$
\b
oldsymbol{x}
:=
\b
oldsymbol{x} -
\e
ta
\n
abla f(
\b
oldsymbol{x}).$$
$$
\b
oldsymbol{x}
\l
eftarrow
\b
oldsymbol{x} -
\e
ta
\n
abla f(
\b
oldsymbol{x}).$$
相同地,其中$
\e
ta$(取正数)称作学习率。
相同地,其中$
\e
ta$(取正数)称作学习率。
...
@@ -75,7 +75,7 @@ $$\nabla f(\boldsymbol{x}) = \frac{1}{n} \sum_{i = 1}^n \nabla f_i(\boldsymbol{x
...
@@ -75,7 +75,7 @@ $$\nabla f(\boldsymbol{x}) = \frac{1}{n} \sum_{i = 1}^n \nabla f_i(\boldsymbol{x
梯度下降每次迭代的计算开销随着$n$线性增长。因此,当训练数据样本数很大时,梯度下降每次迭代的计算开销很高。这时我们可以使用随机梯度下降。给定学习率$
\e
ta$(取正数),在每次迭代时,随机梯度下降算法随机均匀采样$i$并计算$
\n
abla f_i(
\b
oldsymbol{x})$来迭代$
\b
oldsymbol{x}$:
梯度下降每次迭代的计算开销随着$n$线性增长。因此,当训练数据样本数很大时,梯度下降每次迭代的计算开销很高。这时我们可以使用随机梯度下降。给定学习率$
\e
ta$(取正数),在每次迭代时,随机梯度下降算法随机均匀采样$i$并计算$
\n
abla f_i(
\b
oldsymbol{x})$来迭代$
\b
oldsymbol{x}$:
$$
\b
oldsymbol{x}
:=
\b
oldsymbol{x} -
\e
ta
\n
abla f_i(
\b
oldsymbol{x}).$$
$$
\b
oldsymbol{x}
\l
eftarrow
\b
oldsymbol{x} -
\e
ta
\n
abla f_i(
\b
oldsymbol{x}).$$
事实上,随机梯度$
\n
abla f_i(
\b
oldsymbol{x})$是对梯度$
\n
abla f(
\b
oldsymbol{x})$的无偏估计:
事实上,随机梯度$
\n
abla f_i(
\b
oldsymbol{x})$是对梯度$
\n
abla f(
\b
oldsymbol{x})$的无偏估计:
...
@@ -91,7 +91,7 @@ $$\nabla f_\mathcal{B}(\boldsymbol{x}) = \frac{1}{|\mathcal{B}|} \sum_{i \in \ma
...
@@ -91,7 +91,7 @@ $$\nabla f_\mathcal{B}(\boldsymbol{x}) = \frac{1}{|\mathcal{B}|} \sum_{i \in \ma
来迭代$
\b
oldsymbol{x}$:
来迭代$
\b
oldsymbol{x}$:
$$
\b
oldsymbol{x}
:=
\b
oldsymbol{x} -
\e
ta
\n
abla f_
\m
athcal{B}(
\b
oldsymbol{x}).$$
$$
\b
oldsymbol{x}
\l
eftarrow
\b
oldsymbol{x} -
\e
ta
\n
abla f_
\m
athcal{B}(
\b
oldsymbol{x}).$$
在上式中,$|
\m
athcal{B}|$代表样本批量大小,$
\e
ta$(取正数)称作学习率。同样,小批量随机梯度$
\n
abla f_
\m
athcal{B}(
\b
oldsymbol{x})$也是对梯度$
\n
abla f(
\b
oldsymbol{x})$的无偏估计:
在上式中,$|
\m
athcal{B}|$代表样本批量大小,$
\e
ta$(取正数)称作学习率。同样,小批量随机梯度$
\n
abla f_
\m
athcal{B}(
\b
oldsymbol{x})$也是对梯度$
\n
abla f(
\b
oldsymbol{x})$的无偏估计:
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录