Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
d2l-zh
提交
d8ff778b
D
d2l-zh
项目概览
OpenDocCN
/
d2l-zh
通知
2
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
d2l-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
d8ff778b
编写于
4月 06, 2018
作者:
A
Aston Zhang
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
wrap code
上级
31dd2c58
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
10 addition
and
8 deletion
+10
-8
chapter_optimization/adadelta-scratch.md
chapter_optimization/adadelta-scratch.md
+2
-1
chapter_optimization/adam-gluon.md
chapter_optimization/adam-gluon.md
+8
-7
未找到文件。
chapter_optimization/adadelta-scratch.md
浏览文件 @
d8ff778b
...
...
@@ -36,7 +36,8 @@ def adadelta(params, sqrs, deltas, rho, batch_size):
for param, sqr, delta in zip(params, sqrs, deltas):
g = param.grad / batch_size
sqr[:] = rho * sqr + (1. - rho) * nd.square(g)
cur_delta = nd.sqrt(delta + eps_stable) / nd.sqrt(sqr + eps_stable) * g
cur_delta = (nd.sqrt(delta + eps_stable)
/ nd.sqrt(sqr + eps_stable) * g)
delta[:] = rho * delta + (1. - rho) * cur_delta * cur_delta
param[:] -= cur_delta
```
...
...
chapter_optimization/adam-gluon.md
浏览文件 @
d8ff778b
...
...
@@ -54,7 +54,14 @@ utils.optimize(batch_size=10, trainer=trainer, num_epochs=3, decay_epoch=None,
*
回顾前面几章中你感兴趣的模型,将训练部分的优化算法替换成其他算法,观察并分析实验现象。
## 优化章节回顾
## 讨论
欢迎扫码直达
[
本节内容讨论区
](
https://discuss.gluon.ai/t/topic/2280
)
:
![](
../img/qr_adam-gluon.svg
)
## 本章回顾
> 梯度下降可沉甸, 随机降低方差难。
...
...
@@ -73,9 +80,3 @@ utils.optimize(batch_size=10, trainer=trainer, num_epochs=3, decay_epoch=None,
*
学率:学习率。
*
换:这个参数被替换掉。
*
权:指数加权移动平均。
## 讨论
欢迎扫码直达
[
本节内容讨论区
](
https://discuss.gluon.ai/t/topic/2280
)
:
![](
../img/qr_adam-gluon.svg
)
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录