提交 d8ff778b 编写于 作者: A Aston Zhang

wrap code

上级 31dd2c58
......@@ -36,7 +36,8 @@ def adadelta(params, sqrs, deltas, rho, batch_size):
for param, sqr, delta in zip(params, sqrs, deltas):
g = param.grad / batch_size
sqr[:] = rho * sqr + (1. - rho) * nd.square(g)
cur_delta = nd.sqrt(delta + eps_stable) / nd.sqrt(sqr + eps_stable) * g
cur_delta = (nd.sqrt(delta + eps_stable)
/ nd.sqrt(sqr + eps_stable) * g)
delta[:] = rho * delta + (1. - rho) * cur_delta * cur_delta
param[:] -= cur_delta
```
......
......@@ -54,7 +54,14 @@ utils.optimize(batch_size=10, trainer=trainer, num_epochs=3, decay_epoch=None,
* 回顾前面几章中你感兴趣的模型,将训练部分的优化算法替换成其他算法,观察并分析实验现象。
## 优化章节回顾
## 讨论
欢迎扫码直达[本节内容讨论区](https://discuss.gluon.ai/t/topic/2280)
![](../img/qr_adam-gluon.svg)
## 本章回顾
> 梯度下降可沉甸, 随机降低方差难。
......@@ -73,9 +80,3 @@ utils.optimize(batch_size=10, trainer=trainer, num_epochs=3, decay_epoch=None,
* 学率:学习率。
* 换:这个参数被替换掉。
* 权:指数加权移动平均。
## 讨论
欢迎扫码直达[本节内容讨论区](https://discuss.gluon.ai/t/topic/2280)
![](../img/qr_adam-gluon.svg)
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册