提交 27e29b54 编写于 作者: D dengkaipeng

shrink image and adjust doc

上级 2d93e595
......@@ -4,10 +4,10 @@
学习率调度器
############
当我们使用诸如梯度下降法等方式来训练模型时,一般会兼顾训练速度和损失(loss)选择相对合适的学习率,但若在训练过程中一直使用一个学习率的话,训练集的损失下降到一定程度后就会不在继续下降了,而是在一定范围内震荡。其震荡原理如下图所示,即当损失函数收敛到局部极小值附近时,会由于学习率过大而导致更新步幅过大而越过极小值而出现震荡。
当我们使用诸如梯度下降法等方式来训练模型时,一般会兼顾训练速度和损失(loss)来选择相对合适的学习率。但若在训练过程中一直使用一个学习率的话,训练集的损失下降到一定程度后就会不在继续下降了,而是在一定范围内震荡。其震荡原理如下图所示,即当损失函数收敛到局部极小值附近时,会由于学习率过大导致更新步幅过大,每步参数更新会反复越过极小值而出现震荡。
.. image:: ../../../../images/learning_rate_scheduler.png
:scale: 50 %
:scale: 80 %
:align: center
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册