diff --git a/doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst b/doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst index 43fe2fc2cd276b65c4d0a6d95291d247007709a4..7e2a8466798ec213833add656e0d65aff65b4442 100644 --- a/doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst +++ b/doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst @@ -4,10 +4,10 @@ 学习率调度器 ############ -当我们使用诸如梯度下降法等方式来训练模型时,一般会兼顾训练速度和损失(loss)选择相对合适的学习率,但若在训练过程中一直使用一个学习率的话,训练集的损失下降到一定程度后就会不在继续下降了,而是在一定范围内震荡。其震荡原理如下图所示,即当损失函数收敛到局部极小值附近时,会由于学习率过大而导致更新步幅过大而越过极小值而出现震荡。 +当我们使用诸如梯度下降法等方式来训练模型时,一般会兼顾训练速度和损失(loss)来选择相对合适的学习率。但若在训练过程中一直使用一个学习率的话,训练集的损失下降到一定程度后就会不在继续下降了,而是在一定范围内震荡。其震荡原理如下图所示,即当损失函数收敛到局部极小值附近时,会由于学习率过大导致更新步幅过大,每步参数更新会反复越过极小值而出现震荡。 .. image:: ../../../../images/learning_rate_scheduler.png - :scale: 50 % + :scale: 80 % :align: center diff --git a/doc/fluid/images/learning_rate_scheduler.png b/doc/fluid/images/learning_rate_scheduler.png index 2f8234f90e710b85cd4d3d364e43fa4fd8f7f7e5..75210095cdc3a25919a62d38d2ce93ca782a3123 100644 Binary files a/doc/fluid/images/learning_rate_scheduler.png and b/doc/fluid/images/learning_rate_scheduler.png differ