diff --git a/doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst b/doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst index 7e2a8466798ec213833add656e0d65aff65b4442..c617c44958a2f597f4ba3c20f182c6c5dd3e9ad3 100644 --- a/doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst +++ b/doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst @@ -4,7 +4,7 @@ 学习率调度器 ############ -当我们使用诸如梯度下降法等方式来训练模型时,一般会兼顾训练速度和损失(loss)来选择相对合适的学习率。但若在训练过程中一直使用一个学习率的话,训练集的损失下降到一定程度后就会不在继续下降了,而是在一定范围内震荡。其震荡原理如下图所示,即当损失函数收敛到局部极小值附近时,会由于学习率过大导致更新步幅过大,每步参数更新会反复越过极小值而出现震荡。 +当我们使用诸如梯度下降法等方式来训练模型时,一般会兼顾训练速度和损失(loss)来选择相对合适的学习率。但若在训练过程中一直使用一个学习率,训练集的损失下降到一定程度后便不再继续下降,而是在一定范围内震荡。其震荡原理如下图所示,即当损失函数收敛到局部极小值附近时,会由于学习率过大导致更新步幅过大,每步参数更新会反复越过极小值而出现震荡。 .. image:: ../../../../images/learning_rate_scheduler.png :scale: 80 % @@ -13,7 +13,7 @@ 学习率调度器定义了常用的学习率衰减策略来动态生成学习率,学习率衰减函数以epoch或step为参数,返回一个随训练逐渐减小的学习率,从而兼顾降低训练时间和在局部极小值能更好寻优两个方面。 -下面介绍学习率调度器中相关的Api。 +下面介绍学习率调度器中相关的Api: ====== @@ -29,7 +29,7 @@ * :code:`inverse_time_decay`: 逆时间衰减,即得到的学习率与当前衰减次数成反比。 相关API Reference请参考 :ref:`api_fluid_layers_inverse_time_decay` -* :code:`polynomial_decay`: 多项式衰减,即得到的学习率为初始学习率和给定最终学习之间由多项式计算权重定比分点的插值 +* :code:`polynomial_decay`: 多项式衰减,即得到的学习率为初始学习率和给定最终学习之间由多项式计算权重定比分点的插值。 相关API Reference请参考 :ref:`api_fluid_layers_polynomial_decay` * :code:`piecewise_decay`: 分段衰减,即由给定step数分段呈阶梯状衰减,每段内学习率相同。