Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
FluidDoc
提交
2d93e595
F
FluidDoc
项目概览
PaddlePaddle
/
FluidDoc
通知
5
Star
2
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
23
列表
看板
标记
里程碑
合并请求
111
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
F
FluidDoc
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
23
Issue
23
列表
看板
标记
里程碑
合并请求
111
合并请求
111
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
2d93e595
编写于
11月 15, 2018
作者:
D
dengkaipeng
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
fix image and link error
上级
d0d01f00
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
21 addition
and
18 deletion
+21
-18
doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst
...i/api_guides/low_level/layers/learning_rate_scheduler.rst
+21
-18
未找到文件。
doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst
浏览文件 @
2d93e595
..
api_guide_learning_rate_scheduler
..
_api_guide_learning_rate_scheduler:
######
######
######
学习率调度器
学习率调度器
#####
#####
#######
当我们使用诸如梯度下降法等方式来训练模型时,一般会兼顾训练速度和损失(loss)选择相对合适的学习率,但若在训练过程中一直使用一个学习率的话,训练集的损失下降到一定程度后就会不在继续下降了,而是在一定范围内震荡。其震荡原理如下图所示,即当损失函数收敛到局部极小值附近时,会由于学习率过大而导致更新步幅过大而越过极小值而出现震荡。
当我们使用诸如梯度下降法等方式来训练模型时,一般会兼顾训练速度和损失(loss)选择相对合适的学习率,但若在训练过程中一直使用一个学习率的话,训练集的损失下降到一定程度后就会不在继续下降了,而是在一定范围内震荡。其震荡原理如下图所示,即当损失函数收敛到局部极小值附近时,会由于学习率过大而导致更新步幅过大而越过极小值而出现震荡。
![梯度下降法在损失函数极小值时更新情况](../../../../images/learning_rate_scheduler.png)
.. image:: ../../../../images/learning_rate_scheduler.png
:scale: 50 %
:align: center
学习率调度器定义了常用的学习率衰减策略来动态生成学习率,学习率衰减函数以epoch或step为参数,返回一个随训练逐渐减小的学习率,从而兼顾降低训练时间和在局部极小值能更好寻优两个方面。
学习率调度器定义了常用的学习率衰减策略来动态生成学习率,学习率衰减函数以epoch或step为参数,返回一个随训练逐渐减小的学习率,从而兼顾降低训练时间和在局部极小值能更好寻优两个方面。
...
@@ -14,24 +17,24 @@
...
@@ -14,24 +17,24 @@
======
======
:code:`noam_decay`: 诺姆衰减,相关算法请参考[https://arxiv.org/pdf/1706.03762.pdf](Attention Is All You Need)
。
* :code:`noam_decay`: 诺姆衰减,相关算法请参考 `《Attention Is All You Need》 <https://arxiv.org/pdf/1706.03762.pdf>`_
。
相关API Reference请参考:ref`api_fluid_layer
_noam_decay`
相关API Reference请参考 :ref:`api_fluid_layers
_noam_decay`
:code:`exponential_decay`: 指数衰减,即每次将当前学习率乘以给定的衰减率得到下一个学习率。
*
:code:`exponential_decay`: 指数衰减,即每次将当前学习率乘以给定的衰减率得到下一个学习率。
相关API Reference请参考:ref`api_fluid_layer
_exponential_decay`
相关API Reference请参考 :ref:`api_fluid_layers
_exponential_decay`
:code:`natu
al_exp_decay`: 自然指数衰减,即每次将当前学习率乘以给定的衰减率的自然指数得到下一个学习率。
* :code:`natur
al_exp_decay`: 自然指数衰减,即每次将当前学习率乘以给定的衰减率的自然指数得到下一个学习率。
相关API Reference请参考:ref`api_fluid_layer_natu
al_exp_decay`
相关API Reference请参考 :ref:`api_fluid_layers_natur
al_exp_decay`
:code:`inverse_time_decay`: 逆时间衰减,即得到的学习率与当前衰减次数成反比。
*
:code:`inverse_time_decay`: 逆时间衰减,即得到的学习率与当前衰减次数成反比。
相关API Reference请参考:ref`api_fluid_layer
_inverse_time_decay`
相关API Reference请参考 :ref:`api_fluid_layers
_inverse_time_decay`
:code:`polynomial_decay`: 多项式衰减,即得到的学习率为初始学习率和给定最终学习之间由多项式计算权重定比分点的插值
*
:code:`polynomial_decay`: 多项式衰减,即得到的学习率为初始学习率和给定最终学习之间由多项式计算权重定比分点的插值
相关API Reference请参考:ref`api_fluid_layer
_polynomial_decay`
相关API Reference请参考 :ref:`api_fluid_layers
_polynomial_decay`
:code:`piecewise_decay`: 分段衰减,即由给定step数分段呈阶梯状衰减,每段内学习率相同。
*
:code:`piecewise_decay`: 分段衰减,即由给定step数分段呈阶梯状衰减,每段内学习率相同。
相关API Reference请参考:ref`api_fluid_layer
_piecewise_decay`
相关API Reference请参考 :ref:`api_fluid_layers
_piecewise_decay`
:code:`append_LARS`: 通过Layer-wise Adaptive Rate Scaling算法获得学习率,相关算法请参考[https://arxiv.org/abs/1802.09750](Train Feedfoward Neural Network with Layer-wise Adaptive Rate via Approximating Back-matching Propagation)
。
* :code:`append_LARS`: 通过Layer-wise Adaptive Rate Scaling算法获得学习率,相关算法请参考 `《Train Feedfoward Neural Network with Layer-wise Adaptive Rate via Approximating Back-matching Propagation》 <https://arxiv.org/abs/1802.09750>`_
。
相关API Reference请参考:ref`api_fluid_layer
_append_LARS`
相关API Reference请参考 :ref:`api_fluid_layers
_append_LARS`
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录