Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
FluidDoc
提交
d0d01f00
F
FluidDoc
项目概览
PaddlePaddle
/
FluidDoc
通知
5
Star
2
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
23
列表
看板
标记
里程碑
合并请求
111
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
F
FluidDoc
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
23
Issue
23
列表
看板
标记
里程碑
合并请求
111
合并请求
111
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
d0d01f00
编写于
11月 14, 2018
作者:
D
dengkaipeng
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
add API Guide: learning rate scheduler
上级
9788fcd9
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
37 addition
and
0 deletion
+37
-0
doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst
...i/api_guides/low_level/layers/learning_rate_scheduler.rst
+37
-0
doc/fluid/images/learning_rate_scheduler.png
doc/fluid/images/learning_rate_scheduler.png
+0
-0
未找到文件。
doc/fluid/api/api_guides/low_level/layers/learning_rate_scheduler.rst
0 → 100644
浏览文件 @
d0d01f00
.. api_guide_learning_rate_scheduler
######
学习率调度器
#####
当我们使用诸如梯度下降法等方式来训练模型时,一般会兼顾训练速度和损失(loss)选择相对合适的学习率,但若在训练过程中一直使用一个学习率的话,训练集的损失下降到一定程度后就会不在继续下降了,而是在一定范围内震荡。其震荡原理如下图所示,即当损失函数收敛到局部极小值附近时,会由于学习率过大而导致更新步幅过大而越过极小值而出现震荡。
![梯度下降法在损失函数极小值时更新情况](../../../../images/learning_rate_scheduler.png)
学习率调度器定义了常用的学习率衰减策略来动态生成学习率,学习率衰减函数以epoch或step为参数,返回一个随训练逐渐减小的学习率,从而兼顾降低训练时间和在局部极小值能更好寻优两个方面。
下面介绍学习率调度器中相关的Api。
======
:code:`noam_decay`: 诺姆衰减,相关算法请参考[https://arxiv.org/pdf/1706.03762.pdf](Attention Is All You Need)。
相关API Reference请参考:ref`api_fluid_layer_noam_decay`
:code:`exponential_decay`: 指数衰减,即每次将当前学习率乘以给定的衰减率得到下一个学习率。
相关API Reference请参考:ref`api_fluid_layer_exponential_decay`
:code:`natual_exp_decay`: 自然指数衰减,即每次将当前学习率乘以给定的衰减率的自然指数得到下一个学习率。
相关API Reference请参考:ref`api_fluid_layer_natual_exp_decay`
:code:`inverse_time_decay`: 逆时间衰减,即得到的学习率与当前衰减次数成反比。
相关API Reference请参考:ref`api_fluid_layer_inverse_time_decay`
:code:`polynomial_decay`: 多项式衰减,即得到的学习率为初始学习率和给定最终学习之间由多项式计算权重定比分点的插值
相关API Reference请参考:ref`api_fluid_layer_polynomial_decay`
:code:`piecewise_decay`: 分段衰减,即由给定step数分段呈阶梯状衰减,每段内学习率相同。
相关API Reference请参考:ref`api_fluid_layer_piecewise_decay`
:code:`append_LARS`: 通过Layer-wise Adaptive Rate Scaling算法获得学习率,相关算法请参考[https://arxiv.org/abs/1802.09750](Train Feedfoward Neural Network with Layer-wise Adaptive Rate via Approximating Back-matching Propagation)。
相关API Reference请参考:ref`api_fluid_layer_append_LARS`
doc/fluid/images/learning_rate_scheduler.png
0 → 100644
浏览文件 @
d0d01f00
141.0 KB
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录