optimizer.rst 3.8 KB
Newer Older
C
Cheerego 已提交
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
..  _api_guide_optimizer:

###########
优化器
###########

神经网络最终是一个 `最优化问题 <https://en.wikipedia.org/wiki/Optimization_problem>`_ ,
在经过 `前向计算和反向传播 <https://zh.wikipedia.org/zh-hans/反向传播算法>`_ 后,
:code:`Optimizer` 使用反向传播梯度,优化神经网络中的参数。

1.SGD/SGDOptimizer
------------------

:code:`SGD` 是实现 `随机梯度下降 <https://arxiv.org/pdf/1609.04747.pdf>`_ 的一个 :code:`Optimizer` 子类,是 `梯度下降 <https://zh.wikipedia.org/zh-hans/梯度下降法>`_ 大类中的一种方法。
当需要训练大量样本的时候,往往选择 :code:`SGD` 来使损失函数更快的收敛。  

C
Cheerego 已提交
17
API Reference 请参考 :ref:`cn_api_fluid_optimizer_SGDOptimizer`
C
Cheerego 已提交
18 19 20 21 22 23 24 25 26 27


2.Momentum/MomentumOptimizer
----------------------------

:code:`Momentum` 优化器在 :code:`SGD` 基础上引入动量,减少了随机梯度下降过程中存在的噪声问题。
用户在使用时可以将 :code:`ues_nesterov` 参数设置为False或True,分别对应传统 `Momentum(论文4.1节)
<https://arxiv.org/pdf/1609.04747.pdf>`_  算法和 `Nesterov accelerated gradient(论文4.2节)
<https://arxiv.org/pdf/1609.04747.pdf>`_ 算法。

C
Cheerego 已提交
28
API Reference 请参考 :ref:`cn_api_fluid_optimizer_MomentumOptimizer`
C
Cheerego 已提交
29 30 31 32 33 34


3. Adagrad/AdagradOptimizer
---------------------------
`Adagrad <http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf>`_ 优化器可以针对不同参数样本数不平均的问题,自适应地为各个参数分配不同的学习率。

C
Cheerego 已提交
35
API Reference 请参考 :ref:`cn_api_fluid_optimizer_AdagradOptimizer`
C
Cheerego 已提交
36 37 38 39 40 41 42


4.RMSPropOptimizer
------------------
`RMSProp优化器 <http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf>`_ ,是一种自适应调整学习率的方法,
主要解决使用Adagrad后,模型训练中后期学习率急剧下降的问题。

C
Cheerego 已提交
43
API Reference 请参考 :ref:`cn_api_fluid_optimizer_RMSPropOptimizer`
C
Cheerego 已提交
44 45 46 47 48 49 50 51



5.Adam/AdamOptimizer
--------------------
`Adam <https://arxiv.org/abs/1412.6980>`_ 的优化器是一种自适应调整学习率的方法,
适用于大多非 `凸优化 <https://zh.wikipedia.org/zh/凸優化>`_ 、大数据集和高维空间的场景。在实际应用中,:code:`Adam` 是最为常用的一种优化方法。

C
Cheerego 已提交
52
API Reference 请参考 :ref:`cn_api_fluid_optimizer_AdamOptimizer`
C
Cheerego 已提交
53 54 55 56 57 58 59 60



6.Adamax/AdamaxOptimizer
------------------------

`Adamax <https://arxiv.org/abs/1412.6980>`_ 是 :code:`Adam` 算法的一个变体,对学习率的上限提供了一个更简单的范围,使学习率的边界范围更简单。

C
Cheerego 已提交
61
API Reference 请参考 :ref:`cn_api_fluid_optimizer_AdamaxOptimizer`
C
Cheerego 已提交
62 63 64 65 66 67 68 69



7.DecayedAdagrad/ DecayedAdagradOptimizer
-------------------------------------------

`DecayedAdagrad <http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf>`_ 优化器,可以看做是引入了衰减速率的 :code:`Adagrad` 算法,解决使用Adagrad后,模型训练中后期学习率急剧下降的问题。

C
Cheerego 已提交
70
API Reference 请参考 :ref:`cn_api_fluid_optimizer_DecayedAdagrad`
C
Cheerego 已提交
71 72 73 74 75 76 77 78 79 80




8. Ftrl/FtrlOptimizer
----------------------

`FtrlOptimizer <https://www.eecs.tufts.edu/~dsculley/papers/ad-click-prediction.pdf>`_ 优化器结合了 `FOBOS算法 <https://stanford.edu/~jduchi/projects/DuchiSi09b.pdf>`_ 的高精度与 `RDA算法
<http://www1.se.cuhk.edu.hk/~sqma/SEEM5121_Spring2015/dual-averaging.pdf>`_ 的稀疏性,是目前效果非常好的一种 `Online Learning <https://en.wikipedia.org/wiki/Online_machine_learning>`_ 算法。

C
Cheerego 已提交
81
API Reference 请参考 :ref:`cn_api_fluid_optimizer_FtrlOptimizer`
C
Cheerego 已提交
82 83 84 85 86 87 88 89



9.ModelAverage
-----------------

:code:`ModelAverage` 优化器,在训练中通过窗口来累计历史 parameter,在预测时使用取平均值后的paramet,整体提高预测的精度。

C
Cheerego 已提交
90
API Reference 请参考 :ref:`cn_api_fluid_optimizer_ModelAverage`
C
Cheerego 已提交
91 92