.. _api_guide_optimizer: ########### 优化器 ########### 神经网络最终是一个 `最优化问题 `_ , 在经过 `前向计算和反向传播 `_ 后, :code:`Optimizer` 使用反向传播梯度,优化神经网络中的参数。 1.SGD/SGDOptimizer ------------------ :code:`SGD` 是实现 `随机梯度下降 `_ 的一个 :code:`Optimizer` 子类,是 `梯度下降 `_ 大类中的一种方法。 当需要训练大量样本的时候,往往选择 :code:`SGD` 来使损失函数更快的收敛。 API Reference 请参考 :ref:`cn_api_fluid_optimizer_SGDOptimizer` 2.Momentum/MomentumOptimizer ---------------------------- :code:`Momentum` 优化器在 :code:`SGD` 基础上引入动量,减少了随机梯度下降过程中存在的噪声问题。 用户在使用时可以将 :code:`ues_nesterov` 参数设置为False或True,分别对应传统 `Momentum(论文4.1节) `_ 算法和 `Nesterov accelerated gradient(论文4.2节) `_ 算法。 API Reference 请参考 :ref:`cn_api_fluid_optimizer_MomentumOptimizer` 3. Adagrad/AdagradOptimizer --------------------------- `Adagrad `_ 优化器可以针对不同参数样本数不平均的问题,自适应地为各个参数分配不同的学习率。 API Reference 请参考 :ref:`cn_api_fluid_optimizer_AdagradOptimizer` 4.RMSPropOptimizer ------------------ `RMSProp优化器 `_ ,是一种自适应调整学习率的方法, 主要解决使用Adagrad后,模型训练中后期学习率急剧下降的问题。 API Reference 请参考 :ref:`cn_api_fluid_optimizer_RMSPropOptimizer` 5.Adam/AdamOptimizer -------------------- `Adam `_ 的优化器是一种自适应调整学习率的方法, 适用于大多非 `凸优化 `_ 、大数据集和高维空间的场景。在实际应用中,:code:`Adam` 是最为常用的一种优化方法。 API Reference 请参考 :ref:`cn_api_fluid_optimizer_AdamOptimizer` 6.Adamax/AdamaxOptimizer ------------------------ `Adamax `_ 是 :code:`Adam` 算法的一个变体,对学习率的上限提供了一个更简单的范围,使学习率的边界范围更简单。 API Reference 请参考 :ref:`cn_api_fluid_optimizer_AdamaxOptimizer` 7.DecayedAdagrad/ DecayedAdagradOptimizer ------------------------------------------- `DecayedAdagrad `_ 优化器,可以看做是引入了衰减速率的 :code:`Adagrad` 算法,解决使用Adagrad后,模型训练中后期学习率急剧下降的问题。 API Reference 请参考 :ref:`cn_api_fluid_optimizer_DecayedAdagrad` 8. Ftrl/FtrlOptimizer ---------------------- `FtrlOptimizer `_ 优化器结合了 `FOBOS算法 `_ 的高精度与 `RDA算法 `_ 的稀疏性,是目前效果非常好的一种 `Online Learning `_ 算法。 API Reference 请参考 :ref:`cn_api_fluid_optimizer_FtrlOptimizer` 9.ModelAverage ----------------- :code:`ModelAverage` 优化器,在训练中通过窗口来累计历史 parameter,在预测时使用取平均值后的paramet,整体提高预测的精度。 API Reference 请参考 :ref:`cn_api_fluid_optimizer_ModelAverage`