提交 4d6dac64 编写于 作者: K Kaipeng Deng 提交者: Cheerego

add cosine_decay and warmup. (#800)

上级 4f0d0d13
......@@ -38,3 +38,9 @@
* :code:`append_LARS`: 通过Layer-wise Adaptive Rate Scaling算法获得学习率,相关算法请参考 `《Train Feedfoward Neural Network with Layer-wise Adaptive Rate via Approximating Back-matching Propagation》 <https://arxiv.org/abs/1802.09750>`_ 。
相关API Reference请参考 :ref:`cn_api_fluid_layers_append_LARS`
* :code:`cosine_decay`: 余弦衰减,即学习率随step数变化呈余弦函数。
相关API Reference请参考 :ref:`cn_api_fluid_layers_cosine_decay`
* :code:`linear_lr_warmup`: 学习率随step数线性增加到指定学习率。
相关API Reference请参考 :ref:`cn_api_fluid_layers_linear_lr_warmup`
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册