NoamDecay_cn.rst 2.1 KB
Newer Older
H
Hao Wang 已提交
1 2 3 4 5
.. _cn_api_fluid_dygraph_NoamDecay:

NoamDecay
-------------------------------

L
liuwei1031 已提交
6
:api_attr: 命令式编程模式(动态图)
7

8
.. py:class:: paddle.fluid.dygraph.NoamDecay(d_model, warmup_steps, begin=1, step=1, dtype='float32', learning_rate=1.0)
H
Hao Wang 已提交
9

D
DuYao 已提交
10
该接口提供Noam衰减学习率的功能。
H
Hao Wang 已提交
11

D
DuYao 已提交
12 13 14 15
Noam衰减的计算方式如下。

.. math::

16
    decayed\_learning\_rate = learning\_rate * d_{model}^{-0.5} * min(global\_steps^{-0.5}, global\_steps * warmup\_steps^{-1.5})
D
DuYao 已提交
17 18

关于Noam衰减的更多细节请参考 `attention is all you need <https://arxiv.org/pdf/1706.03762.pdf>`_
H
Hao Wang 已提交
19

D
DuYao 已提交
20
式中,
H
Hao Wang 已提交
21

D
DuYao 已提交
22 23
- :math:`decayed\_learning\_rate` : 衰减后的学习率。
式子中各参数详细介绍请看参数说明。
H
Hao Wang 已提交
24 25

参数:
D
DuYao 已提交
26 27 28 29 30
    - **d$_{model}$**  (Variable|int) - 模型的输入、输出向量特征维度,为超参数。如果设置为Variable类型值,则数据类型可以为int32或int64的标量Tensor,也可以设置为Python int。
    - **warmup_steps** (Variable|int) - 预热步数,为超参数。如果设置为Variable类型,则数据类型为int32或int64的标量Tensor,也可以设置为为Python int。
    - **begin** (int,可选) – 起始步。即以上运算式子中global_steps的初始值。默认值为0。
    - **step** (int,可选) – 步大小。即以上运算式子中global_steps的递增值。默认值为1。
    - **dtype** (str,可选) – 学习率值的数据类型,可以为"float32", "float64"。默认值为"float32"。
31
    - **learning_rate** (Variable|float|int,可选) - 初始学习率。如果类型为Variable,则为shape为[1]的Tensor,数据类型为float32或float64;也可以是python的int类型。默认值为1.0。
D
DuYao 已提交
32 33

返回: 无
H
Hao Wang 已提交
34 35 36 37 38 39 40 41 42

**代码示例**

.. code-block:: python

    import paddle.fluid as fluid
    warmup_steps = 100
    learning_rate = 0.01
    with fluid.dygraph.guard():
43
        emb = fluid.dygraph.Embedding([10, 10])
H
Hao Wang 已提交
44 45 46
        optimizer  = fluid.optimizer.SGD(
            learning_rate = fluid.dygraph.NoamDecay(
                   1/(warmup_steps *(learning_rate ** 2)),
47 48
                   warmup_steps),
            parameter_list = emb.parameters())