未验证 提交 fa7fcc56 编写于 作者: R ruri 提交者: GitHub

Merge pull request #535 from haowang101779990/0114-cnapi-bugfix

0114-cnapi-bugfix
...@@ -285,7 +285,7 @@ UniformInitializer ...@@ -285,7 +285,7 @@ UniformInitializer
参数: 参数:
- **low** (float) - 下界 - **low** (float) - 下界
- **high** (float) - 上界 - **high** (float) - 上界
- **seed** (float) - 随机种子 - **seed** (int) - 随机种子
**代码示例** **代码示例**
......
...@@ -470,7 +470,7 @@ RMSPropOptimizer ...@@ -470,7 +470,7 @@ RMSPropOptimizer
.. py:class:: paddle.fluid.optimizer.RMSPropOptimizer(learning_rate, rho=0.95, epsilon=1e-06, momentum=0.0, centered=False, regularization=None, name=None) .. py:class:: paddle.fluid.optimizer.RMSPropOptimizer(learning_rate, rho=0.95, epsilon=1e-06, momentum=0.0, centered=False, regularization=None, name=None)
均方根平均传播(RMSProp)法是一种未发表的,自适应学习率的方法。原始slides提出了RMSProp:[http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf]中的第29张slide。等式如下所示: 均方根传播(RMSProp)法是一种未发表的,自适应学习率的方法。原演示幻灯片中提出了RMSProp:[http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf]中的第29张。等式如下所示:
.. math:: .. math::
r(w, t) & = \rho r(w, t-1) + (1 - \rho)(\nabla Q_{i}(w))^2\\ r(w, t) & = \rho r(w, t-1) + (1 - \rho)(\nabla Q_{i}(w))^2\\
...@@ -494,11 +494,11 @@ RMSPropOptimizer ...@@ -494,11 +494,11 @@ RMSPropOptimizer
其中, :math:`ρ` 是超参数,典型值为0.9,0.95等。 :math:`beta` 是动量术语。 :math:`epsilon` 是一个平滑项,用于避免除零,通常设置在1e-4到1e-8的范围内。 其中, :math:`ρ` 是超参数,典型值为0.9,0.95等。 :math:`beta` 是动量术语。 :math:`epsilon` 是一个平滑项,用于避免除零,通常设置在1e-4到1e-8的范围内。
参数: 参数:
- **learning_rate** (float) - 全学习率。 - **learning_rate** (float) - 全学习率。
- **rho** (float) - rho是等式中的 :math:`rho` ,默认设置为0.95。 - **rho** (float) - rho是等式中的 :math:`rho` ,默认设置为0.95。
- **epsilon** (float) - 等式中的epsilon是平滑项,避免被零除,默认设置为1e-6。 - **epsilon** (float) - 等式中的epsilon是平滑项,避免被零除,默认设置为1e-6。
- **momentum** (float) - 方程中的β是动量项,默认设置为0.0。 - **momentum** (float) - 方程中的β是动量项,默认设置为0.0。
- **centered** (bool) - 如果为True,则通过梯度估计方差对梯度进行归一化;如果false,则由未centered的第二个moment归一化。将此设置为True有助于培训,但在计算和内存方面稍微昂贵一些。默认为False。 - **centered** (bool) - 如果为True,则通过梯度的估计方差,对梯度进行归一化;如果False,则由未centered的第二个moment归一化。将此设置为True有助于模型训练,但会消耗额外计算和内存资源。默认为False。
- **regularization** - 正则器项,如 ``fluid.regularizer.L2DecayRegularizer`` 。 - **regularization** - 正则器项,如 ``fluid.regularizer.L2DecayRegularizer`` 。
- **name** - 可选的名称前缀。 - **name** - 可选的名称前缀。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册