diff --git a/doc/fluid/api_cn/initializer_cn.rst b/doc/fluid/api_cn/initializer_cn.rst index adc5d45fc9de2ab8457d1a729c826454f83aa716..98bd68c54b6837b147fc734a2921966b46df19a0 100644 --- a/doc/fluid/api_cn/initializer_cn.rst +++ b/doc/fluid/api_cn/initializer_cn.rst @@ -285,7 +285,7 @@ UniformInitializer 参数: - **low** (float) - 下界 - **high** (float) - 上界 - - **seed** (float) - 随机种子 + - **seed** (int) - 随机种子 **代码示例** diff --git a/doc/fluid/api_cn/optimizer_cn.rst b/doc/fluid/api_cn/optimizer_cn.rst index f41da88c915dfe5480d05c75b2d1705390770377..a67e42d1268e3ebd53d3b6361d2b2d70326a8f5a 100644 --- a/doc/fluid/api_cn/optimizer_cn.rst +++ b/doc/fluid/api_cn/optimizer_cn.rst @@ -470,7 +470,7 @@ RMSPropOptimizer .. py:class:: paddle.fluid.optimizer.RMSPropOptimizer(learning_rate, rho=0.95, epsilon=1e-06, momentum=0.0, centered=False, regularization=None, name=None) -均方根平均传播(RMSProp)法是一种未发表的,自适应学习率的方法。原始slides提出了RMSProp:[http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf]中的第29张slide。等式如下所示: +均方根传播(RMSProp)法是一种未发表的,自适应学习率的方法。原演示幻灯片中提出了RMSProp:[http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf]中的第29张。等式如下所示: .. math:: r(w, t) & = \rho r(w, t-1) + (1 - \rho)(\nabla Q_{i}(w))^2\\ @@ -494,11 +494,11 @@ RMSPropOptimizer 其中, :math:`ρ` 是超参数,典型值为0.9,0.95等。 :math:`beta` 是动量术语。 :math:`epsilon` 是一个平滑项,用于避免除零,通常设置在1e-4到1e-8的范围内。 参数: - - **learning_rate** (float) - 全球学习率。 + - **learning_rate** (float) - 全局学习率。 - **rho** (float) - rho是等式中的 :math:`rho` ,默认设置为0.95。 - **epsilon** (float) - 等式中的epsilon是平滑项,避免被零除,默认设置为1e-6。 - **momentum** (float) - 方程中的β是动量项,默认设置为0.0。 - - **centered** (bool) - 如果为True,则通过梯度估计方差对梯度进行归一化;如果false,则由未centered的第二个moment归一化。将此设置为True有助于培训,但在计算和内存方面稍微昂贵一些。默认为False。 + - **centered** (bool) - 如果为True,则通过梯度的估计方差,对梯度进行归一化;如果False,则由未centered的第二个moment归一化。将此设置为True有助于模型训练,但会消耗额外计算和内存资源。默认为False。 - **regularization** - 正则器项,如 ``fluid.regularizer.L2DecayRegularizer`` 。 - **name** - 可选的名称前缀。