提交 cca95ce5 编写于 作者: H Hao Wang 提交者: xsrobin

dygraph API translation & bug fix (#998) (#1032)

* dygraph translation

* cn doc bug fix

* translate dygraph according to 1.5.1 website + bug fix
上级 5e10c668
此差异已折叠。
#################
fluid
fluid
#################
.. _cn_api_fluid_BuildStrategy:
......@@ -1618,9 +1618,9 @@ LoD是多层序列(Level of Details)的缩写,通常用于不同长度的
举例:
X 为 LoDTensor,它包含两个序列。第一个长度是2,第二个长度是3。
X 为 LoDTensor,它包含两个逻辑子序列。第一个长度是2,第二个长度是3。
从Lod中可以计算出X的第一维度为5, 因为5=2+3, 说明X中有5个序列。在X中的每个序列中的每个元素有2列,因此X的shape为[5,2]。
从Lod中可以计算出X的第一维度为5, 因为5=2+3。在X中的每个序列中的每个元素有2列,因此X的shape为[5,2]。
::
......@@ -1631,7 +1631,7 @@ X 为 LoDTensor,它包含两个序列。第一个长度是2,第二个长度
x.shape = [5, 2]
LoD可以有多个level(例如,一个段落可以有多个句子,一个句子可以有多个单词)。下面的例子中,Y为LoDTensor ,lod_level为2。表示有2个序列,第一个序列的长度是2(有2个子序列),第二个序列的长度是1。第一序列的两个子序列长度分别为2和2。第二个序列的子序列的长度是3。
LoD可以有多个level(例如,一个段落可以有多个句子,一个句子可以有多个单词)。下面的例子中,Y为LoDTensor ,lod_level为2。表示有2个逻辑序列,第一个逻辑序列的长度是2(有2个子序列),第二个逻辑序列的长度是1。第一个逻辑序列的两个子序列长度分别为2和2。第二个序列的子序列的长度是3。
::
......@@ -1652,7 +1652,7 @@ LoD可以有多个level(例如,一个段落可以有多个句子,一个句
在上面的描述中,LoD是基于长度的。在paddle内部实现中,lod是基于偏移的。因此,在内部,y.lod表示为[[0,2,3],[0,2,4,7]](基于长度的Lod表示为为[[2-0,3-2],[2-0,4-2,7-4]])。
可以将LoD理解为recursive_sequence_length(递归序列长度)。此时,LoD必须是基于长度的。由于历史原因当LoD在API中被称为lod时,它可能是基于偏移的。用户应该注意。
可以将LoD理解为recursive_sequence_length(递归序列长度)。此时,LoD必须是基于长度的。由于历史原因当LoD在API中被称为lod时,它可能是基于偏移的。用户应该注意。
......
......@@ -13,6 +13,7 @@ API
clip_cn.rst
data_feeder_cn.rst
dataset_cn.rst
dygraph_cn.rst
executor_cn.rst
initializer_cn.rst
io_cn.rst
......@@ -25,3 +26,4 @@ API
transpiler_cn.rst
data/dataset_cn.rst
data/data_reader_cn.rst
......@@ -289,7 +289,7 @@ open_files
Preprocessor
-------------------------------
.. py:class:: class paddle.fluid.layers.Preprocessor(reader, name=None)
.. py:class:: paddle.fluid.layers.Preprocessor(reader, name=None)
reader变量中数据预处理块。
......
......@@ -43,7 +43,7 @@ exponential_decay
.. py:function:: paddle.fluid.layers.exponential_decay(learning_rate,decay_steps,decay_rate,staircase=False)
在学习率上运用指数衰减。
训练模型时,在训练过程中通常推荐降低学习率。每次 ``decay_steps`` 步骤中用 ``decay_rate`` 衰减学习率。
训练模型时,推荐在训练过程中降低学习率。每次 ``decay_steps`` 步骤中用 ``decay_rate`` 衰减学习率。
.. code-block:: text
......@@ -93,7 +93,7 @@ inverse_time_decay
在初始学习率上运用逆时衰减。
训练模型时,在训练过程中通常推荐降低学习率。通过执行该函数,将对初始学习率运用逆向衰减函数。
训练模型时,最好在训练过程中降低学习率。通过执行该函数,将对初始学习率运用逆向衰减函数。
.. code-block:: python
......@@ -285,7 +285,7 @@ piecewise_decay
learning_rate = 0.1
参数:
- **boundaries** -一列代表步数的数字
- **boundaries** -一列代表步数的数字
- **values** -一列学习率的值,从不同的步边界中挑选
返回:衰减的学习率
......
......@@ -428,15 +428,15 @@ batch_norm
- **input** (Variable) - 输入变量的排序,可以为 2, 3, 4, 5
- **act** (string,默认None)- 激活函数类型,linear|relu|prelu|...
- **is_test** (bool,默认False) - 指示它是否在测试阶段。
- **momentum** (float,默认0.9)- 此值用于计算 moving_mean and moving_var. 更新公式为: :math:`\(moving\_mean = moving\_mean * momentum + new\_mean * (1. - momentum)\)` :math:`\(moving\_var = moving\_var * momentum + new\_var * (1. - momentum)\)` , 默认值0.9.
- **momentum** (float,默认0.9)- 此值用于计算 moving_mean 和 moving_var。更新公式为: :math:`moving\_mean = moving\_mean * momentum + new\_mean * (1. - momentum)` , :math:`moving\_var = moving\_var * momentum + new\_var * (1. - momentum)` , 默认值0.9.
- **epsilon** (float,默认1e-05)- 加在分母上为了数值稳定的值。默认值为1e-5。
- **param_attr** (ParamAttr|None) - batch_norm参数范围的属性,如果设为None或者是ParamAttr的一个属性,batch_norm创建ParamAttr为param_attr。如果没有设置param_attr的初始化函数,参数初始化为Xavier。默认:None
- **bias_attr** (ParamAttr|None) - batch_norm bias参数的属性,如果设为None或者是ParamAttr的一个属性,batch_norm创建ParamAttr为bias_attr。如果没有设置bias_attr的初始化函数,参数初始化为0。默认:None
- **data_layout** (string,默认NCHW) - NCHW|NHWC
- **in_place** (bool,默认False)- 得出batch norm可复用记忆的输入和输出
- **name** (string,默认None)- 该层名称(可选)。若设为None,则自动为该层命名
- **moving_mean_name** (string,默认None)- moving_mean的名称,存储全局Mean。如果将其设置为None, ``batch_norm``将随机命名全局平均值;否则, `batch_norm`将命名全局平均值为``moving_mean_name``
- **moving_variance_name** (string,默认None)- moving_variance的名称,存储全局变量。如果将其设置为None,``batch_norm``将随机命名全局方差;否则, `batch_norm`将命名全局方差为``moving_mean_name``
- **moving_mean_name** (string,默认None)- moving_mean的名称,存储全局Mean。如果将其设置为None, ``batch_norm`` 将随机命名全局平均值;否则, ``batch_norm`` 将命名全局平均值为 ``moving_mean_name``
- **moving_variance_name** (string,默认None)- moving_variance的名称,存储全局变量。如果将其设置为None, ``batch_norm`` 将随机命名全局方差;否则, ``batch_norm`` 将命名全局方差为 ``moving_variance_name``
- **do_model_average_for_mean_and_var** (bool,默认False)- 是否为mean和variance做模型均值
- **fuse_with_relu** (bool)- 如果为True,batch norm后该操作符执行relu
- **use_global_stats** (bool, Default False) – 是否使用全局均值和方差。 在预测或测试模式下,将use_global_stats设置为true或将is_test设置为true,并且行为是等效的。 在训练模式中,当设置use_global_stats为True时,在训练期间也使用全局均值和方差。
......@@ -3131,7 +3131,7 @@ embedding
- **size** (tuple|list)-查找表参数的维度。应当有两个参数,一个代表嵌入矩阵字典的大小,一个代表每个嵌入向量的大小。
- **is_sparse** (bool)-代表是否用稀疏更新的标志
- **is_distributed** (bool)-是否从远程参数服务端运行查找表
- **padding_idx** (int|long|None)-如果为 ``None`` ,对查找结果无影响。如果padding_idx不为空,表示一旦查找表中找到input中对应的 ``padding_idz``,则用0填充输出结果。如果 :math:`padding_{i}dx<0` ,在查找表中使用的 ``padding_idx`` 值为 :math:`size[0]+dim` 。
- **padding_idx** (int|long|None)-如果为 ``None`` ,对查找结果无影响。如果padding_idx不为空,表示一旦查找表中找到input中对应的 ``padding_idz``,则用0填充输出结果。如果 :math:`padding\_idx<0` ,在查找表中使用的 ``padding_idx`` 值为 :math:`size[0]+dim` 。
- **param_attr** (ParamAttr)-该层参数
- **dtype** (np.dtype|core.VarDesc.VarType|str)-数据类型:float32,float_16,int等。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册