Follow comments

a94b7ab9 · yuyang18 · 0313009c · a94b7ab9 · a94b7ab9 · a94b7ab9
3 changed file
--- a/source/user_guides/howto/prepare_data/feeding_data.rst
+++ b/source/user_guides/howto/prepare_data/feeding_data.rst
-
 .. _user_guide_use_numpy_array_as_train_data:

 ###########################
@@ -29,21 +28,22 @@ PaddlePaddle Fluid支持使用 :ref:`api_fluid_layers_data` 配置数据层；

 上段代码中，:code:`image` 和 :code:`label` 是通过 :code:`fluid.layers.data`
 创建的两个输入数据层。其中 :code:`image` 是 :code:`[3, 224, 224]` 维度的浮点数据;
-:code:`data` 是 :code:`[1]` 维度的整数数据。这里需要注意的是:
+:code:`label` 是 :code:`[1]` 维度的整数数据。这里需要注意的是:

 1. Fluid中默认使用 :code:`-1` 表示 batch size 维度，默认情况下会在 :code:`shape`
-的第一个维度添加 :code:`-1` 。 所以 上段代码中， 我们可以接受将一个
-:code:`[32, 3, 224, 224]`的numpy array传给 :code:`image`。 如果想自定义batch size
-维度的位置的话，请设置 :code:`fluid.layers.data(append_batch_size=False)` 。
+   的第一个维度添加 :code:`-1` 。 所以 上段代码中， 我们可以接受将一个
+   :code:`[32, 3, 224, 224]` 的numpy array传给 :code:`image` 。 如果想自定义batch size
+   维度的位置的话，请设置 :code:`fluid.layers.data(append_batch_size=False)` 。
+   请参考进阶使用中的 :ref:`user_guide_customize_batch_size_rank` 。

-2. Fluid中目前使用 :code:`int64` 表示类别标签。
+2. Fluid中用来做类别标签的数据类型是 :code:`int64`，并且标签从0开始。

 传递训练数据给执行器
 ####################

 :code:`Executor.run` 和 :code:`ParallelExecutor.run` 都接受一个 :code:`feed` 参数。
-这个参数是一个Python的字典。他的键是数据层的名字，例如上文代码中的:code:`image`。
-他的值是对应的numpy array。
+这个参数是一个Python的字典。它的键是数据层的名字，例如上文代码中的 :code:`image`。
+它的值是对应的numpy array。

 例如:

@@ -62,8 +62,9 @@ PaddlePaddle Fluid支持使用 :ref:`api_fluid_layers_data` 配置数据层；
 ----------------

 序列数据是PaddlePaddle Fluid支持的特殊数据类型，可以使用 :code:`LoDTensor` 作为
-输入数据类型。它需要用户传入一个mini-batch需要被训练的所有数据和每个序列的长度信息。
-具体可以使用 :code:`fluid.create_lod_tensor` 来创建 :code:`LoDTensor`。
+输入数据类型。它需要用户: 1. 传入一个mini-batch需要被训练的所有数据;
+2.每个序列的长度信息。
+用户可以使用 :code:`fluid.create_lod_tensor` 来创建 :code:`LoDTensor`。

 传入序列信息的时候，需要设置序列嵌套深度，:code:`lod_level`。
 例如训练数据是词汇组成的句子，:code:`lod_level=1`；训练数据是 词汇先组成了句子，
@@ -114,4 +115,34 @@ PaddlePaddle Fluid支持使用 :ref:`api_fluid_layers_data` 配置数据层；
     ]
   )

-上述代码中，GPU0会训练 32 个样本，而 GPU1训练 16 个样本。
\ No newline at end of file
+上述代码中，GPU0会训练 32 个样本，而 GPU1训练 16 个样本。
+
+
+.. _user_guide_customize_batch_size_rank:
+
+自定义BatchSize维度
+-------------------
+
+PaddlePaddle Fluid默认batch size是数据的第一维度，以 :code:`-1` 表示。但是在高级
+使用中，batch_size 可以固定，也可以是其他维度或者多个维度来表示。这都需要设置
+:code:`fluid.layers.data(append_batch_size=False)` 来完成。
+
+1. 固定batch size维度
+
+  .. code-block:: python
+
+     image = fluid.layers.data(name="image", shape=[32, 784], append_batch_size=False)
+
+  这里，:code:`image` 永远是一个 :code:`[32, 784]` 大小的矩阵。
+
+2. 使用其他维度表示batch size
+
+  .. code-block:: python
+
+     sentence = fluid.layers.data(name="sentence",
+                                  shape=[80, -1, 1],
+                                  append_batch_size=False,
+                                  dtype="int64")
+
+  这里 :code:`sentence` 的中间维度是batch size。这种数据排布会用在定长的循环神经
+  网络中。
\ No newline at end of file
--- a/source/user_guides/howto/prepare_data/index.rst
+++ b/source/user_guides/howto/prepare_data/index.rst
@@ -4,9 +4,13 @@
 准备数据
 ########

-PaddlePaddle Fluid支持两种传入数据的方式： 一种用户需要使用 :code:`fluid.layers.data`
+PaddlePaddle Fluid支持两种传入数据的方式:
+
+1. 用户需要使用 :code:`fluid.layers.data`
 配置数据输入层，并在 :ref:`api_guide_executor` 或 :ref:`api_guide_parallel_executor`
-中，使用 :code:`executor.run(feed=...)` 传入训练数据; 另一种用户需要先将训练数据
+中，使用 :code:`executor.run(feed=...)` 传入训练数据。
+
+2. 用户需要先将训练数据
 转换成 Paddle 识别的 :ref:`api_guide_recordio_file_format` ， 再使用
 :code:`fluid.layers.open_files` 以及 :ref:`api_guide_reader` 配置数据读取。

@@ -36,7 +40,6 @@ PaddlePaddle Fluid支持两种传入数据的方式： 一种用户需要使用
   feeding_data
   use_recordio_reader

-#############
 Python Reader
 #############


--- a/source/user_guides/howto/prepare_data/use_recordio_reader.rst
+++ b/source/user_guides/howto/prepare_data/use_recordio_reader.rst
@@ -46,9 +46,10 @@
   BATCH_SIZE = 32
   reader = paddle.batch(reader_creator(), batch_size=BATCH_SIZE)
   fluid.recordio_writer.convert_reader_to_recordio_file(
-      "train.recordio", feeder=feeder, reader_creator=train_reader)
+      "train.recordio", feeder=feeder, reader_creator=reader)

-其中 :code:`reader_creator` 创建了一个 :code:`Reader`。 :code:`fluid.DataFeeder`
+其中 :code:`reader_creator` 创建了一个 :code:`Reader`。
+:ref:`_api_fluid_data_feeder_DataFeeder`
 是将 :code:`Reader` 转换成 :code:`LoDTensor` 的工具。详细请参考
 :ref:`user_guide_reader` 。

@@ -102,6 +103,8 @@ RecordIO文件转换好之后，用户可以使用 :ref:`api_fluid_layers_open_f

   image, label = fluid.layers.read_file(file_obj)

+双缓冲技术可以参考
+`Multiple buffering <https://en.wikipedia.org/wiki/Multiple_buffering>`_ 。

 配置数据增强
 ------------
@@ -145,7 +148,7 @@ RecordIO文件转换好之后，用户可以使用 :ref:`api_fluid_layers_open_f
 读入数据的shuffle
 -----------------

-使用 :ref:`api_fluid_layers_shuffle` 可以在训练过程中动态重拍训练数据。例如
+使用 :ref:`api_fluid_layers_shuffle` 可以在训练过程中动态重排训练数据。例如

 .. code-block:: python

@@ -157,8 +160,8 @@ RecordIO文件转换好之后，用户可以使用 :ref:`api_fluid_layers_open_f

 需要注意的是:

-1. :code:`shuffle` 的实现先读入 :code:`buffer_size` 条样本，再随机的选出样本进行
-训练。
+1. :code:`shuffle` 实现方法是:
+先读入 :code:`buffer_size` 条样本，再随机的选出样本进行训练。

 2. :code:`shuffle` 中 :code:`buffer_size` 会占用训练内存，需要确定训练过程中内存
 足够支持缓存 :code:`buffer_size` 条数据。