Merge pull request #606 from luotao1/doc3

refine dataprovider related rst

Merge pull request #606 from luotao1/doc3
refine dataprovider related rst
db379811 · Yu Yang · GitHub · 0d39b118 · 3d5060a1 · db379811
8 changed file
--- a/doc_cn/ui/data_provider/dataprovider.rst
+++ b/doc_cn/ui/data_provider/dataprovider.rst
+DataProvider的介绍
+==================
+DataProvider是PaddlePaddle负责提供数据的模块。其作用是将数据传入内存或显存，让神经网络可以进行训练或预测。用户可以通过简单使用Python接口 `PyDataProvider2 <pydataprovider2.html>`_ ，来自定义传数据的过程。如果有更复杂的使用，或者需要更高的效率，用户也可以在C++端自定义一个 ``DataProvider`` 。
+PaddlePaddle需要用户在网络配置（trainer_config.py）中定义使用哪种DataProvider，并且在DataProvider中实现如何访问训练文件列表（train.list）或测试文件列表（test.list）。
+- train.list和test.list存放在本地（推荐直接存放到训练目录，以相对路径引用)。一般情况下，两者均为纯文本文件，其中每一行对应一个数据文件地址：
+  - 如果数据文件存于本地磁盘，这个地址则为它的绝对路径或相对路径(相对于PaddlePaddle程序运行时的路径)。
+  - 地址也可以为hdfs文件路径，或者数据库连接路径等。
+  - 由于这个地址会被DataProvider使用，因此，如何解析该地址也是用户自定义DataProvider时需要考虑的地方。
+- 如果没有设置test.list，或设置为None，那么在训练过程中不会执行测试操作；否则，会根据命令行参数指定的测试方式，在训练过程中进行测试，从而防止过拟合。
--- a/doc_cn/ui/data_provider/index.rst
+++ b/doc_cn/ui/data_provider/index.rst
-PaddlePaddle的数据提供(DataProvider)介绍
-========================================
-数据提供(DataProvider)是PaddlePaddle负责提供数据的模块。其作用是将训练数据传入内存或者显存，让神经网络可以进行训练。简单的使用，用户可以使用Python的 :code:`PyDataProvider` 来自定义传数据的过程。如果有更复杂的使用，或者需要更高的效率，用户也可以在C++端自定义一个 :code:`DataProvider` 。
-PaddlePaddle需要用户在网络配置(trainer_config.py)中定义使用哪种DataProvider及其参数，训练文件列表(train.list)和测试文件列表(test.list)。
-其中，train.list和test.list均为本地的两个文件(推荐直接放置到训练目录，以相对路径引用)。如果test.list不设置，或者设置为None，那么在训练过程中，不会执行测试操作。否则，会根据命令行参数指定的测试方式，在训练过程中进行测试，从而防止过拟合。
-一般情况下，train.list和test.list为纯文本文件，一行对应一个数据文件，数据文件存放在本地磁盘中。将文件的绝对路径或相对路径(相对于PaddlePaddle程序运行时的路径)写在train.list和test.list中。当然，train.list和test.list也可以放置hdfs文件路径，或者数据库连接地址等等。
-用户在DataProvider中需要实现如何访问其中每一个文件。DataProvider的具体用法和如何实现一个新的DataProvider，请参考下述文章:
-..	toctree::
-	pydataprovider2.rst
-	write_new_dataprovider.rst
--- a/doc_cn/ui/data_provider/mnist_config.py
+++ b/doc_cn/ui/data_provider/mnist_config.py
@@ -5,5 +5,6 @@ define_py_data_sources2(
    test_list=None,
    module='mnist_provider',
    obj='process')
 img = data_layer(name='pixel', size=784)
 label = data_layer(name='label', size=10)
--- a/doc_cn/ui/data_provider/mnist_provider.py
+++ b/doc_cn/ui/data_provider/mnist_provider.py
-from paddle.trainer.PyDataProvider2 import *
-# Define a py data provider
-@provider(input_types=[dense_vector(28 * 28), integer_value(10)])
-def process(settings, filename):  # settings is not used currently.
-    f = open(filename, 'r')  # open one of training file
-    for line in f:  # read each line
-        label, pixel = line.split(';')
-        # get features and label
-        pixels_str = pixel.split(' ')
-        pixels_float = []
-        for each_pixel_str in pixels_str:
-            pixels_float.append(float(each_pixel_str))
-        # give data to paddle.
-        yield pixels_float, int(label)
-    f.close()  # close file
--- a/doc_cn/ui/data_provider/pydataprovider2.rst
+++ b/doc_cn/ui/data_provider/pydataprovider2.rst
--- a/doc_cn/ui/data_provider/sentimental_provider.py
+++ b/doc_cn/ui/data_provider/sentimental_provider.py
@@ -8,19 +8,16 @@ def on_init(settings, dictionary, **kwargs):
    # set input types in runtime. It will do the same thing as
    # @provider(input_types) will do, but it is set dynamically during runtime.
-    settings.input_types = [
+    settings.input_types = {
        # The text is a sequence of integer values, and each value is a word id.
        # The whole sequence is the sentences that we want to predict its
        # sentimental.
-        integer_value(
+        'data': integer_value_sequence(len(dictionary)),  # text input
-            len(dictionary), seq_type=SequenceType),  # text input
+        'label': integer_value(2)  # label positive/negative
+    }
-        # label positive/negative
+    # save dictionary as settings.dictionary. 
-        integer_value(2)
+    # It will be used in process method.
-    ]
-    # save dictionary as settings.dictionary. It will be used in process
-    # method.
    settings.dictionary = dictionary

--- a/doc_cn/ui/data_provider/write_new_dataprovider.rst
+++ b/doc_cn/ui/data_provider/write_new_dataprovider.rst
-自定义一个DataProvider
-====================
-TBD
\ No newline at end of file
--- a/doc_cn/ui/index.rst
+++ b/doc_cn/ui/index.rst
@@ -8,8 +8,8 @@
 ..  toctree::
    :maxdepth: 1
-    data_provider/index.rst
+    data_provider/dataprovider.rst
+    data_provider/pydataprovider2.rst
 命令及命令行参数
 ================
@@ -23,9 +23,8 @@
 * `参数分类 <../../doc/ui/cmd_argument/argument_outline.html>`_
 * `参数描述 <../../doc/ui/cmd_argument/detail_introduction.html>`_
 预测
-====
+=======
 ..  toctree::
    :maxdepth: 1