pydataprovider2.txt

PyDataProvider2的使用
=====================

PyDataProvider是PaddlePaddle使用Python提供数据的推荐接口。使用该接口用户可以只关注如何
从文件中读取每一条数据，而不用关心数据如何传输给PaddlePaddle，数据如何存储等等。该数据
接口使用多线程读取数据，并提供了简单的Cache功能。


简单的使用场景
--------------

这里以MNIST手写识别为例，来说明简单的PyDataProvider如何使用。MNIST是一个包含有
70,000张灰度图片的数字分类数据集。对于MNIST而言，标签是0-9的数字，而特征即为
28*28的像素灰度值。这里我们使用简单的文本文件表示MNIST图片，样例数据如下。

..  literalinclude:: mnist_train.txt

其数据使用;间隔，第一段数据为这张图片的label，第二段数据为这个图片的像素值。
首先我们将这个数据文件(例如文件名是'mnist_train.txt')写入train.list。那么
train.list即为

..  literalinclude:: train.list

那么对应的dataprovider既为

..  literalinclude:: mnist_provider.py
    :linenos:

其中第一行是引入PaddlePaddle的PyDataProvider2包。主要函数是process函数。process函数
具有两个参数，第一个参数是 settings 。这个参数在这个样例里没有使用，具
体可以参考 settings 。第二个参数是filename，这个参数被PaddlePaddle进程传入，为
train.list中的一行(即train.list若干数据文件路径的某一个路径)。

:code:`@provider` 是一个Python的 `Decorator <http://www.learnpython.org/en/Decorators>`_
。这行的作用是设置DataProvider的一些属性，并且标记process函数是一个DataProvider。
如果不了解 `Decorator <http://www.learnpython.org/en/Decorators>`_ 是什么也没关系，
只需要知道这只是一个标记属性的方法就可以了。

属性 `input_types`_ 是设置这个DataProvider返回什么样的数据。这里设置的是返回一个
28*28的稠密向量和一个[0-9]，10维的整数值。 `input_types`_ 具体可以设置成什么其他格
式，请参考 `input_types`_ 的文档。

process函数是实现数据输入的主函数，在这个函数中，实现了打开文本文件，从文本文件中读取
每一行，并将每行转换成和 `input_types`_ 一致的特征，并在23行返回给PaddlePaddle进程。需要注意
的是， 返回的顺序需要和 `input_types`_ 中定义的顺序一致。

同时，返回数据在PaddlePaddle中是仅仅返回一条完整的训练样本，并且使用关键词 :code:`yield` 。
在PyDataProvider中，可以为一个数据文件返回多条训练样本(就像这个样例一样)，只需要在
process函数调用多次 :code:`yield` 即可。 :code:`yield` 是Python的一个关键词，相关的概
念是 :code:`generator` 。使用这个关键词，可以在一个函数里，多次返回变量。

在训练配置里，只需要使用一行代码即可以设置训练引用这个DataProvider。这个设置为

..  literalinclude:: mnist_config.py

这里说明了训练数据是 'train.list'，而没有测试数据。引用的DataProvider是 'mnist_provider'
这个模块中的 'process' 函数。

同时，根据模型配置文件中 :code:`data_layer` 的名字，用户也可以显式指定返回的数据对应关系。例如:

.. literalinclude:: mnist_provider.dict.py
   :linenos:

如果用户不指定返回数据的对应关系，那么PaddlePaddle会粗略的根据layer的声明顺序，
来确定对应关系。这个对应关系可能不正确。所以推荐使用显式指定返回值和数据对应关系。

至此，简单的PyDataProvider样例就说明完毕了。对于用户来说，讲数据发送给PaddlePaddle，仅仅需要
知道如何从 **一个文件** 里面读取 **一条** 样本。而PaddlePaddle进程帮助用户做了

* 将数据组合成Batch训练
* Shuffle训练数据
* 多线程数据读取
* 缓存训练数据到内存(可选)
* CPU->GPU双缓存

是不是很简单呢？

序列模型数据提供
----------------

序列模型是指数据的某一维度是一个序列形式，即包含时间步信息。所谓时间步信息，
不一定和时间有关系，只是说明数据的顺序是重要的。例如，文本信息就是一个序列
数据。

这里举例的数据是英文情感分类的数据。数据是给一段英文文本，分类成正面情绪和
负面情绪两类(用0和1表示)。样例数据为

..  literalinclude:: sentimental_train.txt

这里，DataProvider可以是

..  literalinclude:: sentimental_provider.py

这个序列模型比较复杂。主要是增加了初始化机制。其中 :code:`on_init` 函数是使用
`@provider`_ 中的 `init_hook`_ 配置参数配置给DataProvider的。这个函数会在
DataProvider创建的时候执行。这个初始化函数具有如下参数:

* 第一个参数是 settings 对象。
* 其他参数均使用key word argument形式传入。有部分参数是Paddle自动生成的，
  参考 `init_hook`_ 。这里的 :code:`dictionary` 是从训练配置传入的dict对象。
  即从单词字符串到单词id的字典。

传入这个变量的方式为

..  literalinclude:: sentimental_config.py

这个声明基本上和mnist的样例一致。除了

* 在配置中读取了字典
* 在声明DataProvider的时候传入了dictionary作为参数。

在 :code:`on_init` 函数中，配置了 `input_types` 。这个和在 `@provider`_ 中配置
`input_types` 效果一致，但是在 `on_init` 中配置 `input_types` 是在运行时执行的，所以
可以根据不同的数据配置不同的输入类型。这里的输入特征是词id的序列，所以将 :code:`seq_type`
设置成了序列(同时，也可以使用 :code:`integer_sequence` 类型来设置)。

同时，将字典存入了settings 对象。这个字典可以在 :code:`process` 函数中使用。 :code:`process`
函数中的 settings 和 :code:`on_init` 中的settings 是同一个对象。

而在 :code:`process` 函数中，基本的处理逻辑也和mnist逻辑一致。依次返回了文件中的每条数据。

至此，基本的PyDataProvider使用介绍完毕了。具体DataProvider还具有什么功能，请参考下节reference。

参考(Reference)
---------------

@provider
+++++++++

:code:`@provider` 是一个Python的 `Decorator`_ ，他可以将某一个函数标记成一个PyDataProvider。它包含的参数有:

*  `input_types`_ 是数据输入格式。具体有哪些格式，参考 `input_types`_ 。
*  should_shuffle 是个DataProvider是不是要做shuffle，如果不设置的话，训练的时候默认shuffle，
   测试的时候默认不shuffle。
*  min_pool_size 是设置DataProvider在内存中最小暂存的数据条数。这个也是PaddlePaddle所能够保证的shuffle粒度。
   设置成-1的话，会预先读取全部数据到内存中。
*  pool_size 是设置DataProvider在内存中暂存的数据条数。设置成-1的话，即不在乎内存暂存多少条数据。
*  can_over_batch_size 表示是否允许Paddle暂存略微多余pool_size的数据。这样做可以避免很多死锁问题。
   一般推荐设置成True
*  calc_batch_size 传入的是一个函数，这个函数以一条数据为参数，返回batch_size的大小。默认情况下一条数据
   是一个batch size，但是有时为了计算均衡性，可以将一条数据设置成多个batch size
*  cache 是数据缓存的策略，参考 `cache`_
*  init_hook 是初始化时调用的函数，参考 `init_hook`_
*  check 设置成true的话，会根据input_types检查数据的合法性。
*  check_fail_continue 如果设置成true的话，即使在check中数据不合法，也会扔到这条数据，继续训练。 如果
   check是false的话，没有作用。

input_types
+++++++++++

PaddlePaddle的数据包括四种主要类型，和三种序列模式。其中，四种数据类型是

* dense_vector 表示稠密的浮点数向量。
* sparse_binary_vector 表示稀疏的零一向量，即大部分值为0，有值的位置只能取1
* sparse_vector 表示稀疏的向量，即大部分值为0，有值的部分可以是任何浮点数
* integer 表示整数标签。

而三种序列模式为

* SequenceType.NO_SEQUENCE 即不是一条序列
* SequenceType.SEQUENCE 即是一条时间序列
* SequenceType.SUB_SEQUENCE 即是一条时间序列，且序列的每一个元素还是一个时间序列。

不同的数据类型和序列模式返回的格式不同，列表如下

+----------------------+---------------------+-----------------------------------+------------------------------------------------+
|                      | NO_SEQUENCE         | SEQUENCE                          |  SUB_SEQUENCE                                  |
+======================+=====================+===================================+================================================+
| dense_vector         | [f, f, ...]         | [[f, ...], [f, ...], ...]         | [[[f, ...], ...], [[f, ...], ...],...]         |
+----------------------+---------------------+-----------------------------------+------------------------------------------------+
| sparse_binary_vector | [i, i, ...]         | [[i, ...], [i, ...], ...]         | [[[i, ...], ...], [[i, ...], ...],...]         |
+----------------------+---------------------+-----------------------------------+------------------------------------------------+
| sparse_vector        | [(i,f), (i,f), ...] | [[(i,f), ...], [(i,f), ...], ...] | [[[(i,f), ...], ...], [[(i,f), ...], ...],...] |
+----------------------+---------------------+-----------------------------------+------------------------------------------------+
| integer_value        |  i                  | [i, i, ...]                       | [[i, ...], [i, ...], ...]                      |
+----------------------+---------------------+-----------------------------------+------------------------------------------------+

其中，f代表一个浮点数，i代表一个整数。

init_hook
+++++++++

init_hook可以传入一个函数。这个函数在初始化的时候会被调用。这个函数的参数是:

* 第一个参数是 settings 对象。这个对象和process的第一个参数一致。具有的属性有
    * settings.input_types 设置输入类型。参考 `input_types`_
    * settings.logger 一个logging对象
* 其他参数都使用key word argument传入。这些参数包括paddle定义的参数，和用户传入的参数。
    * Paddle定义的参数包括:
        * is_train bool参数，表示这个DataProvider是训练用的DataProvider或者测试用的
          DataProvider
        * file_list 所有文件列表。
    * 用户定义的参数使用args在训练配置中设置。

注意，PaddlePaddle保留添加参数的权力，所以init_hook尽量使用 :code:`**kwargs` , 来接受不使用的
函数来保证兼容性。

cache
+++++

DataProvider提供了两种简单的Cache策略。他们是

* CacheType.NO_CACHE 不缓存任何数据，每次都会从python端读取数据
* CacheType.CACHE_PASS_IN_MEM 第一个pass会从python端读取数据，剩下的pass会直接从内存里
  读取数据。


注意事项
--------

可能的内存泄露问题
++++++++++++++++++

PaddlePaddle将train.list中的每一行，都传递给process函数，从而生成多个generator。
即如果train.list中，有100个训练文件，即会生成100个generator。这个本身不是一个很
严重的问题。

但是，如果在训练时，每一条训练数据都是一个文件，并且，训练数据非常多的情况下，就
会生成多个generator。每个generator在没有调用的时候，是几乎不占内存的。但是，当调
用过一次的时候，generator便会存下当前的上下文(Context)。而这个Context可能会非常
大。并且，generator至少调用两次才会知道是否停止。所以，即使在process里面只会有一
个yield，也需要两次随机选择到同样的generator的时候，才会释放该段内存。

..  code-block:: python

    def func():
        yield 0

    f = func()  # 创建generator
    tmp = next(f)  # 调用一次，返回0
    tmp = next(f)  # 调用第二次的时候，才会Stop Iteration

而如果按顺序调用这些generator就不会出现这个问题。

所以最佳实践推荐不要将每一个样本都放入train.list。而是将样本的地址放入另一个文本
文件，train.list写入那个文本文件的地址。 或者在python generator的上下文中尽量留
下非常少的变量引用。例如

..  code-block:: python

    def real_process(fn):
        # ... read from fn
        return result   # 当函数返回的时候，python可以解除掉内部变量的引用。

    def process(fn):
        yield real_process(fn)

这个问题是PyDataProvider读数据时候的逻辑问题，基本上不能整体修正。


内存不够用的情况
++++++++++++++++

PyDataProvider2会尽量使用内存。所以如果对于内存比较小的机器，推荐设置
:code:`pool_size` 变量，而这个变量推荐大于训练的batch size，并且在内存足够
的情况下越大越好。