Update use_concepts

8c2e5b2c · dangqingqing · abcae005 · 8c2e5b2c · 8c2e5b2c
隐藏空白更改
内联并排

Showing with 88 addition and 87 deletion

doc_cn/concepts/use_concepts.rst doc_cn/concepts/use_concepts.rst +70 -86

doc_cn/faq/index.rst doc_cn/faq/index.rst +18 -1

未找到文件。
--- a/doc_cn/concepts/use_concepts.rst
+++ b/doc_cn/concepts/use_concepts.rst
@@ -2,16 +2,20 @@
 PaddlePaddle 基本使用概念
 #########################

-PaddlePaddle是一个深度学习框架，同时支持单机和多机模式的系统。命令 ``paddle train`` 可启动单机模式的进程，我们称之为 ``trainer`` 进程。单机所有设备使用均在单机进程内调度完成。多机模式除了需要启动trainer进程外，还需要通过命令 ``paddle pserver`` 启动多机参数服务器进程, 我们称之为   ``pserver`` 进程。该进程负责多个单机进程间的通信，进而充分利用集群的计算资源。 PaddlePaddle同时以 ``swig api`` 的形式，提供训练结果模型预测的方法和自定义训练流程。
+PaddlePaddle是一个深度学习框架，支持单机模式和多机模式。

-下面我们会介绍trainer进程中的一些概念，这些概念会对如何使用PaddlePaddle有一定的帮助。 了解这些概念的前提是，读者已经了解 `基本的神经网络/机器学习原理和概念 <nn.html>`_ 。同时，如果想要了解PaddlePaddle实现中的一些概念，请参考 `PaddlePaddle 编程中的基本概念 <program_concepts.html>`_ 。
+单节模式用命令 ``paddle train`` 可以启动一个trainer进程，一个单机训练作业只包括一个trainer进程，单机的所有设备使用，均在单机进程内调度完成。
+
+如果数据规模比较大，希望加速训练，可以启动分布式作业。一个分布式作业里包括若干trainer进程和若干Parameter Server（或称pserver）进程。用命令 ``paddle pserver`` 可以启动 pserver 进程，pserver进程用于协调多个trainer进程之间的通信。
+
+本文首先介绍trainer进程中的一些使用概念，然后介绍pserver进程中概念。

 ..	contents::

-系统模块
+系统框图
 ========

-``trainer`` 进程内嵌了一个 ``python`` 解释器， 这个 ``python`` 解释器负责解析用户定义的神经网络配置；解析输入数据流，并将数据传入给 ``trainer`` 系统。
+下图描述了用户使用框图，PaddlePaddle里链接了Python解释器，trainer进程可以利用这个解释器执行Python脚本，Python脚本里定义了模型配置、训练算法、以及数据读取函数。其中，数据读取程序往往定义在一个单独Python脚本文件里，被称为DataProvider，通常是一个Python函数。模型配置、训练算法通常定义在另一单独Python文件中。下面将分别介绍这两部分。

 ..	graphviz:: 

@@ -30,132 +34,105 @@ PaddlePaddle是一个深度学习框架，同时支持单机和多机模式的
 		py -> data_provider [dir="back"];
 	}

-所以，单机训练 ``trainer`` 进程对用户的主要接口语言为Python。用户需要配置文件主要有两个：数据流提供器 ``DataProvider`` 和模型配置 ``TrainerConfig``  。
-
-
 DataProvider
 ============

-DataProvider是 ``trainer`` 进程的数据提供器。主要负责将用户的原始数据转换成 ``trainer`` 系统可以识别的数据类型。当系统需要新的数据训练时，会调用DataProvider获取数据接口。当所有数据读取完一轮后，DataProvider返回空数据通知系统一轮数据读取结束。 ``trainer`` 在每一轮训练开始时会重置DataProvider。
+在不同的应用里，训练数据的格式往往各不相同。因此，为了用户能够灵活的处理数据，我们提供了Python处理数据的接口，称为 `PyDataProvider`_ 。

-需要注意的是，DataProvider是被 ``trainer`` 系统调用，而不是新数据驱动系统；数据 ``shuffle`` 和一些随机化噪声添加都应该在DataProvider中完成。
+trainer进程会调用DataProvider函数，将用户的原始数据转换成系统可以识别的数据类型。当所有数据读取完一轮后，DataProvider返回空数据，通知系统一轮数据读取结束，系统每一轮训练开始时会重置DataProvider。需要注意的是，DataProvider是被系统调用，而不是新数据驱动系统，一些随机化噪声添加都应该在DataProvider中完成。

-为了用户能够灵活的处理数据，PaddlePaddle提供了处理数据的Python接口（称为 `PyDataProvider`_ ）。 在 ``PyDataProvider`` 中，系统C++模块接管了shuffle、处理batch、GPU和CPU通信、双缓冲、异步读取等问题，需要说明的是，一些情况下需要Python接口里处理shuffle，可以参考 `PyDataProvider`_ 的相关文档继续深入了解。
+在 ``PyDataProvider`` 中，系统C++模块接管了shuffle、处理batch、GPU和CPU通信、双缓冲、异步读取等问题，一些情况下(如：``min_pool_size=0``)需要Python接口里处理shuffle，可以参考 `PyDataProvider`_ 的相关文档继续深入了解。


-TrainerConfig
-=============
-
-模型配置是一个Python文件，主要包括神经网络结构、优化算法、数据传入方式，使用命令行参数 ``--config`` 传给``trainer``主程序。 例如\:
-
-..	code-block:: bash
+模型配置文件
+============

-	paddle train --config=trainer_config.py
+模型配置主要包括数据传入接口定义(DataConfig)、优化算法(OptimizationConfig)、网络结构(ModelConfig)。 其中数据传入接口定义与DataProvider的关系是：DataProvider里定义数据读取函数，配置文件的DataConfig里指定DataProvider文件名字、生成数据函数接口，请不要混淆。

 一个简单的模型配置文件为：

 ..  literalinclude:: trainer_config.py
    :linenos:

-下面我们详细的介绍一下模型配置中各个模块的概念。
-
+文件开头 ``from paddle.trainer_config_helpers import *`` ，是因为PaddlePaddle配置文件与C++模块通信的最基础协议是protobuf。为了避免用户直接写复杂的protobuf string，我们为用户定以Python接口来配置网络，该Python代码可以生成protobuf包，这就是的作用`trainer_config_helpers`_的作用。因此，在文件的开始，需要import这些函数。 这个包里面包含了模型配置需要的各个模块。

-trainer_config_helpers
----------------------
+下面分别介绍DataConfig、OptimizationConfig、ModelConfig这三部分该概念。

-PaddlePaddle配置文件与C++模块通信的最基础协议是 ``protobuf`` 。为了避免用户直接写比较难写的protobuf string，我们通过Python代码来生成protobuf包，这就是helpers的作用。所以在文件的开始，需要import这些helpers函数。
+DataConfig
+----------

-需要注意的是，这个 ``paddle.trainer_config_helpers`` 包是标准的python包，这意味着用户可以选择自己喜欢的 ``IDE`` 或者编辑器来编写Paddle的配置文件，这个Python包注释文档比较完善，并提供了IDE的代码提示与类型注释。
+使用函数 ``define_py_data_sources2`` 配置数据源，后缀 2 是Paddle历史遗留问题，因为Paddle之前使用的PyDataProvider性能问题，重构了一个新的 `PyDataProvider`_ 。

-data_sources
------------
+``define_py_data_sources2`` 里通过train_list和test_list指定是训练文件列表和测试文件列表。 如果传入字符串的话，是指一个数据列表文件。这个数据列表文件中包含的是每一个训练或者测试文件的路径。如果传入一个list的话，则会默认生成一个list文件，再传入给train.list或者test.list。

-data_sources配置神经网络的数据源，使用的函数是 ``define_py_data_sources2`` ，这个函数是定义了使用 `PyDataProvider`_ 提供数据源。后缀 ``2`` 是Paddle历史遗留问题，因为Paddle之前使用的PyDataProvider性能问题，重构了一个新的 `PyDataProvider`_ 。
+``module`` 和 ``obj`` 指定了DataProvider的文件名和返回数据的函数名。更详细的使用，请参考 `PyDataProvider`_ 。

-data_sources里通过train_list和test_list指定是训练文件列表和测试文件列表。 如果传入字符串的话，是指一个数据列表文件。这个数据列表文件中包含的是每一个训练或者测试文件的路径。如果传入一个list的话，则会默认生成一个list文件，再传入给train.list或者test.list。
+OptimizationConfig
+------------------

-其中``module`` 和``obj``指定了DataProvider的文件名和返回数据的函数名。更详细的使用，请参考 `PyDataProvider`_ 。
+通过`settings`_ 接口设置神经网络所使用的训练参数和优化算法，包括学习率、batch_size、优化算法、正则方法等，具体的使用方法请参考 `settings`_ 文档。

-settings
--------
+ModelConfig
+-----------

-`settings`_ 设置训练神经网络所使用的算法。包括学习率、batch_size、优化算法、正则方法等，具体的使用方法请参考 `settings`_ 文档。
+神经网络配置主要包括网络连接、激活函数、损失函数、评估器。

-网络配置
--------
+- 网络连接： 主要由Layer组成，每个Layer返回的都是一个 ``LayerOutput`` 对象，Layer里面可以定义参数属性、激活类型等。

-上述配置中余下的部分是神经网络配置，主要包括网络连接、 ``cost`` 层、评估器。
+  为了更灵活的配置，PaddlePaddle提供了基于 Projection 或者 Operator 的配置，这两个需要与 ``mixed_layer`` 配合使用。这里简单介绍Layer、Projection、Operator的概念:

- 首先，定义了一个名字叫"pixel"的 ``data_layer`` ，每个layer返回的都是一个 ``LayerOutput`` 对象，比如第一层的输出对象称作 ``img`` 。
- 然后，这个对象作为另一个layer（ ``simple_img_conv_pool`` ）的输入， ``simple_img_conv_pool`` 是一个组合层，包括了图像的卷积 (convolution) 和池化(pooling)，
- 其次，连接到全连接层(``fc_layer``)，再连接到一个含Softmax激活的全连接层。
- 最终，连接到cost层（ ``classification_cost`` ）， ``classification_cost`` 默认使用多类交叉熵损失函数和分类错误率统计评估器。标记网络输出的函数为 ``outputs`` ，网络的输出是神经网络的优化目标，神经网络训练的时候，实际上就是要最小化这个输出。
+  - Layer: 神经网络的某一层，可以有可学习的参数，一般是封装了许多复杂操作的集合。
+  - Projection：需要与 ``mixed_layer`` 配合使用，含可学习参数。
+  - Operator： 需要与 ``mixed_layer`` 配合使用，不含可学习参数，输入全是其他Layer的输出。

-用该模型配置进行预测时，网络的输出也是通过 ``outputs`` 标记。
+ 
+  这个配置文件网络由 ``data_layer`` 、 ``simple_img_conv_pool`` 、 ``fc_layer`` 组成。

+  - `data_layer`_  ： 通常每个配置文件都会包括 ``data_layer`` ，定义输入数据大小。
+  - `simple_img_conv_pool`_ ：是一个组合层，包括了图像的卷积 (convolution)和池化(pooling)。
+  - `fc_layer`_ ：全连接层，激活函数为Softmax，这里也可叫分类层。

-Layer、Projection、Operator
-===========================
+  
+- 损失函数和评估器：损失函数即为网络的优化目标，评估器可以评价模型结果。

-PaddlePaddle的网络是基于Layer来配置的。所谓的Layer即是神经网络的某一层，一般是封装了许多复杂操作的操作集合。比如最简单的 ``fc_layer`` ，包括矩阵乘法、多输入的求和、加Bias操作、激活( ``activation`` )函数操作。
-
-..	code-block:: python
+  PaddlePaddle包括很多损失函数和评估起，详细可以参考 `损失函数层`_ 和 `评估器`_ 。这里 ``classification_cost`` 默认使用多类交叉熵损失函数和分类错误率统计评估器。
+  
+- ``outputs``: 标记网络输出的函数为 ``outputs`` 。

-	data = data_layer(name='data', size=200)
-	out = fc_layer(input=data, size=200, act=TanhActivation())
+ 训练阶段，网络的输出为神经网络的优化目标；预测阶段，网络的输出也可通过 ``outputs`` 标记。

-对于更灵活配置需求，PaddlePaddle提供了基于 ``Projection`` 或者 ``Operator`` 的配置，这些需要与 ``mixed_layer`` 配合使用。 ``mixed_layer`` 是将多个输入累加求和，然后加Bias和 ``activation`` 操作。 ``mixed_layer`` 具体计算是通过内部的Projection和Operator完成。Projection含有可学习参数；而Operator不含可学习的参数，输入全是其他Layer的输出。

+这里对 ``mixed_layer`` 稍做详细说明， 该Layer将多个输入(Projection 或 Operator)累加求和，具体计算是通过内部的 Projection 和 Operator 完成，然后加 Bias 和 activation 操作，

 例如，和 ``fc_layer`` 同样功能的 ``mixed_layer`` 是:

 ..	code-block:: python
+   
+   	data = data_layer(name='data', size=200)
+   	with mixed_layer(size=200) as out:
+   		out += full_matrix_projection(input=data)

-	data = data_layer(name='data', size=200)
-	with mixed_layer(size=200) as out:
-		out += full_matrix_projection(input=data)
-
-PaddlePaddle可以使用 ``mixed layer`` 配置出非常复杂的网络，甚至可以直接配置一个完整的LSTM。用户可以参考 `mixed_layer`_ 的相关文档进行配置。
-
-如何利用单机的所有GPU或所有CPU核心
-===============================
-
-PaddlePaddle的单机 ``trainer`` 进程可以充分利用一台计算机上所有的GPU资源或者CPU。
+PaddlePaddle 可以使用 ``mixed layer`` 配置出非常复杂的网络，甚至可以直接配置一个完整的LSTM。用户可以参考 `mixed_layer`_ 的相关文档进行配置。

-如果要使用机器上多块GPU，使用如下命令即可\:

-..	code-block:: bash
-
-	paddle train --use_gpu=true --trainer_count=4  # use 4 gpu card, 0, 1, 2, 3
-
-如果要使用机器上多块CPU, 使用如下命令即可\:
-
-..	code-block:: bash
-
-	paddle train --trainer_count=4  # use 4 cpu cores.
-
-如果要指定GPU编号，例如选择第0、2号GPU，则可以设置 ``CUDA_VISIBLE_DEVICES`` 环境变量来指定特定的GPU。具体可以参考连接`masking-gpu`_ ，命令为：
+分布式训练
+==========

-..	code-block:: bash
-
-	env CUDA_VISIBLE_DEVICES=0,2 paddle train --use_gpu=true --trainer_count=2
-
-如何利用多台机器的计算资源训练神经网络
-===================================
-
-PaddlePaddle多机采用经典的 ``Parameter Server`` 架构对多个节点的 ``trainer`` 进行同步。多机训练神经网络，要讲数据切分到不同的机器上，切分数据相对简单，所以在PaddlePaddle的开源实现中并没有提供相关工具包。
-
-多机训练的经典拓扑结构如下\:
+PaddlePaddle多机采用经典的 Parameter Server 架构对多个节点的 trainer 进行同步。多机训练的经典拓扑结构如下\:

 ..	graphviz:: pserver_topology.dot

-图中每个灰色方块是一台机器，在每个机器中，先启动一个 ``paddle pserver`` 进程，并指定端口号，可能的参数是\:
+图中每个灰色方块是一台机器，在每个机器中，先使用命令 ``paddle pserver`` 启动一个pserver进程，并指定端口号，可能的参数是\:

 ..	code-block:: bash

 	paddle pserver --port=5000 --num_gradient_servers=4 --nics='eth0'

-这里说明系统的 ``pserver`` 进程端口是 ``5000`` ，有四个训练进程(即 ``--gradient_servers=4`` ，PaddlePaddle同时将 ``trainer`` 称作 ``GradientServer`` 。因为其为负责提供Gradient)。 启动之后 ``pserver`` 进程之后，需要 ``trainer`` 训练进程，再在各个机器上运行如下命令\:
+* 指定 pserver 进程端口是 5000 。
+* 有四个训练进程(即 ``--gradient_servers=4`` ，PaddlePaddle同时将 trainer 称作 GradientServer 。因为其为负责提供Gradient) 。
+* 指定以太网类型为TCP网络。
+
+启动之后 pserver 进程之后，需要启动 trainer 训练进程，在各个机器上运行如下命令\:

 ..	code-block:: bash

@@ -163,16 +140,23 @@ PaddlePaddle多机采用经典的 ``Parameter Server`` 架构对多个节点的

 对于简单的多机协同训练使用上述方式即可。另外，pserver/train 通常在高级情况下，还需要设置下面两个参数\：

-* --ports_num\: 一个 pserver进程共绑定多少个端口用来做稠密更新。默认是1
+* --ports_num\: 一个 pserver 进程共绑定多少个端口用来做稠密更新。默认是1
 * --ports_num_for_sparse\: 一个pserver进程共绑定多少端口用来做稀疏更新，默认是0

-使用手工指定端口数量，是因为Paddle的网络通信中，使用了 ``int32`` 作为消息长度，比较容易在大模型下溢出。所以，在 ``pserver`` 进程中可以启动多个子线程去接受trainer的数据，这样单个子线程的长度就不会溢出了。但是这个值不可以调的过大，因为增加这个值，对性能尤其是内存占用有一定的开销，另外稀疏更新的端口如果太大的话，很容易导致某一个参数服务器没有分配到任何参数。
+使用手工指定端口数量，是因为Paddle的网络通信中，使用了 int32 作为消息长度，比较容易在大模型下溢出。所以，在 pserver 进程中可以启动多个子线程去接受 trainer 的数据，这样单个子线程的长度就不会溢出了。但是这个值不可以调的过大，因为增加这个值，对性能尤其是内存占用有一定的开销，另外稀疏更新的端口如果太大的话，很容易导致某一个参数服务器没有分配到任何参数。

 详细的说明可以参考，使用 `集群训练Paddle`_ 。


 ..  _PyDataProvider: ../ui/data_provider/pydataprovider2.html
-..	_settings: ../../doc/ui/api/trainer_config_helpers/optimizers.html#settings
-..	_mixed_layer: ../../doc/ui/api/trainer_config_helpers/layers.html#mixed-layer
-..	_masking-gpu: http://www.acceleware.com/blog/cudavisibledevices-masking-gpus
+.. _settings: ../../doc/ui/api/trainer_config_helpers/optimizers.html#settings
+.. _trainer_config_helper: ../../doc/ui/api/trainer_config_helpers/index.html
+.. _data_layer: ../../doc/ui/api/trainer_config_helpers/layers.html#data-layer
+.. _simple_img_conv_pool: ../../doc/ui/api/trainer_config_helpers/networks.html#simple-img-conv-pool
+.. _fc_layer: ../../doc/ui/api/trainer_config_helpers/layers.html#fc-layer
+.. _损失函数层: ../../doc/ui/api/trainer_config_helpers/layers.html#cost-layers
+.. _评估器: ../../doc/ui/api/trainer_config_helpers/evaluators.html
+.. _mixed_layer: ../../doc/ui/api/trainer_config_helpers/layers.html#mixed-layer
+.. _masking-gpu: http://www.acceleware.com/blog/cudavisibledevices-masking-gpus
+
 ..  _集群训练Paddle: ../cluster/index.html
--- a/doc_cn/faq/index.rst
+++ b/doc_cn/faq/index.rst
@@ -213,4 +213,21 @@ PaddlePaddle的参数使用名字 :code:`name` 作为参数的ID，相同名字
 原因是：单元测试使用了一个旧版本的python包，而没有测试到代码中实际修改的python包。即单元测试需要一个干净的环境：

 * 如果paddle包已经在python的site-packages里面了，那么单元测试时使用的paddle包，就是site-packages里面的python包，而不是源码目录里 :code:`/python` 目录下的python包。
-* 即便设置了 :code:`PYTHONPATH` 到 :code:`/python` 也没用，因为python的搜索路径是优先已经安装的python包。
\ No newline at end of file
+* 即便设置了 :code:`PYTHONPATH` 到 :code:`/python` 也没用，因为python的搜索路径是优先已经安装的python包。
+
+9. 如何指定GPU设备
+-----------------
+
+例如机器上有4块GPU，编号从0开始，指定使用2、3号GPU：
+
+* 方式1：通过 ``CUDA_VISIBLE_DEVICES`` 环境变量来指定特定的GPU。
+
+..      code-block:: bash
+
+        env CUDA_VISIBLE_DEVICES=2,3 paddle train --use_gpu=true --trainer_count=2
+
+* 方式2：通过命令行参数 ``--gpu_id`` 指定。
+
+..      code-block:: bash
+
+        paddle train --use_gpu=true --trainer_count=2 --gpu_id=2