DataParallel_cn.rst 2.7 KB
Newer Older
J
JepsonWong 已提交
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
.. _cn_api_fluid_dygraph_DataParallel:

DataParallel
-------------------------------

.. py:class:: paddle.fluid.dygraph.DataParallel(layers, strategy)

该接口用于构建 ``DataParallel`` 类的一个可调用对象,具体用法参照 ``代码示例`` 。用于实现在数据并行模式下运行模型。

当前, ``DataParallel`` 仅支持使用多进程来运行动态图程序,具体用法如下(其中 ``dynamic_graph_test.py`` 是包含示例代码的文件):

``python -m paddle.distributed.launch --selected_gpus=0,1 dynamic_graph_test.py``

参数:
    - **layers** (Layer) - 需要在数据并行模式下运行的模型。
J
JepsonWong 已提交
16
    - **strategy** (ParallelStrategy) - 数据并行化策略。由 :ref:`cn_api_fluid_dygraph_prepare_context` 产生的对象。
J
JepsonWong 已提交
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

返回:
    None

.. code-block:: python

   import numpy as np
   import paddle.fluid as fluid
   import paddle.fluid.dygraph as dygraph
   from paddle.fluid.optimizer import AdamOptimizer
   from paddle.fluid.dygraph.nn import Linear
   from paddle.fluid.dygraph.base import to_variable

   place = fluid.CUDAPlace(fluid.dygraph.parallel.Env().dev_id)
   with fluid.dygraph.guard(place=place):

J
JepsonWong 已提交
33
       # 准备数据并行模式下的环境配置
J
JepsonWong 已提交
34 35 36 37 38
       strategy=dygraph.parallel.prepare_context()

       linear = Linear(1, 10, act="softmax")
       adam = fluid.optimizer.AdamOptimizer(parameter_list=linear.parameters())

J
JepsonWong 已提交
39
       # 使用户的模型linear变成数据并行模式下的模型
J
JepsonWong 已提交
40 41 42 43 44 45 46 47
       linear = dygraph.parallel.DataParallel(linear, strategy)

       x_data = np.random.random(size=[10, 1]).astype(np.float32)
       data = to_variable(x_data)

       hidden = linear(data)
       avg_loss = fluid.layers.mean(hidden)

J
JepsonWong 已提交
48
       # 根据trainers的数量来损失值进行缩放,其中trainers为参与训练GPU卡的数量。
J
JepsonWong 已提交
49 50 51 52
       avg_loss = linear.scale_loss(avg_loss)

       avg_loss.backward()

J
JepsonWong 已提交
53
       # 对多个trainers下模型的参数梯度进行平均 
J
JepsonWong 已提交
54 55 56 57 58 59 60
       linear.apply_collective_grads()

       adam.minimize(avg_loss)
       linear.clear_gradients()

.. py:method:: scale_loss(loss)

J
JepsonWong 已提交
61
对损失值进行缩放。在数据并行模式下,损失值根据 ``trainers`` 的数量缩放一定的比例;反之,返回原始的损失值。在 ``backward`` 前调用,示例如上。其中 ``trainers`` 为参与训练GPU卡的数量。
J
JepsonWong 已提交
62 63 64 65 66 67 68 69 70 71

参数:
    - **loss** (Variable) - 当前模型的损失值

返回:缩放的损失值

返回类型:Variable

.. py:method:: apply_collective_grads()

J
JepsonWong 已提交
72
使用AllReduce模式来计算数据并行模式下多个 ``trainers`` 模型之间参数梯度的均值。在 ``backward`` 之后调用,示例如上。其中 ``trainers`` 为参与训练GPU卡的数量。
J
JepsonWong 已提交
73