Merge pull request #8652 from jacquesqiao/fix-parallel-do-with-non-parameter

parallel-do should not merge the gradient of parameter that stop_gradient=True

Merge pull request #8652 from jacquesqiao/fix-parallel-do-with-non-parameter
parallel-do should not merge the gradient of parameter that stop_gradient=True
be9a2b2e · Qiao Longfei · GitHub · f9c1b6f9 · c4996fb8 · be9a2b2e
隐藏空白更改
内联并排

Showing with 4 addition and 0 deletion

python/paddle/fluid/backward.py python/paddle/fluid/backward.py +3 -0

python/paddle/fluid/tests/unittests/test_parallel_op.py python/paddle/fluid/tests/unittests/test_parallel_op.py +1 -0

未找到文件。
--- a/python/paddle/fluid/backward.py
+++ b/python/paddle/fluid/backward.py
@@ -220,7 +220,10 @@ def _callback_lookup_(op):
    :return: callback function
    """
    if op.type == 'parallel_do' and op.attr('use_nccl'):
+        all_vars = op.block.vars
        param_names = set(op.input('parameters'))
+        param_names = filter(lambda name: all_vars[name].stop_gradient is False,
+                             param_names)
        param_grad_names = [n + "@GRAD" for n in param_names]

        class ParallelDoCallBack(object):

--- a/python/paddle/fluid/tests/unittests/test_parallel_op.py
+++ b/python/paddle/fluid/tests/unittests/test_parallel_op.py
@@ -170,6 +170,7 @@ class ParallelOpTest(BaseParallelForTest):
        x = fluid.layers.data(shape=[784], dtype='float32', name='img')
        x = yield x
        hidden = fluid.layers.fc(input=x, size=200, param_attr='fc1.w')
+        hidden = fluid.layers.batch_norm(input=hidden)
        loss = fluid.layers.mean(hidden)
        yield loss