update for multi trainer

f8f80db1 · typhoonzero · e13e15d8 · f8f80db1 · f8f80db1
显示空白变更内容
内联并排

Showing with 16 addition and 11 deletion

paddle/operators/recv_op.cc paddle/operators/recv_op.cc +2 -6

python/paddle/v2/fluid/distribute_transpiler.py python/paddle/v2/fluid/distribute_transpiler.py +14 -5

未找到文件。
--- a/paddle/operators/recv_op.cc
+++ b/paddle/operators/recv_op.cc
@@ -63,7 +63,7 @@ class RecvOp : public framework::OperatorBase {
  }
  std::string GetGradVarNameForTrainer(const std::string &varname) const {
-    if (grads_counter_.find(varname) != grads_counter_.end()) {
+    if (grads_counter_.find(varname) == grads_counter_.end()) {
      grads_counter_[varname] = 0;
    }
    char ret[256];
@@ -96,12 +96,8 @@ class RecvOp : public framework::OperatorBase {
        VLOG(10) << "recved grad: " << grad_var_name
                 << " updating param: " << param_var_name;
        if (trainer_count > 1) {
-          auto *var = recv_scope.FindVar(grad_var_name);
-          if (var != nullptr) {
-            // must rename the var to different names to merge gradient.
          grad_var_name = this->GetGradVarNameForTrainer(grad_var_name);
        }
-        }
        auto *var = recv_scope.Var(grad_var_name);
        auto *tensor = var->GetMutable<framework::LoDTensor>();

--- a/python/paddle/v2/fluid/distribute_transpiler.py
+++ b/python/paddle/v2/fluid/distribute_transpiler.py
@@ -183,6 +183,15 @@ class DistributeTranspiler:
                        persistable=var.persistable,
                        dtype=var.dtype,
                        shape=var.shape)
+            if opt_op.inputs.has_key("Grad"):
+                if opt_op.inputs["Grad"].name in grad_var_names:
+                    optimize_sub_program.global_block().append_op(
+                        type=opt_op.type,
+                        inputs=opt_op.inputs,
+                        outputs=opt_op.outputs,
+                        attrs=opt_op.attrs)
+            else:
                optimize_sub_program.global_block().append_op(
                    type=opt_op.type,
                    inputs=opt_op.inputs,