testing

3667578e · typhoonzero · d9320dcd · 3667578e · 3667578e
隐藏空白更改
内联并排

Showing with 8 addition and 4 deletion

paddle/fluid/platform/nccl_helper.h paddle/fluid/platform/nccl_helper.h +2 -2

python/paddle/fluid/parallel_executor.py python/paddle/fluid/parallel_executor.py +6 -2

未找到文件。
--- a/paddle/fluid/platform/nccl_helper.h
+++ b/paddle/fluid/platform/nccl_helper.h
@@ -108,8 +108,8 @@ struct NCCLContextMap {
        for (auto &gpu_id : order_) {
          int rank = trainer_id * order_.size() + gpu_id;
          PADDLE_ENFORCE(cudaSetDevice(gpu_id));
-          PADDLE_ENFORCE(
+          PADDLE_ENFORCE(platform::dynload::ncclCommInitRank(
-              ncclCommInitRank(comms.get() + gpu_id, nranks, *nccl_id, rank));
+              comms.get() + gpu_id, nranks, *nccl_id, rank));
        }
      }
    }

--- a/python/paddle/fluid/parallel_executor.py
+++ b/python/paddle/fluid/parallel_executor.py
@@ -30,7 +30,9 @@ class ParallelExecutor(object):
                 num_threads=None,
                 allow_op_delay=False,
                 share_vars_from=None,
-                 use_default_grad_scale=True):
+                 use_default_grad_scale=True,
+                 num_nodes=0,
+                 trainer_id=0):
        """
        ParallelExecutor can run program in parallel.
@@ -129,7 +131,9 @@ class ParallelExecutor(object):
            scope,
            local_scopes,
            allow_op_delay,
-            use_default_grad_scale)
+            use_default_grad_scale,
+            num_nodes,
+            trainer_id)
        self.scope = scope
    def run(self, fetch_list, feed=None, feed_dict=None):