lazy mode have higher priority then multithread

test=develop

lazy mode have higher priority then multithread
test=develop
7a58ad5c · Qiao Longfei · d0572bf0 · 7a58ad5c
隐藏空白更改
内联并排

Showing with 14 addition and 18 deletion

paddle/fluid/operators/optimizers/adam_op.h paddle/fluid/operators/optimizers/adam_op.h +14 -18

未找到文件。
--- a/paddle/fluid/operators/optimizers/adam_op.h
+++ b/paddle/fluid/operators/optimizers/adam_op.h
@@ -473,10 +473,19 @@ class AdamOpKernel : public framework::OpKernel<T> {
            lr.template data<T>(), grad_data, param.template data<T>(),
            param_out.template mutable_data<T>(ctx.GetPlace()), rows, row_numel,
            grad_merge.rows().size(), lazy_mode);
-        // multi thread speedup
+        if (lazy_mode) {
-        if (FLAGS_inner_op_parallelism > 1 &&
+          VLOG(3) << "run cpu lazy mode";
-            FLAGS_min_param_size_to_use_multithread > 0 &&
+          size_t row_count = grad_merge.rows().size();
-            param.numel() > FLAGS_min_param_size_to_use_multithread) {
+          std::vector<int64_t> cpu_rows(grad_merge.rows());
+          for (size_t row_index = 0; row_index < row_count; ++row_index) {
+            for (size_t offset = 0; offset < row_numel; ++offset) {
+              size_t i = cpu_rows[row_index] * row_numel + offset;
+              functor.adam_update(i, grad_data[row_index * row_numel + offset]);
+            }
+          }
+        } else if (FLAGS_inner_op_parallelism > 1 &&
+                   FLAGS_min_param_size_to_use_multithread > 0 &&
+                   param.numel() > FLAGS_min_param_size_to_use_multithread) {
          VLOG(3) << "use multi thread, inner_op_parallelism="
                  << FLAGS_inner_op_parallelism
                  << " min_param_size_to_use_multithread="
@@ -508,20 +517,7 @@ class AdamOpKernel : public framework::OpKernel<T> {
          }
          for (size_t i = 0; i < fs.size(); ++i) fs[i].wait();
        } else {
-          if (lazy_mode) {
+          functor(param.numel());
-            VLOG(3) << "run cpu lazy mode";
-            size_t row_count = grad_merge.rows().size();
-            std::vector<int64_t> cpu_rows(grad_merge.rows());
-            for (size_t row_index = 0; row_index < row_count; ++row_index) {
-              for (size_t offset = 0; offset < row_numel; ++offset) {
-                size_t i = cpu_rows[row_index] * row_numel + offset;
-                functor.adam_update(i,
-                                    grad_data[row_index * row_numel + offset]);
-              }
-            }
-          } else {
-            functor(param.numel());
-          }
        }
      } else if (platform::is_gpu_place(ctx.GetPlace())) {
        SparseAdamFunctor<T, GPUAdam> functor(