Use stream while memory::Copy in GPU mode

00ad7512 · wanghaoshuang · 74b283c9 · 00ad7512 · 00ad7512
隐藏空白更改
内联并排

Showing with 31 addition and 9 deletion

paddle/operators/seq_expand_op.cc paddle/operators/seq_expand_op.cc +1 -1

paddle/operators/seq_expand_op.h paddle/operators/seq_expand_op.h +30 -8

未找到文件。
--- a/paddle/operators/seq_expand_op.cc
+++ b/paddle/operators/seq_expand_op.cc
@@ -40,7 +40,7 @@ class SeqExpandOp : public framework::OperatorWithKernel {
      out_dim[0] = out_dim[0] * repeat;
    }
    PADDLE_ENFORCE(ctx->HasOutput("Out"),
-                   "Output(Out) of PadOp should not be null.");
+                   "Output(Out) of SeqExpandOp should not be null.");
    ctx->SetOutputDim("Out", out_dim);
  }
 };

--- a/paddle/operators/seq_expand_op.h
+++ b/paddle/operators/seq_expand_op.h
@@ -75,15 +75,37 @@ class SeqExpandKernel : public framework::OpKernel<T> {
    T* out_data = out->mutable_data<T>(context.GetPlace());
    // copy data
-    Place place = boost::get<Place>(context.GetPlace());
+    auto place = context.GetPlace();
    size_t count = 0;
-    for (size_t i = 0; i < scales.size(); ++i) {
+    if (platform::is_cpu_place(place)) {
-      count = element_len * (x_lod[0][i + 1] - x_lod[0][i]);
+      auto& cpu_place = boost::get<platform::CPUPlace>(place);
-      for (size_t j = 0; j < scales[i]; ++j) {
+      for (size_t i = 0; i < scales.size(); ++i) {
-        memory::Copy(place, out_data, place, x_data, sizeof(T) * count);
+        count = element_len * (x_lod[0][i + 1] - x_lod[0][i]);
-        out_data += count;
+        for (size_t j = 0; j < scales[i]; ++j) {
+          memory::Copy(cpu_place, out_data, cpu_place, x_data,
+                       sizeof(T) * count);
+          out_data += count;
+        }
+        x_data += count;
      }
-      x_data += count;
+    } else {
+#ifdef PADDLE_WITH_CUDA
+      auto& gpu_place = boost::get<platform::GPUPlace>(place);
+      auto stream = reinterpret_cast<const platform::CUDADeviceContext&>(
+                        context.device_context())
+                        .stream();
+      for (size_t i = 0; i < scales.size(); ++i) {
+        count = element_len * (x_lod[0][i + 1] - x_lod[0][i]);
+        for (size_t j = 0; j < scales[i]; ++j) {
+          memory::Copy(gpu_place, out_data, gpu_place, x_data,
+                       sizeof(T) * count, stream);
+          out_data += count;
+        }
+        x_data += count;
+      }
+#else
+      PADDLE_THROW("Paddle is not compiled with GPU");
+#endif
    }
    out->set_lod(out_lod);
@@ -113,7 +135,7 @@ class SeqExpandGradKernel : public framework::OpKernel<T> {
      Eigen::TensorMap<Eigen::Tensor<T, 1>> d_x_t(
          d_x_data, static_cast<int>((ele_count * element_len) / repeat));
      auto place = context.GetEigenDevice<Place>();
-      d_x_t.device(place) = d_out_t.sum(Eigen::array<int, 1>({0}));
+      d_x_t.device(place) = d_out_t.sum(Eigen::array<int, 1>({{0}}));
      d_out_data += (ele_count * element_len);
      d_x_data += ((ele_count * element_len) / repeat);
    }