"fix accuracy kernel bug" (#5673)

* "fix accuracy kernel bug" * "relauch ci"

"fix accuracy kernel bug" (#5673)
* "fix accuracy kernel bug" * "relauch ci"
e97b8987 · dzhwinter · GitHub · f95c291b · e97b8987 · e97b8987
Showing with 21 addition and 10 deletion

paddle/operators/accuracy_op.cu paddle/operators/accuracy_op.cu +13 -10

paddle/platform/gpu_info.cc paddle/platform/gpu_info.cc +5 -0

paddle/platform/gpu_info.h paddle/platform/gpu_info.h +3 -0

未找到文件。
--- a/paddle/operators/accuracy_op.cu
+++ b/paddle/operators/accuracy_op.cu
@@ -16,6 +16,7 @@ limitations under the License. */
 #include <thrust/reduce.h>
 #include "paddle/operators/accuracy_op.h"
 #include "paddle/platform/cuda_helper.h"
+#include "paddle/platform/gpu_info.h"
 namespace paddle {
 namespace operators {
@@ -73,26 +74,28 @@ class AccuracyOpCUDAKernel : public framework::OpKernel<T> {
    int num_samples = static_cast<int>(inference->dims()[0]);
    size_t infer_width = inference->dims()[1];
-    PADDLE_ENFORCE(cudaMemset(accuracy_data, 0, sizeof(float)));
+    auto stream = ctx.cuda_device_context().stream();
-    // cudaMemset((void**)&correct_data, 0, sizeof(float));
+    platform::GpuMemsetAsync(accuracy_data, 0, sizeof(float), stream);
    if (num_samples == 0) {
      return;
    }
-    cudaMemcpy(total_data, &num_samples, sizeof(int), cudaMemcpyHostToDevice);
+    platform::GpuMemcpyAsync(total_data, &num_samples, sizeof(int),
+                             cudaMemcpyHostToDevice, stream);
-    AccuracyCudaKernel<PADDLE_CUDA_NUM_THREADS><<<
+    AccuracyCudaKernel<
-        1, PADDLE_CUDA_NUM_THREADS, 0, ctx.cuda_device_context().stream()>>>(
+        PADDLE_CUDA_NUM_THREADS><<<1, PADDLE_CUDA_NUM_THREADS, 0, stream>>>(
        num_samples, infer_width, indices_data, label_data, correct_data,
        accuracy_data);
    int d_num_samples, d_num_correct;
    float d_accuracy;
-    cudaMemcpy(&d_num_correct, correct_data, sizeof(int),
+    platform::GpuMemcpyAsync(&d_num_correct, correct_data, sizeof(int),
-               cudaMemcpyDeviceToHost);
+                             cudaMemcpyDeviceToHost, stream);
-    cudaMemcpy(&d_num_samples, total_data, sizeof(int), cudaMemcpyDeviceToHost);
+    platform::GpuMemcpyAsync(&d_num_samples, total_data, sizeof(int),
-    cudaMemcpy(&d_accuracy, accuracy_data, sizeof(float),
+                             cudaMemcpyDeviceToHost, stream);
-               cudaMemcpyDeviceToHost);
+    platform::GpuMemcpyAsync(&d_accuracy, accuracy_data, sizeof(float),
+                             cudaMemcpyDeviceToHost, stream);
  }
 };

--- a/paddle/platform/gpu_info.cc
+++ b/paddle/platform/gpu_info.cc
@@ -109,5 +109,10 @@ void GpuMemcpyPeer(void *dst, int dst_device, const void *src, int src_device,
      cudaMemcpyPeerAsync(dst, dst_device, src, src_device, count, stream),
      "cudaMemcpyPeerAsync failed in paddle::platform::GpuMemcpyPeer");
 }
+void GpuMemsetAsync(void *dst, int value, size_t count, cudaStream_t stream) {
+  PADDLE_ENFORCE(cudaMemsetAsync(dst, value, count, stream),
+                 "cudaMemsetAsync failed in paddle::platform::GpuMemsetAsync");
+}
 }  // namespace platform
 }  // namespace paddle
--- a/paddle/platform/gpu_info.h
+++ b/paddle/platform/gpu_info.h
@@ -60,6 +60,9 @@ void GpuMemcpySync(void *dst, const void *src, size_t count,
 void GpuMemcpyPeer(void *dst, int dst_device, const void *src, int src_device,
                   size_t count, cudaStream_t stream);
+//! Set memory dst with value count size asynchronously
+void GpuMemsetAsync(void *dst, int value, size_t count, cudaStream_t stream);
 }  // namespace platform
 }  // namespace paddle