save intermediate data to out buffer

038c16ee · tensor-tang · 2d0ddf8c · 038c16ee
显示空白变更内容
内联并排

Showing with 5 addition and 6 deletion

paddle/fluid/operators/fusion_gru_op.cc paddle/fluid/operators/fusion_gru_op.cc +5 -6

未找到文件。
--- a/paddle/fluid/operators/fusion_gru_op.cc
+++ b/paddle/fluid/operators/fusion_gru_op.cc
@@ -266,25 +266,24 @@ class FusionGRUKernel : public framework::OpKernel<T> {
                batched_input_data, D3);
      T* cur_batched_data = batched_input_data;
+      T* cur_out_data = batched_out_data;
      T* cur_prev_hidden_data = prev_hidden_data;
      for (int i = 0; i < cur_bs; ++i) {
        act_gate(D2, cur_batched_data, cur_batched_data);
        // rt = rt*ht_1 inplace result
-        // TODO(TJ): try to save to cur out data
+        blas.VMUL(D, cur_prev_hidden_data, cur_batched_data + D, cur_out_data);
-        // maybe get benifits avoiding cache miss in next gemm
-        blas.VMUL(D, cur_prev_hidden_data, cur_batched_data + D,
-                  cur_batched_data + D);
        cur_batched_data += D3;
        cur_prev_hidden_data += D;
+        cur_out_data += D;
      }
      cur_batched_data = batched_input_data;
+      cur_out_data = batched_out_data;
      blas.GEMM(CblasNoTrans, CblasNoTrans, cur_bs, D, D, static_cast<T>(1),
-                cur_batched_data + D, D3, wh_state_data, D, static_cast<T>(1),
+                cur_out_data, D, wh_state_data, D, static_cast<T>(1),
                cur_batched_data + D2, D3);
-      T* cur_out_data = batched_out_data;
      cur_prev_hidden_data = prev_hidden_data;
      for (int i = 0; i < cur_bs; ++i) {
        // ht~ = act_state(...)