diff --git a/python/paddle/utils/code_gen/backward.yaml b/python/paddle/utils/code_gen/backward.yaml
index df5291b8ea3586171fb5370a688ac3aca0abe6cb..555ec600bf7e73a6adf0b95aaa3a48b8b2ac7d24 100644
--- a/python/paddle/utils/code_gen/backward.yaml
+++ b/python/paddle/utils/code_gen/backward.yaml
@@ -217,6 +217,7 @@
   args : (Tensor[] x, Tensor out_grad, Scalar axis = 0)
   output : Tensor[](x_grad)
   invoke : concat_grad_impl(x, out_grad, axis)
+  no_need_buffer : x
 
 - backward_api : conj_grad
   forward : conj (Tensor x) -> Tensor(out)
@@ -328,7 +329,7 @@
     func : UnchangedInferMeta
     param : [x]
   kernel :
-    func : determinant_grad
+    func : determinant_grad  
 
 - backward_api : diagonal_grad
   forward : diagonal (Tensor x, int offset, int axis1, int axis2) -> Tensor(out)
@@ -452,6 +453,7 @@
     param : [x]
   kernel :
     func : expand_as_grad
+  no_need_buffer : x
 
 - backward_api : expm1_grad
   forward : expm1 (Tensor x) -> Tensor(out)
@@ -475,6 +477,7 @@
     data_type: out_grad
     backend: out_grad
     layout: out_grad
+  no_need_buffer : x
 
 - backward_api : flip_grad
   forward : flip (Tensor x, int[] axis) -> Tensor(out)
@@ -536,6 +539,7 @@
   kernel :
     data_type: x
     func : gather_grad
+  no_need_buffer : x
 
 - backward_api : gather_nd_grad
   forward : gather_nd (Tensor x, Tensor index) -> Tensor(out)
@@ -546,6 +550,7 @@
     param : [x]
   kernel :
     func : gather_nd_grad
+  no_need_buffer : x
 
 - backward_api : gelu_grad
   forward : gelu(Tensor x,  bool approximate) -> Tensor(out)
@@ -646,6 +651,7 @@
   kernel :
     func : index_select_grad
     data_type : x
+  no_need_buffer : x
 
 - backward_api : kldiv_loss_grad
   forward : kldiv_loss(Tensor x, Tensor label, str reduction) -> Tensor(out)
@@ -656,6 +662,7 @@
     param: [x]
   kernel :
     func : kldiv_loss_grad
+  no_need_buffer : x
 
 - backward_api : kron_grad
   forward : kron (Tensor x, Tensor y) -> Tensor(out)
@@ -819,6 +826,7 @@
   kernel :
     func : masked_select_grad
     data_type : x
+  no_need_buffer : x
 
 - backward_api : matmul_double_grad
   forward : matmul_grad (Tensor x, Tensor y, Tensor grad_out, bool transpose_x=false, bool transpose_y=false) -> Tensor(grad_x), Tensor(grad_y)
@@ -931,6 +939,7 @@
     param: [x]
   kernel :
     func : mean_grad
+  no_need_buffer : x
 
 - backward_api : meshgrid_grad
   forward : meshgrid (Tensor[] inputs) -> Tensor[](outputs)
@@ -1224,6 +1233,7 @@
   kernel :
     func : roll_grad
     data_type : x
+  no_need_buffer : x
 
 - backward_api : round_grad
   forward : round(Tensor x) -> Tensor(out)
@@ -1376,6 +1386,7 @@
     param : [input]
   kernel :
     func : slice_grad
+  no_need_buffer : input
 
 - backward_api : soft_shrink_grad
   forward : soft_shrink (Tensor x, float lambda) -> Tensor(out)
@@ -1450,6 +1461,7 @@
     param : [x]
   kernel :
     func : strided_slice_grad
+  no_need_buffer : x
 
 - backward_api : subtract_grad
   forward : subtract (Tensor x, Tensor y) -> Tensor(out)
@@ -1471,6 +1483,7 @@
     param : [x]
   kernel :
     func : sum_grad
+  no_need_buffer : x
 
 - backward_api : swish_grad
   forward : swish (Tensor x, float beta=1.0) -> Tensor(out)
@@ -1630,3 +1643,4 @@
     param : [x, y]
   kernel :
     func : where_grad
+  no_need_buffer : x, y