diff --git a/paddle/fluid/operators/dropout_impl.cu.h b/paddle/fluid/operators/dropout_impl.cu.h
index c7a55273560de5055558dee033b9f7a4f4fd74e9..fb046481e20c5032cd3073f5c8a6cdee1252d0be 100644
--- a/paddle/fluid/operators/dropout_impl.cu.h
+++ b/paddle/fluid/operators/dropout_impl.cu.h
@@ -307,7 +307,7 @@ void DropoutFwGPUKernelDriver(const phi::GPUContext& dev_ctx,
   auto* x_data = x.data<T>();
   auto* y_data = y->data<T>();
 
-  if (!is_test) {
+  if (!is_test && mask) {
     auto* mask_data = mask->data<uint8_t>();
     size_t size = phi::product(mask->dims());
 
diff --git a/paddle/phi/infermeta/ternary.cc b/paddle/phi/infermeta/ternary.cc
index 342c9e460230995a43eae565adf1c2064a782d0b..013a58e30ed4c09a1071db157c2425e83fcbb7c5 100644
--- a/paddle/phi/infermeta/ternary.cc
+++ b/paddle/phi/infermeta/ternary.cc
@@ -317,16 +317,6 @@ void InstanceNormInferMeta(const MetaTensor& x,
                     nullptr,
                     phi::errors::InvalidArgument(
                         "The y in InstanceNormInferMeta can't be nullptr."));
-  PADDLE_ENFORCE_NE(
-      saved_mean,
-      nullptr,
-      phi::errors::InvalidArgument(
-          "The saved_mean in InstanceNormInferMeta can't be nullptr."));
-  PADDLE_ENFORCE_NE(
-      saved_variance,
-      nullptr,
-      phi::errors::InvalidArgument(
-          "The saved_variance in InstanceNormInferMeta can't be nullptr."));
   const auto x_dims = x.dims();
   PADDLE_ENFORCE_NE(phi::product(x_dims),
                     0,
@@ -401,11 +391,15 @@ void InstanceNormInferMeta(const MetaTensor& x,
     }
   }
   y->set_dims(x_dims);
-  saved_mean->set_dims({NxC});
-  saved_variance->set_dims({NxC});
   y->share_lod(x);
   y->set_dtype(x.dtype());
   y->set_layout(x.layout());
+  if (saved_mean) {
+    saved_mean->set_dims({NxC});
+  }
+  if (saved_variance) {
+    saved_variance->set_dims({NxC});
+  }
 }
 
 void GraphSendRecvInferMeta(const MetaTensor& x,
diff --git a/paddle/phi/kernels/cpu/dropout_kernel.cc b/paddle/phi/kernels/cpu/dropout_kernel.cc
index 41c33fcf5dd3ff86b610c074874a815ea4eaa381..6f1dc1617989d162804ac66cd191ce920e30a75a 100644
--- a/paddle/phi/kernels/cpu/dropout_kernel.cc
+++ b/paddle/phi/kernels/cpu/dropout_kernel.cc
@@ -63,7 +63,7 @@ void DropoutRawKernel(const Context& dev_ctx,
 
   auto& dropout_implementation = mode;
   bool upscale_in_train = (dropout_implementation == "upscale_in_train");
-  if (!is_test) {
+  if (!is_test && mask) {
     auto* mask_data = dev_ctx.template Alloc<uint8_t>(mask);
     size_t size = phi::product(mask->dims());
 
@@ -124,7 +124,7 @@ void DropoutNdKernel(const Context& dev_ctx,
 
   auto& dropout_implementation = mode;
   bool upscale_in_train = (dropout_implementation == "upscale_in_train");
-  if (!is_test) {
+  if (!is_test && mask) {
     DenseTensor t_mask;
     t_mask.Resize(mask->dims());
     T* t_mask_data = dev_ctx.template Alloc<T>(&t_mask);
diff --git a/paddle/phi/kernels/cpu/instance_norm_kernel.cc b/paddle/phi/kernels/cpu/instance_norm_kernel.cc
index 4deced5499ecb6272396fc633d72525eca75e4b5..c428e7e6f895b6a904627f26c2a4a092709315e4 100644
--- a/paddle/phi/kernels/cpu/instance_norm_kernel.cc
+++ b/paddle/phi/kernels/cpu/instance_norm_kernel.cc
@@ -21,6 +21,7 @@
 #include "paddle/phi/backends/cpu/cpu_context.h"
 #include "paddle/phi/common/layout.h"
 #include "paddle/phi/core/kernel_registry.h"
+#include "paddle/phi/kernels/full_kernel.h"
 #include "paddle/phi/kernels/funcs/eigen/common.h"
 #include "paddle/phi/kernels/funcs/eigen/eigen_function.h"
 #include "paddle/phi/kernels/funcs/eigen/extensions.h"
@@ -63,14 +64,25 @@ void InstanceNormKernel(const Context& dev_ctx,
 #endif
 
   phi::funcs::SetConstant<CPUContext, T> set_constant;
-  dev_ctx.template Alloc<T>(saved_mean);
-  dev_ctx.template Alloc<T>(saved_variance);
-  set_constant(dev_ctx, saved_mean, static_cast<T>(0));
-  set_constant(dev_ctx, saved_variance, static_cast<T>(0));
+  DenseTensor saved_mean_tmp, saved_variance_tmp;
+  if (saved_mean) {
+    dev_ctx.template Alloc<T>(saved_mean);
+    set_constant(dev_ctx, saved_mean, static_cast<T>(0));
+  } else {
+    saved_mean_tmp = phi::Full<T>(dev_ctx, {NxC}, 0);
+  }
+  if (saved_variance) {
+    dev_ctx.template Alloc<T>(saved_variance);
+    set_constant(dev_ctx, saved_variance, static_cast<T>(0));
+  } else {
+    saved_variance_tmp = phi::Full<T>(dev_ctx, {NxC}, 0);
+  }
 
-  auto saved_mean_a = EigenVector<T>::Flatten(*saved_mean);
+  auto saved_mean_a =
+      EigenVector<T>::Flatten(saved_mean ? *saved_mean : saved_mean_tmp);
   auto saved_mean_e = saved_mean_a.reshape(NxC_shape);
-  auto saved_variance_a = EigenVector<T>::Flatten(*saved_variance);
+  auto saved_variance_a = EigenVector<T>::Flatten(
+      saved_variance ? *saved_variance : saved_variance_tmp);
   auto saved_variance_e = saved_variance_a.reshape(NxC_shape);
 
   auto x_e = EigenVector<T>::Flatten(x);
diff --git a/paddle/phi/kernels/gpu/dropout_kernel.cu b/paddle/phi/kernels/gpu/dropout_kernel.cu
index 0f2a8d9c938484f8bd3e75de5907faadd8116eec..34707bfd665f9043fedf85f4e27add49df840cb7 100644
--- a/paddle/phi/kernels/gpu/dropout_kernel.cu
+++ b/paddle/phi/kernels/gpu/dropout_kernel.cu
@@ -32,8 +32,10 @@ void DropoutRawKernel(const Context& dev_ctx,
                       DenseTensor* out,
                       DenseTensor* mask) {
   bool upscale_in_train = (mode == "upscale_in_train");
-  out->mutable_data<T>(dev_ctx.GetPlace());
-  mask->mutable_data<uint8_t>(dev_ctx.GetPlace());
+  dev_ctx.template Alloc<T>(out);
+  if (mask) {
+    dev_ctx.template Alloc<uint8_t>(mask);
+  }
   paddle::operators::DropoutFwGPUKernelDriver<T>(dev_ctx,
                                                  is_test,
                                                  p.to<float>(),
@@ -61,7 +63,9 @@ void DropoutNdKernel(const Context& dev_ctx,
                      DenseTensor* mask) {
   bool upscale_in_train = (mode == "upscale_in_train");
   dev_ctx.template Alloc<T>(out);
-  dev_ctx.template Alloc<uint8_t>(mask);
+  if (mask) {
+    dev_ctx.template Alloc<uint8_t>(mask);
+  }
   paddle::operators::DropoutFwGPUKernelDriver<T>(dev_ctx,
                                                  is_test,
                                                  p.to<float>(),
diff --git a/paddle/phi/kernels/gpu/instance_norm_kernel.cu b/paddle/phi/kernels/gpu/instance_norm_kernel.cu
index b7292236898098a40fc4ee943abbe6da91818260..803d218c80412fdba7614dcc2f46dadc6761b9ab 100644
--- a/paddle/phi/kernels/gpu/instance_norm_kernel.cu
+++ b/paddle/phi/kernels/gpu/instance_norm_kernel.cu
@@ -17,6 +17,7 @@
 #include "paddle/phi/backends/gpu/gpu_context.h"
 #include "paddle/phi/common/layout.h"
 #include "paddle/phi/core/kernel_registry.h"
+#include "paddle/phi/kernels/full_kernel.h"
 #include "paddle/phi/kernels/funcs/math_function.h"
 #include "paddle/phi/kernels/funcs/norm_utils.h"
 #include "paddle/phi/kernels/gpu/instance_norm_utils.h"
@@ -143,11 +144,29 @@ void InstanceNormKernel(const Context &dev_ctx,
 
   auto handle = dev_ctx.cudnn_handle();
 
+  DenseTensor saved_mean_tmp, saved_variance_tmp;
   phi::funcs::SetConstant<GPUContext, BatchNormParamType<T>> functor;
-  dev_ctx.template Alloc<BatchNormParamType<T>>(saved_mean);
-  dev_ctx.template Alloc<BatchNormParamType<T>>(saved_variance);
-  functor(dev_ctx, saved_mean, static_cast<BatchNormParamType<T>>(0));
-  functor(dev_ctx, saved_variance, static_cast<BatchNormParamType<T>>(0));
+  if (saved_mean) {
+    dev_ctx.template Alloc<BatchNormParamType<T>>(saved_mean);
+    functor(dev_ctx, saved_mean, static_cast<BatchNormParamType<T>>(0));
+  } else {
+    saved_mean_tmp = phi::Full<BatchNormParamType<T>>(
+        dev_ctx, {NxC}, static_cast<BatchNormParamType<T>>(0));
+  }
+  if (saved_variance) {
+    dev_ctx.template Alloc<BatchNormParamType<T>>(saved_variance);
+    functor(dev_ctx, saved_variance, static_cast<BatchNormParamType<T>>(0));
+  } else {
+    saved_variance_tmp = phi::Full<BatchNormParamType<T>>(
+        dev_ctx, {NxC}, static_cast<BatchNormParamType<T>>(0));
+  }
+
+  auto *saved_mean_data = saved_mean
+                              ? saved_mean->data<BatchNormParamType<T>>()
+                              : saved_mean_tmp.data<BatchNormParamType<T>>();
+  auto *saved_variance_data =
+      saved_variance ? saved_variance->data<BatchNormParamType<T>>()
+                     : saved_variance_tmp.data<BatchNormParamType<T>>();
 
 #ifdef PADDLE_WITH_HIP
   PADDLE_ENFORCE_GPU_SUCCESS(
@@ -171,10 +190,8 @@ void InstanceNormKernel(const Context &dev_ctx,
           nullptr,
           nullptr,
           epsilon,
-          static_cast<void *>(
-              saved_mean->template data<BatchNormParamType<T>>()),
-          static_cast<void *>(
-              saved_variance->template data<BatchNormParamType<T>>())));
+          static_cast<void *>(saved_mean_data),
+          static_cast<void *>(saved_variance_data)));
 
   PADDLE_ENFORCE_GPU_SUCCESS(
       paddle::platform::dynload::miopenDestroyTensorDescriptor(data_desc_));
@@ -198,8 +215,8 @@ void InstanceNormKernel(const Context &dev_ctx,
           nullptr,
           nullptr,
           epsilon,
-          saved_mean->template data<BatchNormParamType<T>>(),
-          saved_variance->template data<BatchNormParamType<T>>()));
+          saved_mean_data,
+          saved_variance_data));
 
   PADDLE_ENFORCE_GPU_SUCCESS(
       paddle::platform::dynload::cudnnDestroyTensorDescriptor(data_desc_));