diff --git a/python/paddle/fluid/contrib/slim/quantization/adaround.py b/python/paddle/fluid/contrib/slim/quantization/adaround.py
index 25e0d902e67a809afc18990d4bd9a5ad3ad71e6d..2003380fa1a7d46f023b84b1e16871aa0d3bec23 100644
--- a/python/paddle/fluid/contrib/slim/quantization/adaround.py
+++ b/python/paddle/fluid/contrib/slim/quantization/adaround.py
@@ -64,7 +64,7 @@ class AdaRoundLoss:
         square_cost = fluid.layers.square_error_cost(
             ada_quantized_output, orig_output
         )
-        recon_loss = fluid.layers.reduce_mean(paddle.sum(square_cost, axis=-1))
+        recon_loss = paddle.mean(paddle.sum(square_cost, axis=-1))
         return recon_loss
 
     def compute_round_loss(self, alpha_v, warm_start, beta):
diff --git a/python/paddle/fluid/contrib/slim/tests/test_moving_average_abs_max_scale_op.py b/python/paddle/fluid/contrib/slim/tests/test_moving_average_abs_max_scale_op.py
index 201aa9c1b4ba24276cb38607f0c49f07c40e73a7..8ddca1b354c70985c62c6b643b782465cba518d8 100644
--- a/python/paddle/fluid/contrib/slim/tests/test_moving_average_abs_max_scale_op.py
+++ b/python/paddle/fluid/contrib/slim/tests/test_moving_average_abs_max_scale_op.py
@@ -53,7 +53,7 @@ class TestMovingAverageAbsMaxScaleOp(unittest.TestCase):
             cross_entropy = fluid.layers.softmax_with_cross_entropy(
                 fc_tmp, label
             )
-            loss = fluid.layers.reduce_mean(cross_entropy)
+            loss = paddle.mean(cross_entropy)
             sgd = fluid.optimizer.SGD(learning_rate=1e-3)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/contrib/tests/test_correlation.py b/python/paddle/fluid/contrib/tests/test_correlation.py
index 46886cebd1f8ae7705276f8c153645edc86584df..4e9ef9b0fe8f554e71ce98c8d7b33661abc2fd6c 100644
--- a/python/paddle/fluid/contrib/tests/test_correlation.py
+++ b/python/paddle/fluid/contrib/tests/test_correlation.py
@@ -122,7 +122,7 @@ class TestCorrelationOp(unittest.TestCase):
             stride2=1,
         )
 
-        loss = fluid.layers.reduce_mean(out)
+        loss = paddle.mean(out)
         optimizer = fluid.optimizer.Momentum(0.0001, 0.9)
         optimizer.minimize(loss)
 
diff --git a/python/paddle/fluid/layers/nn.py b/python/paddle/fluid/layers/nn.py
index 5ab7f3fbdcddcbdc01e905856846f40ab0c7dfab..c2599454c1c2f1098975b349206208c92db665e7 100644
--- a/python/paddle/fluid/layers/nn.py
+++ b/python/paddle/fluid/layers/nn.py
@@ -71,7 +71,6 @@ __all__ = [
     'softmax',
     'pool2d',
     'batch_norm',
-    'reduce_mean',
     'reduce_all',
     'reduce_any',
     'dropout',
@@ -2506,63 +2505,6 @@ def reduce_sum(input, dim=None, keep_dim=False, name=None):
     return out
 
 
-@deprecated(since="2.0.0", update_to="paddle.mean")
-def reduce_mean(input, dim=None, keep_dim=False, name=None):
-    """
-    Computes the mean of the input tensor's elements along the given dimension.
-
-    Args:
-        input (Variable): The input variable which is a Tensor, the data type is float32,
-            float64, int32, int64.
-        dim (list|int, optional): The dimension along which the mean is computed. If
-            `None`, compute the mean over all elements of :attr:`input`
-            and return a variable with a single element, otherwise it
-            must be in the range :math:`[-rank(input), rank(input))`. If
-            :math:`dim[i] < 0`, the dimension to reduce is
-            :math:`rank(input) + dim[i]`.
-        keep_dim (bool, optional): Whether to reserve the reduced dimension in the
-            output Tensor. The result tensor will have one fewer dimension
-            than the :attr:`input` unless :attr:`keep_dim` is true, default
-            value is False.
-        name(str, optional): The default value is None.  Normally there is no need for
-            user to set this property.  For more information, please refer to :ref:`api_guide_Name`
-
-    Returns:
-        Variable: Tensor, results of average on the specified dim of input tensor,
-        it's data type is the same as input's Tensor.
-
-    Raises:
-        TypeError, if out data type is different with the input data type.
-
-    Examples:
-        .. code-block:: python
-
-            import paddle
-            import paddle.fluid as fluid
-            paddle.enable_static()
-
-            # x is a Tensor variable with following elements:
-            #    [[0.2, 0.3, 0.5, 0.9]
-            #     [0.1, 0.2, 0.6, 0.7]]
-            # Each example is followed by the corresponding output tensor.
-            x = fluid.data(name='x', shape=[2, 4], dtype='float32')
-            fluid.layers.reduce_mean(x)  # [0.4375]
-            fluid.layers.reduce_mean(x, dim=0)  # [0.15, 0.25, 0.55, 0.8]
-            fluid.layers.reduce_mean(x, dim=-1)  # [0.475, 0.4]
-            fluid.layers.reduce_mean(x, dim=1, keep_dim=True)  # [[0.475], [0.4]]
-
-            # y is a Tensor variable with shape [2, 2, 2] and elements as below:
-            #      [[[1.0, 2.0], [3.0, 4.0]],
-            #      [[5.0, 6.0], [7.0, 8.0]]]
-            # Each example is followed by the corresponding output tensor.
-            y = fluid.data(name='y', shape=[2, 2, 2], dtype='float32')
-            fluid.layers.reduce_mean(y, dim=[1, 2]) # [2.5, 6.5]
-            fluid.layers.reduce_mean(y, dim=[0, 1]) # [4.0, 5.0]
-    """
-
-    return paddle.mean(x=input, axis=dim, keepdim=keep_dim, name=name)
-
-
 def reduce_all(input, dim=None, keep_dim=False, name=None):
     """
 
diff --git a/python/paddle/fluid/tests/unittests/auto_checkpoint_utils.py b/python/paddle/fluid/tests/unittests/auto_checkpoint_utils.py
index d43fda45444333bf279d68370b68b7a4aaad896f..15d62544d217a3052a017ce9608f5299fea7fc68 100644
--- a/python/paddle/fluid/tests/unittests/auto_checkpoint_utils.py
+++ b/python/paddle/fluid/tests/unittests/auto_checkpoint_utils.py
@@ -17,6 +17,7 @@ import unittest
 
 import numpy as np
 
+import paddle
 import paddle.fluid as fluid
 import paddle.fluid.incubate.checkpoint.auto_checkpoint as acp
 from paddle.fluid import unique_name
@@ -71,7 +72,7 @@ class AutoCheckpointBase(unittest.TestCase):
             cross_entropy = fluid.layers.softmax_with_cross_entropy(
                 fc_tmp, label
             )
-            loss = fluid.layers.reduce_mean(cross_entropy)
+            loss = paddle.mean(cross_entropy)
             sgd = fluid.optimizer.SGD(learning_rate=1e-3)
             if minimize:
                 sgd.minimize(loss)
diff --git a/python/paddle/fluid/tests/unittests/auto_parallel/test_dist_embedding.py b/python/paddle/fluid/tests/unittests/auto_parallel/test_dist_embedding.py
index a75207c5718df14afc588d6b8a4c94c985061692..b998fea4bae1959832fa44a2d3e0b18b986d6999 100644
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_dist_embedding.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_dist_embedding.py
@@ -39,7 +39,7 @@ def make_program_lookup_table_v1_mp_dp():
             dtype="float32",
             is_sparse=False,
         )
-        loss = paddle.fluid.layers.reduce_mean(emb_out)
+        loss = paddle.mean(emb_out)
 
         auto.shard_tensor(
             src_ids,
diff --git a/python/paddle/fluid/tests/unittests/dygraph_to_static/ifelse_simple_func.py b/python/paddle/fluid/tests/unittests/dygraph_to_static/ifelse_simple_func.py
index fd084e06649080d82fcea1c4283b5cf2d35b120a..2fa012559cc77fef07e754cc03f3720ffe1fe162 100644
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/ifelse_simple_func.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/ifelse_simple_func.py
@@ -57,7 +57,7 @@ def dyfunc_with_if_else2(x, col=100):
         #  `x` is Tensor, `col` is not Tensor, and `col` is the return value of `true_fn` after transformed.
         # col = -1
         col = fluid.layers.fill_constant(shape=[1], value=-1, dtype="int64")
-    if fluid.layers.reduce_mean(x).numpy()[0] > x.numpy()[row][col]:
+    if paddle.mean(x).numpy()[0] > x.numpy()[row][col]:
         y = fluid.layers.relu(x)
     else:
         x_pow = paddle.pow(x, 2)
diff --git a/python/paddle/fluid/tests/unittests/dygraph_to_static/seq2seq_dygraph_model.py b/python/paddle/fluid/tests/unittests/dygraph_to_static/seq2seq_dygraph_model.py
index adc1909c64cd8ac2340450c314c2b156be50722a..c9a58b9c78f48a4e7ae18e4d02a5757bef9a17ec 100644
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/seq2seq_dygraph_model.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/seq2seq_dygraph_model.py
@@ -303,7 +303,7 @@ class BaseModel(fluid.dygraph.Layer):
             tar_sequence_length, maxlen=max_tar_seq_len, dtype='float32'
         )
         loss = loss * tar_mask
-        loss = fluid.layers.reduce_mean(loss, dim=[0])
+        loss = paddle.mean(loss, axis=[0])
         loss = paddle.sum(loss)
 
         return loss
@@ -837,7 +837,7 @@ class AttentionModel(fluid.dygraph.Layer):
             tar_sequence_length, maxlen=max_tar_seq_len, dtype='float32'
         )
         loss = loss * tar_mask
-        loss = fluid.layers.reduce_mean(loss, dim=[0])
-        loss = paddle.sum(loss)
+        loss = paddle.mean(loss, axis=[0])
+        loss = fluid.layers.reduce_sum(loss)
 
         return loss
diff --git a/python/paddle/fluid/tests/unittests/dygraph_to_static/simnet_dygraph_model.py b/python/paddle/fluid/tests/unittests/dygraph_to_static/simnet_dygraph_model.py
index 075900b939fdf16342f69646e351c6129f04ae84..8c3d62feacc62c31d86f3752f34b4c2240af79fe 100644
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/simnet_dygraph_model.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/simnet_dygraph_model.py
@@ -114,7 +114,7 @@ class ReduceMeanLayer:
         """
         operation
         """
-        mean = fluid.layers.reduce_mean(input)
+        mean = paddle.mean(input)
         return mean
 
 
diff --git a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_bmn.py b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_bmn.py
index 3773187b2596c198b4353d8b28df425ab38567b5..f8e657499a4cd7217c42fb1567ea36a06abe32f2 100644
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_bmn.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_bmn.py
@@ -331,11 +331,11 @@ def bmn_loss_func(
             epsilon = 0.000001
             # temp = paddle.log(pred_score + epsilon)
             loss_pos = paddle.multiply(paddle.log(pred_score + epsilon), pmask)
-            loss_pos = coef_1 * fluid.layers.reduce_mean(loss_pos)
+            loss_pos = coef_1 * paddle.mean(loss_pos)
             loss_neg = paddle.multiply(
                 paddle.log(1.0 - pred_score + epsilon), (1.0 - pmask)
             )
-            loss_neg = coef_0 * fluid.layers.reduce_mean(loss_neg)
+            loss_neg = coef_0 * paddle.mean(loss_neg)
             loss = -1 * (loss_pos + loss_neg)
             return loss
 
diff --git a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_cycle_gan.py b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_cycle_gan.py
index 312d716af70624176907994296a62d4a81335733..a8d6595c5bd0b170dec800315a6cc401e6c034e6 100644
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_cycle_gan.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_cycle_gan.py
@@ -93,8 +93,8 @@ class Cycle_Gan(fluid.dygraph.Layer):
 
         diff_A = paddle.abs(paddle.subtract(x=input_A, y=cyc_A))
         diff_B = paddle.abs(paddle.subtract(x=input_B, y=cyc_B))
-        cyc_A_loss = fluid.layers.reduce_mean(diff_A) * lambda_A
-        cyc_B_loss = fluid.layers.reduce_mean(diff_B) * lambda_B
+        cyc_A_loss = paddle.mean(diff_A) * lambda_A
+        cyc_B_loss = paddle.mean(diff_B) * lambda_B
         cyc_loss = cyc_A_loss + cyc_B_loss
 
         fake_rec_A = self.build_gen_discriminator_a(fake_B)
@@ -105,8 +105,8 @@ class Cycle_Gan(fluid.dygraph.Layer):
         G = g_A_loss + g_B_loss
         idt_A = self.build_generator_resnet_9blocks_a(input_B)
         idt_loss_A = (
-            fluid.layers.reduce_mean(
-                paddle.abs(paddle.subtract(x=input_B, y=idt_A))
+            paddle.mean(
+                paddle.abs(fluid.layers.elementwise_sub(x=input_B, y=idt_A))
             )
             * lambda_B
             * lambda_identity
@@ -114,8 +114,8 @@ class Cycle_Gan(fluid.dygraph.Layer):
 
         idt_B = self.build_generator_resnet_9blocks_b(input_A)
         idt_loss_B = (
-            fluid.layers.reduce_mean(
-                paddle.abs(paddle.subtract(x=input_A, y=idt_B))
+            paddle.mean(
+                paddle.abs(fluid.layers.elementwise_sub(x=input_A, y=idt_B))
             )
             * lambda_A
             * lambda_identity
@@ -648,7 +648,7 @@ def train(args, to_static):
                 d_loss_A = (
                     paddle.square(fake_pool_rec_B) + paddle.square(rec_B - 1)
                 ) / 2.0
-                d_loss_A = fluid.layers.reduce_mean(d_loss_A)
+                d_loss_A = paddle.mean(d_loss_A)
 
                 d_loss_A.backward()
                 optimizer2.minimize(d_loss_A)
@@ -661,7 +661,7 @@ def train(args, to_static):
                 d_loss_B = (
                     paddle.square(fake_pool_rec_A) + paddle.square(rec_A - 1)
                 ) / 2.0
-                d_loss_B = fluid.layers.reduce_mean(d_loss_B)
+                d_loss_B = paddle.mean(d_loss_B)
 
                 d_loss_B.backward()
                 optimizer3.minimize(d_loss_B)
diff --git a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_ptb_lm.py b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_ptb_lm.py
index fa062464d5aa965f6931cc4a7aca89a6d4232256..c7135a8ff781cce141cfa122b99a23fc2e820b29 100644
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_ptb_lm.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_ptb_lm.py
@@ -220,7 +220,7 @@ class PtbModel(fluid.Layer):
             logits=projection, label=label, soft_label=False
         )
         loss = paddle.reshape(loss, shape=[-1, self.num_steps])
-        loss = fluid.layers.reduce_mean(loss, dim=[0])
+        loss = paddle.mean(loss, axis=[0])
         loss = paddle.sum(loss)
 
         return loss, last_hidden, last_cell
diff --git a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_word2vec.py b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_word2vec.py
index 44dd23a4c3abe14d20b4e20dd6ae548790a7fc69..22a62d64cbbb5aa7155660dae2f50e69de5d2e1d 100644
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_word2vec.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_word2vec.py
@@ -265,7 +265,7 @@ class SkipGram(fluid.dygraph.Layer):
         loss = paddle.nn.functional.binary_cross_entropy_with_logits(
             word_sim, label
         )
-        loss = fluid.layers.reduce_mean(loss)
+        loss = paddle.mean(loss)
 
         return pred, loss
 
diff --git a/python/paddle/fluid/tests/unittests/dygraph_to_static/yolov3.py b/python/paddle/fluid/tests/unittests/dygraph_to_static/yolov3.py
index 5af50594e18bffb3e8ac777c04ac7b058584dfed..5f894744700f0bcb85adf83654625d7e7ad8f67b 100644
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/yolov3.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/yolov3.py
@@ -325,7 +325,7 @@ class YOLOv3(fluid.dygraph.Layer):
                     downsample_ratio=self.downsample,
                     use_label_smooth=cfg.label_smooth,
                 )
-                self.losses.append(fluid.layers.reduce_mean(loss))
+                self.losses.append(paddle.mean(loss))
 
             else:
                 mask_anchors = []
diff --git a/python/paddle/fluid/tests/unittests/ipu/test_reduce_x_op_ipu.py b/python/paddle/fluid/tests/unittests/ipu/test_reduce_x_op_ipu.py
index deb29605cb44e84900b1c81a15efa68d428e2876..fe373e91038deacb32c1da3325b4f0deb8ae876c 100644
--- a/python/paddle/fluid/tests/unittests/ipu/test_reduce_x_op_ipu.py
+++ b/python/paddle/fluid/tests/unittests/ipu/test_reduce_x_op_ipu.py
@@ -28,7 +28,7 @@ class TestMean(IPUOpTest):
         self.set_test_op()
 
     def set_test_op(self):
-        self.op = paddle.fluid.layers.reduce_mean
+        self.op = paddle.mean
 
     def set_feed_attr(self):
         self.feed_shape = [x.shape for x in self.feed_fp32.values()]
diff --git a/python/paddle/fluid/tests/unittests/ir/inference/CMakeLists.txt b/python/paddle/fluid/tests/unittests/ir/inference/CMakeLists.txt
index 045dee09c746015d65321d97c825292d0318d70c..006814a56fc4f3cc3caff1d6867369d38e4bc4e7 100755
--- a/python/paddle/fluid/tests/unittests/ir/inference/CMakeLists.txt
+++ b/python/paddle/fluid/tests/unittests/ir/inference/CMakeLists.txt
@@ -144,7 +144,6 @@ if(WITH_GPU AND TENSORRT_FOUND)
       test_trt_pool3d_op
       PROPERTIES ENVIRONMENT FLAGS_fraction_of_gpu_memory_to_use=0.1 TIMEOUT 45)
   endif()
-  set_tests_properties(test_trt_reduce_mean_op PROPERTIES TIMEOUT 60)
   set_tests_properties(test_trt_tile_op PROPERTIES TIMEOUT 60)
   set_tests_properties(test_trt_fc_fuse_quant_dequant_pass PROPERTIES TIMEOUT
                                                                       100)
diff --git a/python/paddle/fluid/tests/unittests/ir/inference/test_trt_reduce_mean_op.py b/python/paddle/fluid/tests/unittests/ir/inference/test_trt_reduce_mean_op.py
deleted file mode 100644
index 235b0518c44bc17f68ae7b316cc565055d69a11a..0000000000000000000000000000000000000000
--- a/python/paddle/fluid/tests/unittests/ir/inference/test_trt_reduce_mean_op.py
+++ /dev/null
@@ -1,278 +0,0 @@
-# Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import unittest
-
-import numpy as np
-from inference_pass_test import InferencePassTest
-
-import paddle.fluid as fluid
-import paddle.fluid.core as core
-from paddle.fluid.core import AnalysisConfig, PassVersionChecker
-
-
-class TRTReduceMeanTest(InferencePassTest):
-    def setUp(self):
-        with fluid.program_guard(self.main_program, self.startup_program):
-            data = fluid.data(
-                name="data", shape=[-1, 3, -1, -1], dtype="float32"
-            )
-            reduce_mean = fluid.layers.reduce_mean(
-                data, dim=[2, -1], keep_dim=True
-            )
-            out = fluid.layers.batch_norm(reduce_mean, is_test=True)
-
-        self.feeds = {
-            "data": np.random.random([3, 3, 56, 56]).astype("float32"),
-        }
-        self.enable_trt = True
-        self.trt_parameters = TRTReduceMeanTest.TensorRTParam(
-            1 << 30, 32, 1, AnalysisConfig.Precision.Float32, False, False
-        )
-        self.fetch_list = [out]
-        self.dynamic_shape_params = TRTReduceMeanTest.DynamicShapeParam(
-            {'data': [1, 3, 16, 16]},
-            {'data': [3, 3, 56, 56]},
-            {'data': [3, 3, 56, 56]},
-            False,
-        )
-
-    def test_check_output(self):
-        if core.is_compiled_with_cuda():
-            use_gpu = True
-            self.check_output_with_option(use_gpu, flatten=True)
-            self.assertTrue(
-                PassVersionChecker.IsCompatible('tensorrt_subgraph_pass')
-            )
-
-
-class TRTReduceMeanAllNoBatchTest(InferencePassTest):
-    def setUp(self):
-        with fluid.program_guard(self.main_program, self.startup_program):
-            data = fluid.data(
-                name="data", shape=[-1, 3, -1, -1], dtype="float32"
-            )
-            reduce_mean = fluid.layers.reduce_mean(data, keep_dim=True)
-            out = fluid.layers.batch_norm(reduce_mean, is_test=True)
-
-        self.feeds = {
-            "data": np.random.random([3, 3, 56, 56]).astype("float32"),
-        }
-        self.enable_trt = True
-        self.trt_parameters = TRTReduceMeanAllNoBatchTest.TensorRTParam(
-            1 << 30, 32, 1, AnalysisConfig.Precision.Float32, False, False
-        )
-        self.fetch_list = [out]
-        self.dynamic_shape_params = (
-            TRTReduceMeanAllNoBatchTest.DynamicShapeParam(
-                {'data': [1, 3, 16, 16]},
-                {'data': [3, 3, 56, 56]},
-                {'data': [3, 3, 56, 56]},
-                False,
-            )
-        )
-
-    def test_check_output(self):
-        if core.is_compiled_with_cuda():
-            use_gpu = True
-            self.check_output_with_option(use_gpu, flatten=True)
-            self.assertTrue(
-                PassVersionChecker.IsCompatible('tensorrt_subgraph_pass')
-            )
-
-
-class TRTReduceMeanTestFP16(InferencePassTest):
-    def setUp(self):
-        with fluid.program_guard(self.main_program, self.startup_program):
-            data = fluid.data(
-                name="data", shape=[-1, 3, -1, -1], dtype="float32"
-            )
-            reduce_mean = fluid.layers.reduce_mean(
-                data, dim=[2, -1], keep_dim=True
-            )
-            out = fluid.layers.batch_norm(reduce_mean, is_test=True)
-
-        self.feeds = {
-            "data": np.random.random([3, 3, 56, 56]).astype("float32"),
-        }
-        self.enable_trt = True
-        self.trt_parameters = TRTReduceMeanTestFP16.TensorRTParam(
-            1 << 30, 32, 1, AnalysisConfig.Precision.Half, False, False
-        )
-        self.fetch_list = [out]
-        self.dynamic_shape_params = TRTReduceMeanTestFP16.DynamicShapeParam(
-            {'data': [1, 3, 16, 16]},
-            {'data': [3, 3, 56, 56]},
-            {'data': [3, 3, 56, 56]},
-            False,
-        )
-
-    def test_check_output(self):
-        if core.is_compiled_with_cuda():
-            use_gpu = True
-            self.check_output_with_option(use_gpu, flatten=True)
-            self.assertTrue(
-                PassVersionChecker.IsCompatible('tensorrt_subgraph_pass')
-            )
-
-
-class TRTReduceMeanAllTest(InferencePassTest):
-    def setUp(self):
-        with fluid.program_guard(self.main_program, self.startup_program):
-            data = fluid.data(
-                name="data", shape=[-1, 3, 56, 56], dtype="float32"
-            )
-            reduce_mean = fluid.layers.reduce_mean(data, keep_dim=True)
-            out = fluid.layers.batch_norm(reduce_mean, is_test=True)
-
-        self.feeds = {
-            "data": np.random.random([3, 3, 56, 56]).astype("float32"),
-        }
-        self.enable_trt = True
-        self.trt_parameters = TRTReduceMeanAllTest.TensorRTParam(
-            1 << 30, 32, 1, AnalysisConfig.Precision.Float32, False, False
-        )
-        self.fetch_list = [out]
-        self.dynamic_shape_params = TRTReduceMeanAllTest.DynamicShapeParam(
-            {'data': [1, 3, 56, 56]},
-            {'data': [3, 3, 56, 56]},
-            {'data': [3, 3, 56, 56]},
-            False,
-        )
-
-    def test_check_output(self):
-        if core.is_compiled_with_cuda():
-            use_gpu = True
-            self.check_output_with_option(use_gpu, flatten=True)
-            self.assertTrue(
-                PassVersionChecker.IsCompatible('tensorrt_subgraph_pass')
-            )
-
-
-class TRTReduceMeanTestStatic(InferencePassTest):
-    def setUp(self):
-        with fluid.program_guard(self.main_program, self.startup_program):
-            data = fluid.data(
-                name="data", shape=[3, 3, 56, 56], dtype="float32"
-            )
-            reduce_mean = fluid.layers.reduce_mean(
-                data, dim=[2, -1], keep_dim=True
-            )
-            out = fluid.layers.batch_norm(reduce_mean, is_test=True)
-
-        self.feeds = {
-            "data": np.random.random([3, 3, 56, 56]).astype("float32"),
-        }
-        self.enable_trt = True
-        self.trt_parameters = TRTReduceMeanTestStatic.TensorRTParam(
-            1 << 30, 32, 1, AnalysisConfig.Precision.Float32, False, False
-        )
-        self.fetch_list = [out]
-
-    def test_check_output(self):
-        if core.is_compiled_with_cuda():
-            use_gpu = True
-            self.check_output_with_option(use_gpu, flatten=True)
-            self.assertTrue(
-                PassVersionChecker.IsCompatible('tensorrt_subgraph_pass')
-            )
-
-
-class TRTReduceMeanStaticAllTest(InferencePassTest):
-    def setUp(self):
-        with fluid.program_guard(self.main_program, self.startup_program):
-            data = fluid.data(
-                name="data", shape=[4, 3, 56, 56], dtype="float32"
-            )
-            reduce_mean = fluid.layers.reduce_mean(data, keep_dim=True)
-            out = fluid.layers.batch_norm(reduce_mean, is_test=True)
-
-        self.feeds = {
-            "data": np.random.random([4, 3, 56, 56]).astype("float32"),
-        }
-        self.enable_trt = True
-        self.trt_parameters = TRTReduceMeanStaticAllTest.TensorRTParam(
-            1 << 30, 32, 1, AnalysisConfig.Precision.Float32, False, False
-        )
-        self.fetch_list = [out]
-
-    def test_check_output(self):
-        if core.is_compiled_with_cuda():
-            use_gpu = True
-            self.check_output_with_option(use_gpu, flatten=True)
-            self.assertTrue(
-                PassVersionChecker.IsCompatible('tensorrt_subgraph_pass')
-            )
-
-
-class TRTReduceMeanStaticFP16(InferencePassTest):
-    def setUp(self):
-        with fluid.program_guard(self.main_program, self.startup_program):
-            data = fluid.data(
-                name="data", shape=[4, 3, 56, 56], dtype="float32"
-            )
-            reduce_mean = fluid.layers.reduce_mean(data, keep_dim=True)
-            out = fluid.layers.batch_norm(reduce_mean, is_test=True)
-
-        self.feeds = {
-            "data": np.random.random([4, 3, 56, 56]).astype("float32"),
-        }
-        self.enable_trt = True
-        self.trt_parameters = TRTReduceMeanStaticFP16.TensorRTParam(
-            1 << 30, 32, 1, AnalysisConfig.Precision.Half, False, False
-        )
-        self.fetch_list = [out]
-
-    def test_check_output(self):
-        if core.is_compiled_with_cuda():
-            use_gpu = True
-            self.check_output_with_option(
-                use_gpu, flatten=True, atol=1e-3, rtol=1e-3
-            )
-            self.assertTrue(
-                PassVersionChecker.IsCompatible('tensorrt_subgraph_pass')
-            )
-
-
-class TRTReduceMeanFP16Static(InferencePassTest):
-    def setUp(self):
-        with fluid.program_guard(self.main_program, self.startup_program):
-            data = fluid.data(
-                name="data", shape=[4, 3, 56, 56], dtype="float32"
-            )
-            reduce_mean = fluid.layers.reduce_mean(data, keep_dim=True)
-            out = fluid.layers.batch_norm(reduce_mean, is_test=True)
-
-        self.feeds = {
-            "data": np.random.random([4, 3, 56, 56]).astype("float32"),
-        }
-        self.enable_trt = True
-        self.trt_parameters = TRTReduceMeanFP16Static.TensorRTParam(
-            1 << 30, 32, 1, AnalysisConfig.Precision.Half, True, False
-        )
-        self.fetch_list = [out]
-
-    def test_check_output(self):
-        if core.is_compiled_with_cuda():
-            use_gpu = True
-            self.check_output_with_option(
-                use_gpu, flatten=True, atol=1e-3, rtol=1e-3
-            )
-            self.assertTrue(
-                PassVersionChecker.IsCompatible('tensorrt_subgraph_pass')
-            )
-
-
-if __name__ == "__main__":
-    unittest.main()
diff --git a/python/paddle/fluid/tests/unittests/mlu/test_adam_op_mlu.py b/python/paddle/fluid/tests/unittests/mlu/test_adam_op_mlu.py
index 70a3a2671b6b8f54d9fbc857063298dfeeebfbba..7b33c46a933d7ab3d54e1d83d4010e95f87a74a4 100644
--- a/python/paddle/fluid/tests/unittests/mlu/test_adam_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_adam_op_mlu.py
@@ -264,7 +264,7 @@ class TestNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             adam = fluid.optimizer.Adam(learning_rate=0.01)
             adam.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/mlu/test_adamw_op_mlu.py b/python/paddle/fluid/tests/unittests/mlu/test_adamw_op_mlu.py
index c9b3b527e72dba25ace62e9fa3f5d3d34d5bcbb4..e38402a6009406a91301f3d5ab37bc6461a116a7 100644
--- a/python/paddle/fluid/tests/unittests/mlu/test_adamw_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_adamw_op_mlu.py
@@ -215,7 +215,7 @@ class TestNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             adam = paddle.optimizer.AdamW(learning_rate=0.01, weight_decay=0.02)
             adam.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/mlu/test_elementwise_max_op_mlu.py b/python/paddle/fluid/tests/unittests/mlu/test_elementwise_max_op_mlu.py
index cdc354acdcba51043eaefad56602d9c17a85eb99..310664806931af2455689639fdaecbb07c43c820 100644
--- a/python/paddle/fluid/tests/unittests/mlu/test_elementwise_max_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_elementwise_max_op_mlu.py
@@ -344,7 +344,7 @@ class TestElementwiseMaxNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/mlu/test_elementwise_min_op_mlu.py b/python/paddle/fluid/tests/unittests/mlu/test_elementwise_min_op_mlu.py
index f1546b5ac63e32bddd61106902091c0c481edc22..8f9c9224b1daaa05f843fb93c4d1cbd9d6eb0d62 100644
--- a/python/paddle/fluid/tests/unittests/mlu/test_elementwise_min_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_elementwise_min_op_mlu.py
@@ -190,7 +190,7 @@ class TestElementwiseMinOpNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/mlu/test_gelu_op_mlu.py b/python/paddle/fluid/tests/unittests/mlu/test_gelu_op_mlu.py
index d5b0913b8611246b12aa3e63b6e52ca9190a4386..7b6f2b2862f199458e99d689f4782d595a13f95b 100644
--- a/python/paddle/fluid/tests/unittests/mlu/test_gelu_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_gelu_op_mlu.py
@@ -113,7 +113,7 @@ class TestGeluNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1_gelu, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/mlu/test_leaky_relu_op_mlu.py b/python/paddle/fluid/tests/unittests/mlu/test_leaky_relu_op_mlu.py
index 05d78e7f31a1c34670f605ba7b50e9df7a28cee8..0e4168dbe3e5ac481f3ac4a43a8d8b41d6ba74cd 100644
--- a/python/paddle/fluid/tests/unittests/mlu/test_leaky_relu_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_leaky_relu_op_mlu.py
@@ -107,7 +107,7 @@ class TestLeakyReluNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/mlu/test_relu6_op_mlu.py b/python/paddle/fluid/tests/unittests/mlu/test_relu6_op_mlu.py
index 4e8ebacf0eb69271164e60fee884fdc2f4ea5414..e1841ce5d3ff34d2ff1e268d63fd71e98f42a25f 100644
--- a/python/paddle/fluid/tests/unittests/mlu/test_relu6_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_relu6_op_mlu.py
@@ -126,7 +126,7 @@ class TestRelu6Net(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/mlu/test_relu_op_mlu.py b/python/paddle/fluid/tests/unittests/mlu/test_relu_op_mlu.py
index db62e592ac2dd7bb6a1014faab12a4e44af58aca..192a9e2adc6d17a17d9c0215abaa3fedaccafe24 100644
--- a/python/paddle/fluid/tests/unittests/mlu/test_relu_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_relu_op_mlu.py
@@ -127,7 +127,7 @@ class TestReluNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/mlu/test_softmax_with_cross_entropy_op_mlu.py b/python/paddle/fluid/tests/unittests/mlu/test_softmax_with_cross_entropy_op_mlu.py
index bf77d52532926c3c8e1aab4ae3b3f5516eee635e..f210ea0b633b21edee1f53ae934bc9c25f3a5c22 100644
--- a/python/paddle/fluid/tests/unittests/mlu/test_softmax_with_cross_entropy_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_softmax_with_cross_entropy_op_mlu.py
@@ -127,7 +127,7 @@ class TestPowNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2)
 
             cost = fluid.layers.softmax_with_cross_entropy(prediction, label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/mlu/test_tanh_op_mlu.py b/python/paddle/fluid/tests/unittests/mlu/test_tanh_op_mlu.py
index c346dd0867a5bd61204cdc7c189a3cf7ae02afb3..5eacb39a9286cac28201ba9d7cfc9358b726ed84 100644
--- a/python/paddle/fluid/tests/unittests/mlu/test_tanh_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_tanh_op_mlu.py
@@ -108,7 +108,7 @@ class TestTanhNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_adam_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_adam_op_npu.py
index 49589d5d9dc80e1f5b0017dbc148f03cef272c42..331de1e0c26e9022f70fc3127be5d33f495f6720 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_adam_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_adam_op_npu.py
@@ -264,7 +264,7 @@ class TestNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             adam = fluid.optimizer.Adam(learning_rate=0.01)
             adam.minimize(loss)
 
@@ -349,7 +349,7 @@ class TestNetWithEpsilonTensor(unittest.TestCase):
                 )
 
                 cost = fluid.layers.cross_entropy(input=prediction, label=label)
-                loss = fluid.layers.reduce_mean(cost)
+                loss = paddle.mean(cost)
                 beta1_init = 0.9
                 beta2_init = 0.999
                 epsilon_init = 1e-8
diff --git a/python/paddle/fluid/tests/unittests/npu/test_adamw_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_adamw_op_npu.py
index 0211eb196d58ebee547750b208ab2f3092c03920..b4976db23894a76f6c69887861d0ab4c158775a5 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_adamw_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_adamw_op_npu.py
@@ -215,7 +215,7 @@ class TestNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             adam = paddle.optimizer.AdamW(learning_rate=0.01, weight_decay=0.02)
             adam.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_cos_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_cos_op_npu.py
index 1ab4edef710803db2fdb8b1109b67f34e3f9b07a..89c1e344724f6603d285ef06b1421048f0505725 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_cos_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_cos_op_npu.py
@@ -105,7 +105,7 @@ class TestCosNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_elementwise_div_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_elementwise_div_op_npu.py
index 42460f46a1ec775a98c1de86c5d2ddab6889d174..1971da51d9cbe1c5390aef9502fb814c003dcf51 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_elementwise_div_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_elementwise_div_op_npu.py
@@ -139,7 +139,7 @@ class TestElementwiseDivNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_elementwise_max_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_elementwise_max_op_npu.py
index fe3d58479294417dc7f63c9bc46629ea86aec8ad..57d2518225b42519ec1b53d72ddaf5fc5418c780 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_elementwise_max_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_elementwise_max_op_npu.py
@@ -303,7 +303,7 @@ class TestElementwiseMaxNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_elementwise_min_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_elementwise_min_op_npu.py
index 8cd51765bd8292b6eb6613a8873d9134b3ff516e..551269a960929137b0a1e2a6f725a1cba20fcc2e 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_elementwise_min_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_elementwise_min_op_npu.py
@@ -190,7 +190,7 @@ class TestElementwiseMinOpNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_elementwise_pow_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_elementwise_pow_op_npu.py
index b872c5bf83edf0e29cf8e2b16e5b1be7f3ff8f72..d19431da02095306dbf9d474636c696515710857 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_elementwise_pow_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_elementwise_pow_op_npu.py
@@ -314,7 +314,7 @@ class TestElementwisePowNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_elementwise_sub_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_elementwise_sub_op_npu.py
index 8542ed6bdc39697e452c0e0f1285194ab710fe50..01b3f5bdab7807319a49f9800206abd921c3572d 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_elementwise_sub_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_elementwise_sub_op_npu.py
@@ -195,7 +195,7 @@ class TestSubtractNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_gather_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_gather_op_npu.py
index 1d27eadbc12f3870e975a80b2a05b0a6adedbcf6..a6fa001076c2a53c7f6ed842c9fd04ffc5036d52 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_gather_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_gather_op_npu.py
@@ -134,7 +134,7 @@ class TestGatherGrad(unittest.TestCase):
             a.stop_gradient = False
             b = paddle.gather(a, index)
 
-            loss = fluid.layers.reduce_mean(b)
+            loss = paddle.mean(b)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_gelu_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_gelu_op_npu.py
index 90e3f8dd2b2069ecb07f911edfa88678f1220e60..20af178483acce7f974f9102975dd2343a122498 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_gelu_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_gelu_op_npu.py
@@ -113,7 +113,7 @@ class TestGeluNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1_gelu, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_leaky_relu_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_leaky_relu_op_npu.py
index e91a65faeec163f3220e5d95036a40472651e6bc..550b02e85da8b3f46e3afba76b0eafcf891b532f 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_leaky_relu_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_leaky_relu_op_npu.py
@@ -107,7 +107,7 @@ class TestLeakyReluNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_log_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_log_op_npu.py
index 8745a66b45a4b4a3330611e308a689d95aea7136..bb60f9d4e32500a9b27fd1069fafa25102adc68a 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_log_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_log_op_npu.py
@@ -105,7 +105,7 @@ class TestLogNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_mul_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_mul_op_npu.py
index 8f8abea53964a9c8b32bf5d0765643ec5def24dc..3e4dc2de9708dc367d135fcc2e9f316d27b14bf7 100755
--- a/python/paddle/fluid/tests/unittests/npu/test_mul_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_mul_op_npu.py
@@ -248,7 +248,7 @@ class TestMulNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
@@ -325,7 +325,7 @@ class TestMulNet3_2(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
@@ -405,7 +405,7 @@ class TestMulNet3_2_xc2(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
@@ -486,7 +486,7 @@ class TestMulNet4_2(unittest.TestCase):
             prediction = fluid.layers.fc(input=result, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_pow_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_pow_op_npu.py
index 09f2d0fc055c13332e7d52cb696c00924ae8da57..73dfae2d13bf5cafbebb0f72bce5e5f57c728da8 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_pow_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_pow_op_npu.py
@@ -105,7 +105,7 @@ class TestPowNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_reduce_sum_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_reduce_sum_op_npu.py
index 09ba63b726c05adea5a7060b1e72aa7e3dd75496..bb81f8039abffdefaf2182cd692b5085ff744bdc 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_reduce_sum_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_reduce_sum_op_npu.py
@@ -113,7 +113,7 @@ class TestReduceSumNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=z_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_relu6_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_relu6_op_npu.py
index 3988b4a6a939589a6eaf9c4026c9b36f6042a1f0..ac83c1fac0b92c65945ffa591f8755eb24bd0c3a 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_relu6_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_relu6_op_npu.py
@@ -126,7 +126,7 @@ class TestRelu6Net(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_relu_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_relu_op_npu.py
index a52e4d39cfd77b4d82a9cee766bd968209f87bbd..b333a11dcd7cb17e38c9fbfc5fba19abee2b9dea 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_relu_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_relu_op_npu.py
@@ -119,7 +119,7 @@ class TestReluNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_rmsprop_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_rmsprop_op_npu.py
index 9274d8daa1d4237a52251f5fb65cb22e0ab4bc61..ed712cb3e739230a0415e5e3a21edadffbbab0a9 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_rmsprop_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_rmsprop_op_npu.py
@@ -53,7 +53,7 @@ class TestNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             rmsprop = fluid.optimizer.RMSProp(learning_rate=0.01)
             rmsprop.minimize(loss)
 
@@ -116,7 +116,7 @@ class TestCenteredNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             rmsprop = fluid.optimizer.RMSProp(learning_rate=0.01, centered=True)
             rmsprop.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_sgd_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_sgd_op_npu.py
index 9747953862508a5fa32c24d7d98ebd34f6ecb7db..ba3f9abd081a96bbaa2d35cc0fb9769b1c7d5263 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_sgd_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_sgd_op_npu.py
@@ -78,7 +78,7 @@ class TestNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_softmax_with_cross_entropy_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_softmax_with_cross_entropy_op_npu.py
index f19e892f9a37e91ea244eb849260d7cbb8329d85..487ca61320e402a3be99ad5d8b7732c2af7237a1 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_softmax_with_cross_entropy_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_softmax_with_cross_entropy_op_npu.py
@@ -125,7 +125,7 @@ class TestPowNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2)
 
             cost = fluid.layers.softmax_with_cross_entropy(prediction, label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_sqrt_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_sqrt_op_npu.py
index d28f67a51e3e5595999eeb977c6bf6ee53d84dd9..2674fe59721ad53663f58730e084cd7448dff44f 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_sqrt_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_sqrt_op_npu.py
@@ -108,7 +108,7 @@ class TestSqrtNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_square_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_square_op_npu.py
index f6dbefee32a6f69cdab69806aecad284df5537b6..8e9a69e4c147d7595441bc5248794f9158195209 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_square_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_square_op_npu.py
@@ -105,7 +105,7 @@ class TestSquareNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/npu/test_tanh_op_npu.py b/python/paddle/fluid/tests/unittests/npu/test_tanh_op_npu.py
index 8cbb0d217eb3706b8bd19904b027277718cc5ba4..a407336c0c18f18d90d9eb2fd98adf8575ac3979 100644
--- a/python/paddle/fluid/tests/unittests/npu/test_tanh_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_tanh_op_npu.py
@@ -108,7 +108,7 @@ class TestTanhNet(unittest.TestCase):
             prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
             cost = fluid.layers.cross_entropy(input=prediction, label=label)
-            loss = fluid.layers.reduce_mean(cost)
+            loss = paddle.mean(cost)
             sgd = fluid.optimizer.SGD(learning_rate=0.01)
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/parallel_dygraph_sparse_embedding.py b/python/paddle/fluid/tests/unittests/parallel_dygraph_sparse_embedding.py
index 824815d48aa2cc9c39ccb5b87560ec7c15a69a85..9e0ed71d03598f7a4b3f7ec87bb4c9ca5c690c34 100644
--- a/python/paddle/fluid/tests/unittests/parallel_dygraph_sparse_embedding.py
+++ b/python/paddle/fluid/tests/unittests/parallel_dygraph_sparse_embedding.py
@@ -72,7 +72,7 @@ class SimpleNet(fluid.Layer):
             logits=projection, label=label, soft_label=False
         )
         loss = paddle.reshape(loss, shape=[-1, self.num_steps])
-        loss = fluid.layers.reduce_mean(loss, dim=[0])
+        loss = paddle.mean(loss, axis=[0])
         loss = paddle.sum(loss)
 
         return loss
diff --git a/python/paddle/fluid/tests/unittests/seresnext_net.py b/python/paddle/fluid/tests/unittests/seresnext_net.py
index 86cf960a282db19b81927de45603c412730fa99c..7d96ea40ef4c042e4b0d538645bc0c2ccdddf7f2 100644
--- a/python/paddle/fluid/tests/unittests/seresnext_net.py
+++ b/python/paddle/fluid/tests/unittests/seresnext_net.py
@@ -51,7 +51,7 @@ def squeeze_excitation(input, num_channels, reduction_ratio):
     conv = input
     shape = conv.shape
     reshape = paddle.reshape(x=conv, shape=[-1, shape[1], shape[2] * shape[3]])
-    pool = fluid.layers.reduce_mean(input=reshape, dim=2)
+    pool = paddle.mean(x=reshape, axis=2)
 
     squeeze = fluid.layers.fc(
         input=pool, size=num_channels // reduction_ratio, act='relu'
@@ -162,7 +162,7 @@ def SE_ResNeXt50Small(use_feed):
 
     shape = conv.shape
     reshape = paddle.reshape(x=conv, shape=[-1, shape[1], shape[2] * shape[3]])
-    pool = fluid.layers.reduce_mean(input=reshape, dim=2)
+    pool = paddle.mean(x=reshape, axis=2)
     dropout = (
         pool
         if remove_dropout
diff --git a/python/paddle/fluid/tests/unittests/test_adam_op.py b/python/paddle/fluid/tests/unittests/test_adam_op.py
index d84366efdcb6989d9ef7ff9516df5910649ef3d2..715b5460ed2f14d3c46c31d9fc21d876def284a7 100644
--- a/python/paddle/fluid/tests/unittests/test_adam_op.py
+++ b/python/paddle/fluid/tests/unittests/test_adam_op.py
@@ -614,7 +614,7 @@ class TestAdamOpV2(unittest.TestCase):
             with fluid.unique_name.guard():
                 data = fluid.data(name="data", shape=shape)
                 conv = fluid.layers.conv2d(data, 8, 3)
-                loss = fluid.layers.reduce_mean(conv)
+                loss = paddle.mean(conv)
 
                 beta1 = fluid.layers.create_global_var(
                     shape=[1], value=0.85, dtype='float32', persistable=True
@@ -807,7 +807,7 @@ class TestAdamOptimizer(unittest.TestCase):
                 )
 
                 cost = fluid.layers.cross_entropy(input=prediction, label=label)
-                loss = fluid.layers.reduce_mean(cost)
+                loss = paddle.mean(cost)
                 beta1_init = 0.9
                 beta2_init = 0.999
                 epsilon_init = 1e-8
@@ -965,7 +965,7 @@ class TestAdamOptimizer(unittest.TestCase):
         prediction = fluid.layers.fc(input=fc_1, size=2, act='softmax')
 
         cost = fluid.layers.cross_entropy(input=prediction, label=label)
-        loss = fluid.layers.reduce_mean(cost)
+        loss = paddle.mean(cost)
         adam = fluid.optimizer.Adam(use_global_beta_pow=True)
         adam.minimize(loss)
         self.assertRaises(Exception, adam._get_global_accumulator, 'tmp')
diff --git a/python/paddle/fluid/tests/unittests/test_dataloader_early_reset.py b/python/paddle/fluid/tests/unittests/test_dataloader_early_reset.py
index 50f412fca0e66b5a53c22c2728fc20f2223d4366..f55cc3370473bc5e8d1a2975144245c0d3f62e24 100644
--- a/python/paddle/fluid/tests/unittests/test_dataloader_early_reset.py
+++ b/python/paddle/fluid/tests/unittests/test_dataloader_early_reset.py
@@ -12,11 +12,10 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import unittest
-
-import numpy as np
-
+import paddle
 import paddle.fluid as fluid
+import numpy as np
+import unittest
 
 
 def infinite_reader():
@@ -33,7 +32,7 @@ class TestDataLoaderEarlyReset(unittest.TestCase):
 
     def build_network(self):
         y = fluid.layers.fc(self.x, size=10)
-        loss = fluid.layers.reduce_mean(y)
+        loss = paddle.mean(y)
 
         optimizer = fluid.optimizer.SGD(learning_rate=1e-3)
         optimizer.minimize(loss)
diff --git a/python/paddle/fluid/tests/unittests/test_dataloader_keep_order.py b/python/paddle/fluid/tests/unittests/test_dataloader_keep_order.py
index 8263edd7469eb7bd4541d1be974793fedf31d678..82aa47d8a6998f131b346f2a50fc491fde86d322 100644
--- a/python/paddle/fluid/tests/unittests/test_dataloader_keep_order.py
+++ b/python/paddle/fluid/tests/unittests/test_dataloader_keep_order.py
@@ -17,6 +17,7 @@ import unittest
 
 import numpy as np
 
+import paddle
 import paddle.fluid as fluid
 
 
@@ -48,7 +49,7 @@ class DataLoaderKeepOrderTestBase(unittest.TestCase):
         )
 
         fc = fluid.layers.fc(input_data, size=10)
-        loss = fluid.layers.reduce_mean(fc)
+        loss = paddle.mean(fc)
 
         loader.set_batch_generator(
             create_reader(self.shape, self.batch_num),
diff --git a/python/paddle/fluid/tests/unittests/test_dataloader_unkeep_order.py b/python/paddle/fluid/tests/unittests/test_dataloader_unkeep_order.py
index c8cf808526b5d3eb53f045ab8cf5c957356987f6..8373482772deeb703893ce7b67f38edf3cbcf990 100644
--- a/python/paddle/fluid/tests/unittests/test_dataloader_unkeep_order.py
+++ b/python/paddle/fluid/tests/unittests/test_dataloader_unkeep_order.py
@@ -17,6 +17,7 @@ import unittest
 
 import numpy as np
 
+import paddle
 import paddle.fluid as fluid
 from paddle.fluid.reader import keep_data_loader_order
 
@@ -54,7 +55,7 @@ class DataLoaderKeepOrderTestBase(unittest.TestCase):
         )
 
         fc = fluid.layers.fc(input_data, size=10)
-        loss = fluid.layers.reduce_mean(fc)
+        loss = paddle.mean(fc)
 
         loader.set_batch_generator(
             create_reader(self.shape, self.batch_num),
diff --git a/python/paddle/fluid/tests/unittests/test_dist_sparse_load_ps0.py b/python/paddle/fluid/tests/unittests/test_dist_sparse_load_ps0.py
index 75f076ae7ce7afa58ebd16f47244babc468f6a4f..866722b7d0007200bdf90be9cb3f9c49e9533ab0 100644
--- a/python/paddle/fluid/tests/unittests/test_dist_sparse_load_ps0.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_sparse_load_ps0.py
@@ -55,7 +55,7 @@ class SparseLoadOp(unittest.TestCase):
                     ),
                 ),
             )
-            loss = fluid.layers.reduce_mean(fc1)
+            loss = paddle.mean(fc1)
         return loss
 
     def save_origin_model(self, emb_array, fc_array):
diff --git a/python/paddle/fluid/tests/unittests/test_dist_sparse_tensor_load_sgd.py b/python/paddle/fluid/tests/unittests/test_dist_sparse_tensor_load_sgd.py
index 0c2073e3b72b07e20831571c9a539fd6ac9d856a..ee9b995031dbc07bc7c2de414710e8558544f37b 100644
--- a/python/paddle/fluid/tests/unittests/test_dist_sparse_tensor_load_sgd.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_sparse_tensor_load_sgd.py
@@ -52,7 +52,7 @@ class TestSparseLoadProgram(unittest.TestCase):
                     )
                     fc1 = fluid.layers.fc(input=emb, size=128, act="relu")
                     fc2 = fluid.layers.fc(input=fc1, size=64, act="relu")
-                    loss = fluid.layers.reduce_mean(fc2)
+                    loss = paddle.mean(fc2)
             return scope, train_program, startup_program, loss
 
 
diff --git a/python/paddle/fluid/tests/unittests/test_dist_transpiler.py b/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
index 1b5af488460b0545a6a5540591dfe283ea4b9a45..00a47420210eb1b1c2ff9d6f421a39ecf9e9a5d1 100644
--- a/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
@@ -437,7 +437,7 @@ class TestFakeInit(TranspilerTest):
             paddle.sum(true_xent, axis=1),
             paddle.sum(neg_xent, axis=1),
         )
-        avg_cost = fluid.layers.reduce_mean(cost)
+        avg_cost = paddle.mean(cost)
 
         sgd_optimizer = fluid.optimizer.SGD(
             learning_rate=fluid.layers.exponential_decay(
diff --git a/python/paddle/fluid/tests/unittests/test_dynamic_rnn_stop_gradient.py b/python/paddle/fluid/tests/unittests/test_dynamic_rnn_stop_gradient.py
index bea1473ac78fe4ddf5066d894f768ef8d03e219b..a92052c05065f3c961c144b71f579085bbdaf678 100644
--- a/python/paddle/fluid/tests/unittests/test_dynamic_rnn_stop_gradient.py
+++ b/python/paddle/fluid/tests/unittests/test_dynamic_rnn_stop_gradient.py
@@ -57,7 +57,7 @@ def build_and_run_program(place, batch_size, beam_size, stop_gradient=False):
         layers.assign(length_cond, cond)
 
     out = layers.tensor_array_to_tensor(scores, axis=0, use_stack=True)[0]
-    loss = layers.reduce_mean(out)
+    loss = paddle.mean(out)
     opt = fluid.optimizer.Adam(0.01)
     opt.minimize(loss)
     exe = fluid.Executor(place)
diff --git a/python/paddle/fluid/tests/unittests/test_eager_deletion_padding_rnn.py b/python/paddle/fluid/tests/unittests/test_eager_deletion_padding_rnn.py
index 4e3e204c2d286dffdfb67bea98da99f16026306d..ccdf56e64f4900ba169907e7ee7c6089d06e1ebd 100644
--- a/python/paddle/fluid/tests/unittests/test_eager_deletion_padding_rnn.py
+++ b/python/paddle/fluid/tests/unittests/test_eager_deletion_padding_rnn.py
@@ -468,7 +468,7 @@ def lm_model(
     )
 
     loss = paddle.reshape(loss, shape=[-1, num_steps])
-    loss = layers.reduce_mean(loss, dim=[0])
+    loss = paddle.mean(loss, axis=[0])
     loss = paddle.sum(loss)
 
     loss.persistable = True
diff --git a/python/paddle/fluid/tests/unittests/test_gradient_clip.py b/python/paddle/fluid/tests/unittests/test_gradient_clip.py
index 71952b73f5bdced05ac56372f3de4d0758b2a36c..4aa064921fe5cce111ccc7b86dd3afba436663af 100644
--- a/python/paddle/fluid/tests/unittests/test_gradient_clip.py
+++ b/python/paddle/fluid/tests/unittests/test_gradient_clip.py
@@ -412,7 +412,7 @@ class TestDygraphGradientClip(unittest.TestCase):
                 [16, 5], min=-10, max=10
             ).astype('float32')
             out = linear(fluid.dygraph.to_variable(inputs))
-            loss = fluid.layers.reduce_mean(out)
+            loss = paddle.mean(out)
             loss.backward()
             sgd_optimizer = fluid.optimizer.SGD(
                 learning_rate=0.0,
@@ -557,7 +557,7 @@ class TestDygraphGradientClipFP16(unittest.TestCase):
                 ).astype('float32')
                 with paddle.amp.auto_cast(level='O2'):
                     out = model(fluid.dygraph.to_variable(inputs))
-                    loss = fluid.layers.reduce_mean(out)
+                    loss = paddle.mean(out)
                 scaled = scaler.scale(loss)
                 scaled.backward()
                 scaler.unscale_(sgd_optimizer)
@@ -605,7 +605,7 @@ class TestDygraphGradientClipFP64(unittest.TestCase):
             ).astype('float32')
             linear = paddle.nn.Linear(5, 5)
             out = linear(fluid.dygraph.to_variable(inputs))
-            loss = fluid.layers.reduce_mean(out)
+            loss = paddle.mean(out)
             loss.backward()
             # before clip
             params_grads = []
diff --git a/python/paddle/fluid/tests/unittests/test_hsigmoid_op.py b/python/paddle/fluid/tests/unittests/test_hsigmoid_op.py
index 180e9abe1b2f9b533501e1e7b321f5acb7b479a9..68814309791926eca9a60e0f0cfddabfcee1d906 100644
--- a/python/paddle/fluid/tests/unittests/test_hsigmoid_op.py
+++ b/python/paddle/fluid/tests/unittests/test_hsigmoid_op.py
@@ -321,7 +321,7 @@ class TestHSigmoidOpWithSparseGrad(unittest.TestCase):
             path_code=path_code,
         )
 
-        avg_cost = fluid.layers.reduce_mean(cost)
+        avg_cost = paddle.mean(cost)
 
         return avg_cost, data_list
 
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_auto_prune.py b/python/paddle/fluid/tests/unittests/test_imperative_auto_prune.py
index 5fc83145d24f445cc62b311476df48fc5accb4a6..522fb24f8fb7a29e6d7172baf38b9b1b54f06b1f 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_auto_prune.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_auto_prune.py
@@ -45,7 +45,7 @@ class AutoPruneLayer0(fluid.Layer):
         a = self.linear1(x)
         b = self.linear2(y)
         c = fluid.layers.mul(a, b)
-        d = fluid.layers.reduce_mean(c)
+        d = paddle.mean(c)
         return d
 
 
@@ -74,7 +74,7 @@ class AutoPruneLayer1(fluid.Layer):
         b = self.linear2(y)
         b.stop_gradient = True
         c = fluid.layers.mul(a, b)
-        d = fluid.layers.reduce_mean(c)
+        d = paddle.mean(c)
         return d
 
 
@@ -124,15 +124,15 @@ class MyLayer(fluid.Layer):
 
     def forward(self, x):
         # this method involves only the linear layers
-        loss = fluid.layers.reduce_mean(self.linear_0(x) + self.linear_1(x))
+        loss = paddle.mean(self.linear_0(x) + self.linear_1(x))
         return loss
 
     def linear0(self, x):
-        loss = fluid.layers.reduce_mean(self.linear_0(x))
+        loss = paddle.mean(self.linear_0(x))
         return loss
 
     def embed_linear0(self, x):
-        loss = fluid.layers.reduce_mean(self.linear_0(self.embed0(x)))
+        loss = paddle.mean(self.linear_0(self.embed0(x)))
         return loss
 
 
@@ -147,18 +147,18 @@ class MyLayer2(fluid.Layer):
     def forward(self, indices):
         # mind the difference with MyLayer
         # In this example, the forward method involes all params
-        loss = fluid.layers.reduce_mean(
+        loss = paddle.mean(
             self.linear_0(self.embed0(indices))
             + self.linear_1(self.embed1(indices))
         )
         return loss
 
     def linear0(self, x):
-        loss = fluid.layers.reduce_mean(self.linear_0(x))
+        loss = paddle.mean(self.linear_0(x))
         return loss
 
     def embed_linear0(self, x):
-        loss = fluid.layers.reduce_mean(self.linear_0(self.embed0(x)))
+        loss = paddle.mean(self.linear_0(self.embed0(x)))
         return loss
 
 
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_container_parameterlist.py b/python/paddle/fluid/tests/unittests/test_imperative_container_parameterlist.py
index 57335a88319e87150ce1fea69c3ebb118342bd5c..92957890e3dbda2e6e35eee01c43164c7af6603c 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_container_parameterlist.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_container_parameterlist.py
@@ -50,7 +50,7 @@ class TestImperativeContainerParameterList(unittest.TestCase):
             self.assertEqual(len(model.params), num_stacked_param)
             res = model(x)
             self.assertListEqual(res.shape, [5, 2])
-            loss = fluid.layers.reduce_mean(res)
+            loss = paddle.mean(res)
             loss.backward()
 
             model.params[num_stacked_param - 1] = fluid.layers.create_parameter(
@@ -64,7 +64,7 @@ class TestImperativeContainerParameterList(unittest.TestCase):
             self.assertEqual(len(model.params), num_stacked_param + 1)
             res = model(x)
             self.assertListEqual(res.shape, [5, 4])
-            loss = fluid.layers.reduce_mean(res)
+            loss = paddle.mean(res)
             loss.backward()
 
     def test_paramter_list(self):
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_container_sequential.py b/python/paddle/fluid/tests/unittests/test_imperative_container_sequential.py
index 1049c08c64d40a2c136ae9ab56e1975d3f57654d..57f624e800998f172d09f5aa24c2a46752d6c386 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_container_sequential.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_container_sequential.py
@@ -16,6 +16,7 @@ import unittest
 
 import numpy as np
 
+import paddle
 import paddle.fluid as fluid
 from paddle.fluid.framework import _test_eager_guard
 from paddle.nn import Linear
@@ -32,7 +33,7 @@ class TestImperativeContainerSequential(unittest.TestCase):
             model1[1] = Linear(1, 3)
             res1 = model1(data)
             self.assertListEqual(res1.shape, [5, 3])
-            loss1 = fluid.layers.reduce_mean(res1)
+            loss1 = paddle.mean(res1)
             loss1.backward()
 
             l1 = Linear(10, 1)
@@ -53,7 +54,7 @@ class TestImperativeContainerSequential(unittest.TestCase):
             res2 = model2(data)
             self.assertListEqual(res2.shape, [5, 4])
 
-            loss2 = fluid.layers.reduce_mean(res2)
+            loss2 = paddle.mean(res2)
             loss2.backward()
 
     def test_sequential(self):
@@ -71,7 +72,7 @@ class TestImperativeContainerSequential(unittest.TestCase):
             model1[1] = Linear(1, 3)
             res1 = model1(data)
             self.assertListEqual(res1.shape, [5, 3])
-            loss1 = fluid.layers.reduce_mean(res1)
+            loss1 = paddle.mean(res1)
             loss1.backward()
 
             l1 = Linear(10, 1)
@@ -92,7 +93,7 @@ class TestImperativeContainerSequential(unittest.TestCase):
             res2 = model2(data)
             self.assertListEqual(res2.shape, [5, 4])
 
-            loss2 = fluid.layers.reduce_mean(res2)
+            loss2 = paddle.mean(res2)
             loss2.backward()
 
     def test_sequential_list_params(self):
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_double_grad.py b/python/paddle/fluid/tests/unittests/test_imperative_double_grad.py
index 7f7330eca39b59d8954333e0d831b4b8e7d62d84..39927e0a2da7461e886491f1d998e367e5c53202 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_double_grad.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_double_grad.py
@@ -322,7 +322,7 @@ class TestDygraphDoubleGrad(TestCase):
         z = y1 + y2
         w = z * z
 
-        w_mean = fluid.layers.reduce_mean(w)
+        w_mean = paddle.mean(w)
         del y1, z, w
 
         (dx_actual,) = self.grad(
@@ -440,7 +440,7 @@ class TestDygraphDoubleGrad(TestCase):
         z = y + 1
         w = z * z
 
-        w_mean = fluid.layers.reduce_mean(w)
+        w_mean = paddle.mean(w)
         del y, z, w
 
         (dx_actual,) = self.grad([w_mean], [x], create_graph=True)
@@ -454,7 +454,7 @@ class TestDygraphDoubleGrad(TestCase):
         ).astype('float32')
         np.testing.assert_allclose(dx_actual.numpy(), dx_expected, rtol=1e-05)
 
-        loss = fluid.layers.reduce_mean(dx_actual * dx_actual + x * x)
+        loss = paddle.mean(dx_actual * dx_actual + x * x)
         loss.backward(retain_graph=True)
 
         x_grad_actual = x.gradient()
@@ -494,7 +494,7 @@ class TestDygraphDoubleGrad(TestCase):
         z = y1 + y2
         w = z * z
 
-        w_mean = fluid.layers.reduce_mean(w)
+        w_mean = paddle.mean(w)
         del y1, z, w
 
         (dx_actual,) = self.grad(
@@ -517,7 +517,7 @@ class TestDygraphDoubleGrad(TestCase):
         ).astype('float32')
         np.testing.assert_allclose(dx_actual.numpy(), dx_expected, rtol=1e-05)
 
-        loss = fluid.layers.reduce_mean(dx_actual * dx_actual + x * x)
+        loss = paddle.mean(dx_actual * dx_actual + x * x)
         loss.backward()
 
         x_grad_actual = x.gradient()
@@ -544,7 +544,7 @@ class TestDygraphDoubleGrad(TestCase):
         z = y + 1
         w = z * z
 
-        w_mean = fluid.layers.reduce_mean(w)
+        w_mean = paddle.mean(w)
         del y, z, w
 
         (dx_actual,) = self.grad([w_mean], [x], create_graph=False)
@@ -558,7 +558,7 @@ class TestDygraphDoubleGrad(TestCase):
 
         np.testing.assert_allclose(dx_actual.numpy(), dx_expected, rtol=1e-05)
 
-        loss = fluid.layers.reduce_mean(dx_actual * dx_actual + x * x)
+        loss = paddle.mean(dx_actual * dx_actual + x * x)
         loss.backward()
 
         x_grad_actual = x.gradient()
@@ -644,7 +644,7 @@ class TestRaiseNoDoubleGradOp(TestCase):
                 outputs=[y], inputs=[x], create_graph=True, retain_graph=True
             )[0]
 
-            loss = fluid.layers.reduce_mean(dx)
+            loss = paddle.mean(dx)
             loss.backward()
 
     def test_raise(self):
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_gan.py b/python/paddle/fluid/tests/unittests/test_imperative_gan.py
index 845f47434e59d7d7d3df2849d10e2d7f772f1676..6ee8ded8a6bbe964a66dd7a6658704042619ecf1 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_gan.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_gan.py
@@ -79,7 +79,7 @@ class TestDygraphGAN(unittest.TestCase):
             )
 
             d_real = discriminator(img)
-            d_loss_real = fluid.layers.reduce_mean(
+            d_loss_real = paddle.mean(
                 paddle.nn.functional.binary_cross_entropy_with_logits(
                     logit=d_real,
                     label=fluid.layers.fill_constant(
@@ -89,7 +89,7 @@ class TestDygraphGAN(unittest.TestCase):
             )
 
             d_fake = discriminator(generator(noise))
-            d_loss_fake = fluid.layers.reduce_mean(
+            d_loss_fake = paddle.mean(
                 paddle.nn.functional.binary_cross_entropy_with_logits(
                     logit=d_fake,
                     label=fluid.layers.fill_constant(
@@ -112,7 +112,7 @@ class TestDygraphGAN(unittest.TestCase):
             )
 
             d_fake = discriminator(generator(noise))
-            g_loss = fluid.layers.reduce_mean(
+            g_loss = paddle.mean(
                 paddle.nn.functional.binary_cross_entropy_with_logits(
                     logit=d_fake,
                     label=fluid.layers.fill_constant(
@@ -164,7 +164,7 @@ class TestDygraphGAN(unittest.TestCase):
             )
 
             d_real = discriminator(to_variable(np.ones([2, 1], np.float32)))
-            d_loss_real = fluid.layers.reduce_mean(
+            d_loss_real = paddle.mean(
                 paddle.nn.functional.binary_cross_entropy_with_logits(
                     logit=d_real, label=to_variable(np.ones([2, 1], np.float32))
                 )
@@ -173,7 +173,7 @@ class TestDygraphGAN(unittest.TestCase):
             d_fake = discriminator(
                 generator(to_variable(np.ones([2, 2], np.float32)))
             )
-            d_loss_fake = fluid.layers.reduce_mean(
+            d_loss_fake = paddle.mean(
                 paddle.nn.functional.binary_cross_entropy_with_logits(
                     logit=d_fake,
                     label=to_variable(np.zeros([2, 1], np.float32)),
@@ -189,7 +189,7 @@ class TestDygraphGAN(unittest.TestCase):
             d_fake = discriminator(
                 generator(to_variable(np.ones([2, 2], np.float32)))
             )
-            g_loss = fluid.layers.reduce_mean(
+            g_loss = paddle.mean(
                 paddle.nn.functional.binary_cross_entropy_with_logits(
                     logit=d_fake, label=to_variable(np.ones([2, 1], np.float32))
                 )
@@ -219,7 +219,7 @@ class TestDygraphGAN(unittest.TestCase):
             )
 
             d_real2 = discriminator2(to_variable(np.ones([2, 1], np.float32)))
-            d_loss_real2 = fluid.layers.reduce_mean(
+            d_loss_real2 = paddle.mean(
                 paddle.nn.functional.binary_cross_entropy_with_logits(
                     logit=d_real2,
                     label=to_variable(np.ones([2, 1], np.float32)),
@@ -229,7 +229,7 @@ class TestDygraphGAN(unittest.TestCase):
             d_fake2 = discriminator2(
                 generator2(to_variable(np.ones([2, 2], np.float32)))
             )
-            d_loss_fake2 = fluid.layers.reduce_mean(
+            d_loss_fake2 = paddle.mean(
                 paddle.nn.functional.binary_cross_entropy_with_logits(
                     logit=d_fake2,
                     label=to_variable(np.zeros([2, 1], np.float32)),
@@ -245,7 +245,7 @@ class TestDygraphGAN(unittest.TestCase):
             d_fake2 = discriminator2(
                 generator2(to_variable(np.ones([2, 2], np.float32)))
             )
-            g_loss2 = fluid.layers.reduce_mean(
+            g_loss2 = paddle.mean(
                 paddle.nn.functional.binary_cross_entropy_with_logits(
                     logit=d_fake2,
                     label=to_variable(np.ones([2, 1], np.float32)),
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_lod_tensor_to_selected_rows.py b/python/paddle/fluid/tests/unittests/test_imperative_lod_tensor_to_selected_rows.py
index b8efe8fbd1c9f2d74e67d40610e5f57f37ec3f46..ed5d93961d1ae7e303af4a130765a280f1fb4bdc 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_lod_tensor_to_selected_rows.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_lod_tensor_to_selected_rows.py
@@ -73,7 +73,7 @@ class SimpleNet(fluid.Layer):
             logits=projection, label=label, soft_label=False
         )
         loss = paddle.reshape(loss, shape=[-1, self.num_steps])
-        loss = fluid.layers.reduce_mean(loss, dim=[0])
+        loss = paddle.mean(loss, axis=[0])
         loss = paddle.sum(loss)
 
         return loss
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_optimizer.py b/python/paddle/fluid/tests/unittests/test_imperative_optimizer.py
index 71eb99c229369cfa860b84d39e27535ae44fd7fa..e695860862847642fce9b5d5be5023a99e03d9f2 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_optimizer.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_optimizer.py
@@ -141,7 +141,7 @@ class TestImperativeOptimizerBase(unittest.TestCase):
 
                 img = paddle.reshape(img, shape=[batch_size, -1])
                 cost = mlp(img)
-                avg_loss = fluid.layers.reduce_mean(cost)
+                avg_loss = paddle.mean(cost)
                 dy_out = avg_loss.numpy()
 
                 if batch_id == 0:
@@ -180,7 +180,7 @@ class TestImperativeOptimizerBase(unittest.TestCase):
             label = fluid.layers.data(name='label', shape=[1], dtype='int64')
             img = paddle.reshape(img, shape=[batch_size, 784])
             cost = mlp(img)
-            avg_loss = fluid.layers.reduce_mean(cost)
+            avg_loss = paddle.mean(cost)
             optimizer.minimize(avg_loss)
 
             # initialize params and fetch them
@@ -478,7 +478,7 @@ class TestOptimizerLearningRate(unittest.TestCase):
 
             b = linear(a)
 
-            loss = fluid.layers.reduce_mean(b)
+            loss = paddle.mean(b)
 
             adam = fluid.optimizer.Adam(
                 0.001, parameter_list=linear.parameters()
@@ -509,7 +509,7 @@ class TestOptimizerLearningRate(unittest.TestCase):
 
             b = linear(a)
 
-            loss = fluid.layers.reduce_mean(b)
+            loss = paddle.mean(b)
 
             bd = [2, 4, 6, 8]
             value = [0.2, 0.4, 0.6, 0.8, 1.0]
@@ -545,7 +545,7 @@ class TestOptimizerLearningRate(unittest.TestCase):
 
             b = linear(a)
 
-            loss = fluid.layers.reduce_mean(b)
+            loss = paddle.mean(b)
             base_lr = 1.0
 
             adam = fluid.optimizer.Adam(
@@ -584,7 +584,7 @@ class TestOptimizerLearningRate(unittest.TestCase):
 
             b = linear(a)
 
-            loss = fluid.layers.reduce_mean(b)
+            loss = paddle.mean(b)
 
             adam = fluid.optimizer.Adam(0.1, parameter_list=linear.parameters())
 
@@ -965,7 +965,7 @@ class TestImperativeOptimizerList(unittest.TestCase):
 
             y = linear_1(in_data)
             y = linear_2(y)
-            loss = fluid.layers.reduce_mean(y)
+            loss = paddle.mean(y)
             loss.backward()
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_optimizer_v2.py b/python/paddle/fluid/tests/unittests/test_imperative_optimizer_v2.py
index 27c50d2e8af4ea1dcd3bf8ff2809336e869d9191..d712258edf0a16ee5f53f539820909c8e9af0390 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_optimizer_v2.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_optimizer_v2.py
@@ -139,7 +139,7 @@ class TestImperativeOptimizerBase(unittest.TestCase):
 
             img = paddle.reshape(img, shape=[batch_size, -1])
             cost = mlp(img)
-            avg_loss = fluid.layers.reduce_mean(cost)
+            avg_loss = paddle.mean(cost)
             dy_out = avg_loss.numpy()
 
             if batch_id == 0:
@@ -189,7 +189,7 @@ class TestImperativeOptimizerBase(unittest.TestCase):
             label = fluid.layers.data(name='label', shape=[1], dtype='int64')
             img = paddle.reshape(img, shape=[batch_size, 784])
             cost = mlp(img)
-            avg_loss = fluid.layers.reduce_mean(cost)
+            avg_loss = paddle.mean(cost)
             optimizer.minimize(avg_loss)
 
             # initialize params and fetch them
@@ -616,7 +616,7 @@ class TestOptimizerLearningRate(unittest.TestCase):
 
             b = linear(a)
 
-            loss = fluid.layers.reduce_mean(b)
+            loss = paddle.mean(b)
 
             adam = paddle.optimizer.Adam(0.001, parameters=linear.parameters())
 
@@ -645,7 +645,7 @@ class TestOptimizerLearningRate(unittest.TestCase):
 
             b = linear(a)
 
-            loss = fluid.layers.reduce_mean(b)
+            loss = paddle.mean(b)
 
             bd = [2, 4, 6, 8]
             value = [0.2, 0.4, 0.6, 0.8, 1.0]
@@ -677,7 +677,7 @@ class TestOptimizerLearningRate(unittest.TestCase):
             a = fluid.dygraph.to_variable(a)
             b = linear(a)
 
-            loss = fluid.layers.reduce_mean(b)
+            loss = paddle.mean(b)
             base_lr = 1.0
 
             scheduler = paddle.optimizer.lr.NaturalExpDecay(1.0, gamma=0.5)
@@ -709,7 +709,7 @@ class TestOptimizerLearningRate(unittest.TestCase):
 
             b = linear(a)
 
-            loss = fluid.layers.reduce_mean(b)
+            loss = paddle.mean(b)
 
             adam = paddle.optimizer.Adam(0.1, parameters=linear.parameters())
 
@@ -1085,7 +1085,7 @@ class TestImperativeOptimizerList(unittest.TestCase):
 
             y = linear_1(in_data)
             y = linear_2(y)
-            loss = fluid.layers.reduce_mean(y)
+            loss = paddle.mean(y)
             loss.backward()
             sgd.minimize(loss)
 
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_partitial_backward.py b/python/paddle/fluid/tests/unittests/test_imperative_partitial_backward.py
index 67f5a7d26b5085a90473f000132fa7c24b35596d..714e27c66208789fe299980f64a2a80f666352e9 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_partitial_backward.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_partitial_backward.py
@@ -31,7 +31,7 @@ class TestImperativePartitialBackward(unittest.TestCase):
 
             y = linear1(x[:, :2])
             z = linear2(x[:, 2:])
-            loss = fluid.layers.reduce_mean(y)
+            loss = paddle.mean(y)
             loss.backward()
 
             for param in linear1.parameters():
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_ptb_rnn.py b/python/paddle/fluid/tests/unittests/test_imperative_ptb_rnn.py
index 3765a6676d0bbe1d47c231daf72a5dd8a070a028..f8f8620338ca323a446fbe277766c639597a1091 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_ptb_rnn.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_ptb_rnn.py
@@ -232,7 +232,7 @@ class PtbModel(fluid.Layer):
             logits=projection, label=label, soft_label=False
         )
         loss = paddle.reshape(loss, shape=[-1, self.num_steps])
-        loss = fluid.layers.reduce_mean(loss, dim=[0])
+        loss = paddle.mean(loss, axis=[0])
         loss = paddle.sum(loss)
 
         return loss, last_hidden, last_cell
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_save_load.py b/python/paddle/fluid/tests/unittests/test_imperative_save_load.py
index 6f2645750f0d246ace0e9d87429bc25e1743b96f..260c3e0b8eb4145f0b302d624231ad5280f4fb39 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_save_load.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_save_load.py
@@ -228,7 +228,7 @@ class PtbModel(fluid.Layer):
             logits=projection, label=label, soft_label=False
         )
         loss = paddle.reshape(loss, shape=[-1, self.num_steps])
-        loss = fluid.layers.reduce_mean(loss, dim=[0])
+        loss = paddle.mean(loss, axis=[0])
         loss = paddle.sum(loss)
 
         return loss, last_hidden, last_cell
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_save_load_v2.py b/python/paddle/fluid/tests/unittests/test_imperative_save_load_v2.py
index 65e389b359610123dcb851873f1c3a57d61408e8..ea6804e64e9eb0a2486349d008a5e9cfd350780d 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_save_load_v2.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_save_load_v2.py
@@ -229,7 +229,7 @@ class PtbModel(fluid.Layer):
             logits=projection, label=label, soft_label=False
         )
         loss = paddle.reshape(loss, shape=[-1, self.num_steps])
-        loss = fluid.layers.reduce_mean(loss, dim=[0])
+        loss = paddle.mean(loss, axis=[0])
         loss = paddle.sum(loss)
 
         return loss, last_hidden, last_cell
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_selected_rows_to_lod_tensor.py b/python/paddle/fluid/tests/unittests/test_imperative_selected_rows_to_lod_tensor.py
index cc31e922b5efa2eb367c080ff19f9099f4534aed..e99d099317e81f24810d97ecbd043cc0a036dd13 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_selected_rows_to_lod_tensor.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_selected_rows_to_lod_tensor.py
@@ -82,7 +82,7 @@ class SimpleNet(fluid.Layer):
             logits=projection, label=label, soft_label=False
         )
         loss = paddle.reshape(loss, shape=[-1, self.num_steps])
-        loss = fluid.layers.reduce_mean(loss, dim=[0])
+        loss = paddle.mean(loss, axis=[0])
         loss = paddle.sum(loss)
 
         return loss
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_star_gan_with_gradient_penalty.py b/python/paddle/fluid/tests/unittests/test_imperative_star_gan_with_gradient_penalty.py
index 5e3ecf8b6cc3bf84bc058c2c2982af766d663854..1a1b22ee71c3515578020760f7f7d906c595e61e 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_star_gan_with_gradient_penalty.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_star_gan_with_gradient_penalty.py
@@ -445,9 +445,7 @@ def get_generator_loss(
 ):
     fake_img = generator(image_real, label_trg)
     rec_img = generator(fake_img, label_org)
-    g_loss_rec = fluid.layers.reduce_mean(
-        paddle.abs(paddle.subtract(image_real, rec_img))
-    )
+    g_loss_rec = paddle.mean(paddle.abs(paddle.subtract(image_real, rec_img)))
 
     pred_fake, cls_fake = discriminator(fake_img)
 
diff --git a/python/paddle/fluid/tests/unittests/test_imperative_trace_non_persistable_inputs.py b/python/paddle/fluid/tests/unittests/test_imperative_trace_non_persistable_inputs.py
index 341aa800c962626eda0fa4b2d8a0b14f08b470e9..31e7386fa5d7fc78afe106c7409d85ee2fa1f1f8 100644
--- a/python/paddle/fluid/tests/unittests/test_imperative_trace_non_persistable_inputs.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_trace_non_persistable_inputs.py
@@ -72,7 +72,7 @@ class TestTracedLayerRecordNonPersistableInput(unittest.TestCase):
                 static_out = traced_layer([in_x])[0]
                 np.testing.assert_array_equal(dygraph_out_numpy, static_out)
 
-                loss = fluid.layers.reduce_mean(dygraph_out)
+                loss = paddle.mean(dygraph_out)
                 loss.backward()
 
                 optimizer.minimize(loss)
diff --git a/python/paddle/fluid/tests/unittests/test_learning_rate_scheduler.py b/python/paddle/fluid/tests/unittests/test_learning_rate_scheduler.py
index a31809c0974bb2353f9dbddd8df4505fa6124558..ff2dc85126b30055d94c1d25ca0d80956ebe5c70 100644
--- a/python/paddle/fluid/tests/unittests/test_learning_rate_scheduler.py
+++ b/python/paddle/fluid/tests/unittests/test_learning_rate_scheduler.py
@@ -151,7 +151,7 @@ class TestLearningRateDecayDygraph(unittest.TestCase):
 
             for epoch in range(10):
                 out = linear(input)
-                loss = fluid.layers.reduce_mean(out)
+                loss = paddle.mean(out)
                 loss.backward()
                 adam1.minimize(loss)
                 adam2.minimize(loss)
diff --git a/python/paddle/fluid/tests/unittests/test_mean_op.py b/python/paddle/fluid/tests/unittests/test_mean_op.py
index 5999b3ee0362abd8272ad597ce8029b6e4d10404..83f07bf747c7ee7502bb43539943064116a348f1 100644
--- a/python/paddle/fluid/tests/unittests/test_mean_op.py
+++ b/python/paddle/fluid/tests/unittests/test_mean_op.py
@@ -383,7 +383,7 @@ class TestMeanAPI(unittest.TestCase):
     def test_fluid_api(self):
         with fluid.program_guard(fluid.Program(), fluid.Program()):
             x = fluid.data("x", shape=[10, 10], dtype="float32")
-            out = fluid.layers.reduce_mean(input=x, dim=1)
+            out = paddle.mean(x=x, axis=1)
             place = fluid.CPUPlace()
             exe = fluid.Executor(place)
             x_np = np.random.rand(10, 10).astype(np.float32)
@@ -393,7 +393,7 @@ class TestMeanAPI(unittest.TestCase):
         with fluid.dygraph.guard():
             x_np = np.random.rand(10, 10).astype(np.float32)
             x = fluid.dygraph.to_variable(x_np)
-            out = fluid.layers.reduce_mean(input=x, dim=1)
+            out = paddle.mean(x=x, axis=1)
         np.testing.assert_allclose(
             out.numpy(), np.mean(x_np, axis=1), rtol=1e-05
         )
diff --git a/python/paddle/fluid/tests/unittests/test_memory_reuse_exclude_feed_var.py b/python/paddle/fluid/tests/unittests/test_memory_reuse_exclude_feed_var.py
index 392559a1b58e2a75ef280005e95eab09913be6da..232c0f5c4925bee0abad60240ed4de6180588a60 100644
--- a/python/paddle/fluid/tests/unittests/test_memory_reuse_exclude_feed_var.py
+++ b/python/paddle/fluid/tests/unittests/test_memory_reuse_exclude_feed_var.py
@@ -16,6 +16,7 @@ import unittest
 
 import numpy as np
 
+import paddle
 import paddle.fluid as fluid
 
 
@@ -29,7 +30,7 @@ class TestMemoryReuseExcludeFeedVar(unittest.TestCase):
             name='image', shape=self.image_shape, dtype='float32'
         )
         relu_image = fluid.layers.relu(image)
-        loss = fluid.layers.reduce_mean(relu_image)
+        loss = paddle.mean(relu_image)
 
         build_strategy = fluid.BuildStrategy()
         build_strategy.enable_inplace = True
diff --git a/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_dynamic.py b/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_dynamic.py
index 8bcde4489e42542ecca9cf40d7fea23da0c35062..83ce7e5d35519fc779871ec408d98aa04acfd84f 100644
--- a/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_dynamic.py
+++ b/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_dynamic.py
@@ -16,6 +16,7 @@ import sys
 import time
 import unittest
 
+import paddle
 import numpy as np
 from test_multiprocess_dataloader_static import (
     BATCH_SIZE,
@@ -100,7 +101,7 @@ class TestDygraphDataLoader(unittest.TestCase):
                 for image, label in dataloader():
                     out = fc_net(image)
                     loss = fluid.layers.cross_entropy(out, label)
-                    avg_loss = fluid.layers.reduce_mean(loss)
+                    avg_loss = paddle.mean(loss)
                     avg_loss.backward()
                     optimizer.minimize(avg_loss)
                     fc_net.clear_gradients()
@@ -170,7 +171,7 @@ class TestDygraphDataLoaderWithBatchedDataset(TestDygraphDataLoader):
                 for image, label in dataloader():
                     out = fc_net(image)
                     loss = fluid.layers.cross_entropy(out, label)
-                    avg_loss = fluid.layers.reduce_mean(loss)
+                    avg_loss = paddle.mean(loss)
                     avg_loss.backward()
                     optimizer.minimize(avg_loss)
                     fc_net.clear_gradients()
diff --git a/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_iterable_dataset_dynamic.py b/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_iterable_dataset_dynamic.py
index e739c0c2cb755d908d620a122f7f883b1ba52a32..c4b59ef96eea798ea37b2fa7e09a1a31320f6d7d 100644
--- a/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_iterable_dataset_dynamic.py
+++ b/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_iterable_dataset_dynamic.py
@@ -100,7 +100,7 @@ class TestDygraphDataLoader(unittest.TestCase):
                 for image, label in dataloader():
                     out = fc_net(image)
                     loss = fluid.layers.cross_entropy(out, label)
-                    avg_loss = fluid.layers.reduce_mean(loss)
+                    avg_loss = paddle.mean(loss)
                     avg_loss.backward()
                     optimizer.minimize(avg_loss)
                     fc_net.clear_gradients()
@@ -168,7 +168,7 @@ class TestDygraphDataLoaderWithBatchedDataset(TestDygraphDataLoader):
                 for image, label in dataloader():
                     out = fc_net(image)
                     loss = fluid.layers.cross_entropy(out, label)
-                    avg_loss = fluid.layers.reduce_mean(loss)
+                    avg_loss = paddle.mean(loss)
                     avg_loss.backward()
                     optimizer.minimize(avg_loss)
                     fc_net.clear_gradients()
diff --git a/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_iterable_dataset_static.py b/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_iterable_dataset_static.py
index 8808654e03ed5af31d5d8b5ba116a5026c3e69f8..f9fcb6f77d8f3eef61a07c902389fabce2a6687e 100644
--- a/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_iterable_dataset_static.py
+++ b/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_iterable_dataset_static.py
@@ -18,6 +18,7 @@ import unittest
 
 import numpy as np
 
+import paddle
 import paddle.fluid as fluid
 from paddle.io import DataLoader, IterableDataset
 
@@ -78,7 +79,7 @@ def simple_fc_net_static():
                 param_attr=param_attr,
                 bias_attr=bias_attr,
             )
-            loss = fluid.layers.reduce_mean(
+            loss = paddle.mean(
                 fluid.layers.cross_entropy(input=predict_label, label=label)
             )
 
diff --git a/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_static.py b/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_static.py
index 283c68c1a13b86ed0ae2aa19263fd7de29f62438..7321e4d137442af00c84f441631276f62d7d9e4b 100644
--- a/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_static.py
+++ b/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_static.py
@@ -79,7 +79,7 @@ def simple_fc_net_static():
                 param_attr=param_attr,
                 bias_attr=bias_attr,
             )
-            loss = fluid.layers.reduce_mean(
+            loss = paddle.mean(
                 fluid.layers.cross_entropy(input=predict_label, label=label)
             )
 
diff --git a/python/paddle/fluid/tests/unittests/test_nn_grad.py b/python/paddle/fluid/tests/unittests/test_nn_grad.py
index 657d3f4dfb08299873a97eea1f93c690f32fbf18..a4030d8adbda8c11d8369a23ee2ef881edd0d48c 100644
--- a/python/paddle/fluid/tests/unittests/test_nn_grad.py
+++ b/python/paddle/fluid/tests/unittests/test_nn_grad.py
@@ -75,7 +75,7 @@ class TestReduceMeanWithDimDoubleGradCheck(unittest.TestCase):
 
         x = layers.data('x', shape, False, dtype)
         x.persistable = True
-        y = layers.reduce_mean(x, dim=0)
+        y = paddle.mean(x, axis=0)
         x_arr = np.random.uniform(-1, 1, shape).astype(dtype)
 
         gradient_checker.double_grad_check(
diff --git a/python/paddle/fluid/tests/unittests/test_optimizer.py b/python/paddle/fluid/tests/unittests/test_optimizer.py
index b3d6c75d9a12deffae8f60581c0f69e4e2ddeebe..50fe0ab67ef48dd4ce41e5d259238c2fcfde3195 100644
--- a/python/paddle/fluid/tests/unittests/test_optimizer.py
+++ b/python/paddle/fluid/tests/unittests/test_optimizer.py
@@ -1169,7 +1169,7 @@ class TestRecomputeOptimizer(unittest.TestCase):
                 input=[drop_res], size=2, act='softmax'
             )
             cost = fluid.layers.cross_entropy(input=prediction, label=input_y)
-            sum_cost = fluid.layers.reduce_mean(cost)
+            sum_cost = paddle.mean(cost)
             return drop_res, prediction, sum_cost
 
         main_program = Program()
@@ -1226,7 +1226,7 @@ class TestRecomputeOptimizerCUDA(unittest.TestCase):
                 input=[drop_res], size=2, act='softmax'
             )
             cost = fluid.layers.cross_entropy(input=prediction, label=input_y)
-            sum_cost = fluid.layers.reduce_mean(cost)
+            sum_cost = paddle.mean(cost)
             return drop_res, prediction, sum_cost
 
         main_program = Program()
diff --git a/python/paddle/fluid/tests/unittests/test_paddle_imperative_double_grad.py b/python/paddle/fluid/tests/unittests/test_paddle_imperative_double_grad.py
index e992fe1f34ec54070983b5ea948d6e6fc408324b..1547bd673db5f505d4a126e8666995e4c9373a6b 100644
--- a/python/paddle/fluid/tests/unittests/test_paddle_imperative_double_grad.py
+++ b/python/paddle/fluid/tests/unittests/test_paddle_imperative_double_grad.py
@@ -239,7 +239,7 @@ class TestDygraphDoubleGrad(TestCase):
         z = y + 1
         w = z * z
 
-        w_mean = fluid.layers.reduce_mean(w)
+        w_mean = paddle.mean(w)
         del y, z, w
 
         (dx_actual,) = self.grad([w_mean], [x], create_graph=True)
@@ -256,7 +256,7 @@ class TestDygraphDoubleGrad(TestCase):
         if not _in_legacy_dygraph():
             pass
         else:
-            loss = fluid.layers.reduce_mean(dx_actual * dx_actual + x * x)
+            loss = paddle.mean(dx_actual * dx_actual + x * x)
             loss.backward()
 
             x_grad_actual = x.gradient()
@@ -286,7 +286,7 @@ class TestDygraphDoubleGrad(TestCase):
         z = y1 + y2
         w = z * z
 
-        w_mean = fluid.layers.reduce_mean(w)
+        w_mean = paddle.mean(w)
         del y1, z, w
 
         (dx_actual,) = self.grad(
@@ -308,7 +308,7 @@ class TestDygraphDoubleGrad(TestCase):
         if not _in_legacy_dygraph():
             pass
         else:
-            loss = fluid.layers.reduce_mean(dx_actual * dx_actual + x * x)
+            loss = paddle.mean(dx_actual * dx_actual + x * x)
             loss.backward()
 
             x_grad_actual = x.gradient()
@@ -337,7 +337,7 @@ class TestDygraphDoubleGrad(TestCase):
         z = y + 1
         w = z * z
 
-        w_mean = fluid.layers.reduce_mean(w)
+        w_mean = paddle.mean(w)
         del y, z, w
 
         (dx_actual,) = self.grad([w_mean], [x], create_graph=False)
@@ -354,7 +354,7 @@ class TestDygraphDoubleGrad(TestCase):
         if not _in_legacy_dygraph():
             pass
         else:
-            loss = fluid.layers.reduce_mean(dx_actual * dx_actual + x * x)
+            loss = paddle.mean(dx_actual * dx_actual + x * x)
             loss.backward()
 
             x_grad_actual = x.gradient()
diff --git a/python/paddle/fluid/tests/unittests/test_paddle_save_load.py b/python/paddle/fluid/tests/unittests/test_paddle_save_load.py
index c78fa2ed847b415e136314efba41eb1159c0d591..193e10476426140c6b235c5988c5d7e61bcdf4fa 100644
--- a/python/paddle/fluid/tests/unittests/test_paddle_save_load.py
+++ b/python/paddle/fluid/tests/unittests/test_paddle_save_load.py
@@ -213,7 +213,7 @@ class TestSaveLoadAny(unittest.TestCase):
             )
             z = paddle.static.nn.fc(x, 10)
             z = paddle.static.nn.fc(z, 10, bias_attr=False)
-            loss = fluid.layers.reduce_mean(z)
+            loss = paddle.mean(z)
             opt = Adam(learning_rate=1e-3)
             opt.minimize(loss)
             place = paddle.CPUPlace()
@@ -382,7 +382,7 @@ class TestSaveLoadAny(unittest.TestCase):
                 name="x", shape=[None, IMAGE_SIZE], dtype='float32'
             )
             z = paddle.static.nn.fc(x, 128)
-            loss = fluid.layers.reduce_mean(z)
+            loss = paddle.mean(z)
             place = (
                 fluid.CPUPlace()
                 if not paddle.fluid.core.is_compiled_with_cuda()
@@ -640,7 +640,7 @@ class TestSaveLoadAny(unittest.TestCase):
             )
             z = paddle.static.nn.fc(x, 10, bias_attr=False)
             z = paddle.static.nn.fc(z, 128, bias_attr=False)
-            loss = fluid.layers.reduce_mean(z)
+            loss = paddle.mean(z)
             place = (
                 fluid.CPUPlace()
                 if not paddle.fluid.core.is_compiled_with_cuda()
@@ -915,7 +915,7 @@ class TestSaveLoadToMemory(unittest.TestCase):
             )
             z = paddle.static.nn.fc(x, 10, bias_attr=False)
             z = paddle.static.nn.fc(z, 128, bias_attr=False)
-            loss = fluid.layers.reduce_mean(z)
+            loss = paddle.mean(z)
             place = (
                 fluid.CPUPlace()
                 if not paddle.fluid.core.is_compiled_with_cuda()
diff --git a/python/paddle/fluid/tests/unittests/test_paddle_save_load_binary.py b/python/paddle/fluid/tests/unittests/test_paddle_save_load_binary.py
index 478570100e03efc0784b2b7150780fcc20d4657a..4616d8b4b2a472c49815aa2bb8cfba36c43d13a9 100644
--- a/python/paddle/fluid/tests/unittests/test_paddle_save_load_binary.py
+++ b/python/paddle/fluid/tests/unittests/test_paddle_save_load_binary.py
@@ -79,7 +79,7 @@ class TestSaveLoadBinaryFormat(unittest.TestCase):
             )
             z = paddle.static.nn.fc(x, 10, bias_attr=False)
             z = paddle.static.nn.fc(z, 128, bias_attr=False)
-            loss = fluid.layers.reduce_mean(z)
+            loss = paddle.mean(z)
             place = (
                 fluid.CPUPlace()
                 if not paddle.fluid.core.is_compiled_with_cuda()
diff --git a/python/paddle/fluid/tests/unittests/test_parallel_executor_fetch_isolated_var.py b/python/paddle/fluid/tests/unittests/test_parallel_executor_fetch_isolated_var.py
index b18525d727bcfd06617ee6b25ee2a03d94c964fc..7d782fb25bc00e2ca1dfb699d0aed45c3a1393a1 100644
--- a/python/paddle/fluid/tests/unittests/test_parallel_executor_fetch_isolated_var.py
+++ b/python/paddle/fluid/tests/unittests/test_parallel_executor_fetch_isolated_var.py
@@ -31,7 +31,7 @@ class TestParallelExecutorFetchIsolatedVarBase(unittest.TestCase):
         x = fluid.data(name='x', shape=[-1, 10], dtype='float32')
         y = fluid.data(name='y', shape=[-1, 10], dtype='float32')
         fc = fluid.layers.fc(x, size=30, bias_attr=False)
-        loss = fluid.layers.reduce_mean(fc)
+        loss = paddle.mean(fc)
         if is_training:
             adam = fluid.optimizer.Adam(learning_rate=1e-3)
             adam.minimize(loss)
diff --git a/python/paddle/fluid/tests/unittests/test_parallel_executor_inference_feed_partial_data.py b/python/paddle/fluid/tests/unittests/test_parallel_executor_inference_feed_partial_data.py
index 2704352460d41e2f1cb35193921f0fd5176af818..7d3823a07ee2e1cb0b80bdae0bb63c740013e56c 100644
--- a/python/paddle/fluid/tests/unittests/test_parallel_executor_inference_feed_partial_data.py
+++ b/python/paddle/fluid/tests/unittests/test_parallel_executor_inference_feed_partial_data.py
@@ -16,6 +16,7 @@ import unittest
 
 import numpy as np
 
+import paddle
 import paddle.fluid as fluid
 
 
@@ -183,7 +184,7 @@ class TestInferencePartialFeedUsingDataLoader(unittest.TestCase):
             feed_list=[x], capacity=16, iterable=iterable, drop_last=drop_last
         )
         y = fluid.layers.fc(x, size=10)
-        loss = fluid.layers.reduce_mean(y)
+        loss = paddle.mean(y)
 
         exe = fluid.Executor(places[0])
         exe.run(fluid.default_startup_program())
diff --git a/python/paddle/fluid/tests/unittests/test_rnn_cell_api.py b/python/paddle/fluid/tests/unittests/test_rnn_cell_api.py
index 73995d0ee00db7ea4df73b123ec0ab84aa965fd7..0d3ccae5bfcb4406eba6ea6c5e36ec31c838fa21 100644
--- a/python/paddle/fluid/tests/unittests/test_rnn_cell_api.py
+++ b/python/paddle/fluid/tests/unittests/test_rnn_cell_api.py
@@ -640,7 +640,7 @@ def def_seq2seq_model(
         target_length, maxlen=max_tar_seq_len, dtype="float32"
     )
     loss = loss * tar_mask
-    loss = layers.reduce_mean(loss, dim=[0])
+    loss = paddle.mean(loss, axis=[0])
     loss = paddle.sum(loss)
 
     # optimizer
diff --git a/python/paddle/fluid/tests/unittests/test_rnn_decode_api.py b/python/paddle/fluid/tests/unittests/test_rnn_decode_api.py
index 077c8d5e68e75a0ce61066010cd341d77f148efe..b7c98515fee85b48b6e3f216d5b5903f5840ad2f 100644
--- a/python/paddle/fluid/tests/unittests/test_rnn_decode_api.py
+++ b/python/paddle/fluid/tests/unittests/test_rnn_decode_api.py
@@ -319,7 +319,7 @@ class PolicyGradient:
         cost = (
             (paddle.sum(cost) / paddle.sum(length))
             if length is not None
-            else layers.reduce_mean(cost)
+            else paddle.mean(cost)
         )
         optimizer = fluid.optimizer.Adam(self.lr)
         optimizer.minimize(cost)
@@ -405,7 +405,7 @@ class MLE:
         max_seq_len = layers.shape(probs)[1]
         mask = layers.sequence_mask(length, maxlen=max_seq_len, dtype="float32")
         loss = loss * mask
-        loss = layers.reduce_mean(loss, dim=[0])
+        loss = paddle.mean(loss, axis=[0])
         loss = paddle.sum(loss)
         optimizer = fluid.optimizer.Adam(self.lr)
         optimizer.minimize(loss)
diff --git a/python/paddle/fluid/tests/unittests/test_static_save_load.py b/python/paddle/fluid/tests/unittests/test_static_save_load.py
index 8871966d350aa71c81f181ac2c4dca20f85f7dc9..d5bb1583651b1a18a50ca3009fd9181826e02eb2 100644
--- a/python/paddle/fluid/tests/unittests/test_static_save_load.py
+++ b/python/paddle/fluid/tests/unittests/test_static_save_load.py
@@ -241,7 +241,7 @@ class PtbModel(fluid.Layer):
             logits=projection, label=label, soft_label=False
         )
         loss = paddle.reshape(loss, shape=[-1, self.num_steps])
-        loss = fluid.layers.reduce_mean(loss, dim=[0])
+        loss = paddle.mean(loss, axis=[0])
         loss = paddle.sum(loss)
 
         return loss, last_hidden, last_cell
diff --git a/python/paddle/fluid/tests/unittests/test_traced_layer_err_msg.py b/python/paddle/fluid/tests/unittests/test_traced_layer_err_msg.py
index 8beda2498444259ac6480ba51ff8046803620ce0..68e5bce290c0960bdd85cbcdcadd54f9fbb4e3d2 100644
--- a/python/paddle/fluid/tests/unittests/test_traced_layer_err_msg.py
+++ b/python/paddle/fluid/tests/unittests/test_traced_layer_err_msg.py
@@ -223,7 +223,7 @@ class TestTracedLayerErrMsg(unittest.TestCase):
                     ).astype('float32')
                 )
                 dygraph_out = layer(in_x)
-                loss = fluid.layers.reduce_mean(dygraph_out)
+                loss = paddle.mean(dygraph_out)
                 loss.backward()
                 optimizer.minimize(loss)
         return layer
diff --git a/python/paddle/nn/layer/loss.py b/python/paddle/nn/layer/loss.py
index cf9f9762aa6088f85dd0fac16042b4b80c09690f..e88331676c525c6ef3b8b30d47d0a5afcf44ef7c 100644
--- a/python/paddle/nn/layer/loss.py
+++ b/python/paddle/nn/layer/loss.py
@@ -522,24 +522,16 @@ class MSELoss(Layer):
     r"""
     **Mean Square Error Loss**
     Computes the mean square error (squared L2 norm) of given input and label.
-
     If :attr:`reduction` is set to ``'none'``, loss is calculated as:
-
     .. math::
         Out = (input - label)^2
-
     If :attr:`reduction` is set to ``'mean'``, loss is calculated as:
-
     .. math::
         Out = \operatorname{mean}((input - label)^2)
-
     If :attr:`reduction` is set to ``'sum'``, loss is calculated as:
-
     .. math::
         Out = \operatorname{sum}((input - label)^2)
-
     where `input` and `label` are `float32` tensors of same shape.
-
     Parameters:
         reduction (string, optional): The reduction method for the output,
             could be 'none' | 'mean' | 'sum'.
@@ -547,17 +539,13 @@ class MSELoss(Layer):
             If :attr:`size_average` is ``'sum'``, the reduced sum loss is returned.
             If :attr:`reduction` is ``'none'``, the unreduced loss is returned.
             Default is ``'mean'``.
-
     Shape:
         input (Tensor): Input tensor, the data type is float32 or float64
         label (Tensor): Label tensor, the data type is float32 or float64
         output (Tensor): output tensor storing the MSE loss of input and label, the data type is same as input.
-
     Examples:
         .. code-block:: python
-
             import paddle
-
             mse_loss = paddle.nn.loss.MSELoss()
             input = paddle.to_tensor([1.5])
             label = paddle.to_tensor([1.7])
@@ -596,7 +584,7 @@ class MSELoss(Layer):
             square_out = paddle.sum(square_out)
             return square_out
 
-        return getattr(fluid.layers, reduce_op)(square_out)
+        return paddle.mean(square_out)
 
 
 class L1Loss(Layer):