diff --git a/python/paddle/distributed/fleet/meta_optimizers/localsgd_optimizer.py b/python/paddle/distributed/fleet/meta_optimizers/localsgd_optimizer.py
index 1cd0b23488ed7e292e3edbb9a10eb5a99316ecdc..67cd428f3b9690f6fce6db1efeef8f98f001bc57 100644
--- a/python/paddle/distributed/fleet/meta_optimizers/localsgd_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/localsgd_optimizer.py
@@ -465,7 +465,7 @@ class AdaptiveLocalSGDOptimizer(MetaOptimizerBase):
                 min_local_steps = layers.fill_constant(
                     shape=[1], dtype='int64', value=1
                 )
-                next_local_steps = layers.elementwise_min(
+                next_local_steps = paddle.minimum(
                     next_local_steps, max_local_steps
                 )
                 next_local_steps = paddle.maximum(
diff --git a/python/paddle/fluid/dygraph/learning_rate_scheduler.py b/python/paddle/fluid/dygraph/learning_rate_scheduler.py
index 0204542d6ec2beb456357dbaf6206b4bceb62b94..21e0dc7c20c62056210b5fd598ffa89a8aa13167 100644
--- a/python/paddle/fluid/dygraph/learning_rate_scheduler.py
+++ b/python/paddle/fluid/dygraph/learning_rate_scheduler.py
@@ -680,9 +680,7 @@ class NoamDecay(LearningRateDecay):
         a = self.create_lr_var(self.step_num**-0.5)
         b = self.create_lr_var((self.warmup_steps**-1.5) * self.step_num)
         lr_value = (
-            self.learning_rate
-            * (self.d_model**-0.5)
-            * layers.elementwise_min(a, b)
+            self.learning_rate * (self.d_model**-0.5) * paddle.minimum(a, b)
         )
         return lr_value
 
diff --git a/python/paddle/fluid/layers/learning_rate_scheduler.py b/python/paddle/fluid/layers/learning_rate_scheduler.py
index 737d9e75e11cba1bbbb9c3c61b97ee66729736d6..cf56c793511b2682684c2ef8eb114a036a756565 100644
--- a/python/paddle/fluid/layers/learning_rate_scheduler.py
+++ b/python/paddle/fluid/layers/learning_rate_scheduler.py
@@ -23,6 +23,7 @@ strategy according to this module.
 import math
 import numbers
 
+import paddle
 from . import control_flow
 from . import nn
 from . import ops
@@ -109,9 +110,7 @@ def noam_decay(d_model, warmup_steps, learning_rate=1.0):
 
             a = global_step**-0.5
             b = (warmup_steps**-1.5) * global_step
-            lr_value = (
-                learning_rate * (d_model**-0.5) * nn.elementwise_min(a, b)
-            )
+            lr_value = learning_rate * (d_model**-0.5) * paddle.minimum(a, b)
 
             return lr_value
 
@@ -364,9 +363,7 @@ def polynomial_decay(
                 decay_steps_var = tensor.fill_constant(
                     shape=[1], dtype='float32', value=float(decay_steps)
                 )
-                global_step = nn.elementwise_min(
-                    x=global_step, y=decay_steps_var
-                )
+                global_step = paddle.minimum(x=global_step, y=decay_steps_var)
 
             decayed_lr = (learning_rate - end_learning_rate) * (
                 (1 - global_step / decay_steps) ** power
diff --git a/python/paddle/fluid/tests/unittests/ipu/test_elemetwise_x_op_ipu.py b/python/paddle/fluid/tests/unittests/ipu/test_elemetwise_x_op_ipu.py
index 3ce09c9c479b845dee7c893a4e4051a5532db864..0dc66ba82cde8f15579bce38988b0e152de0ebc4 100644
--- a/python/paddle/fluid/tests/unittests/ipu/test_elemetwise_x_op_ipu.py
+++ b/python/paddle/fluid/tests/unittests/ipu/test_elemetwise_x_op_ipu.py
@@ -140,7 +140,7 @@ class TestDiv(TestMul):
 
 class TestMin(TestMul):
     def set_test_op(self):
-        self.op = paddle.fluid.layers.elementwise_min
+        self.op = paddle.minimum
 
 
 class TestMax(TestMul):
diff --git a/python/paddle/fluid/tests/unittests/test_elementwise_min_op.py b/python/paddle/fluid/tests/unittests/test_elementwise_min_op.py
index 1fe78b79fb059cff5c4a230e89c417131df55dee..8df9f9842b88547a727da000ff17fc26f238735d 100644
--- a/python/paddle/fluid/tests/unittests/test_elementwise_min_op.py
+++ b/python/paddle/fluid/tests/unittests/test_elementwise_min_op.py
@@ -18,6 +18,7 @@ from op_test import OpTest, skip_check_grad_ci
 import paddle
 import paddle.fluid as fluid
 import paddle.fluid.core as core
+from paddle import _legacy_C_ops
 
 paddle.enable_static()
 
@@ -213,7 +214,7 @@ class TestElementwiseMinOpFP16(unittest.TestCase):
             y = paddle.to_tensor(y_np)
             x.stop_gradient = False
             y.stop_gradient = False
-            z = fluid.layers.elementwise_min(x, y, axis)
+            z = _legacy_C_ops.elementwise_min(x, y, 'axis', axis)
             x_g, y_g = paddle.grad([z], [x, y])
             return (
                 z.numpy().astype(dtype),
diff --git a/python/paddle/fluid/tests/unittests/test_layers.py b/python/paddle/fluid/tests/unittests/test_layers.py
index 78d01722b8121c3539b1b23ff7e27aa48aa87fc7..7b7dfd399120fcf7be14ff62dd6be53ee8145663 100644
--- a/python/paddle/fluid/tests/unittests/test_layers.py
+++ b/python/paddle/fluid/tests/unittests/test_layers.py
@@ -649,14 +649,12 @@ class TestLayer(LayerTest):
 
         with self.dynamic_graph():
             with _test_eager_guard():
-                min_eager_ret = layers.elementwise_min(
-                    to_variable(n), to_variable(n2)
-                )
+                min_eager_ret = paddle.minimum(to_variable(n), to_variable(n2))
                 max_eager_ret = paddle.maximum(to_variable(n), to_variable(n2))
                 min_eager_ret_value = min_eager_ret.numpy()
                 max_eager_ret_value = max_eager_ret.numpy()
 
-            min_ret = layers.elementwise_min(to_variable(n), to_variable(n2))
+            min_ret = paddle.minimum(to_variable(n), to_variable(n2))
             max_ret = paddle.maximum(to_variable(n), to_variable(n2))
             min_ret_value = min_ret.numpy()
             max_ret_value = max_ret.numpy()