[Clean fluid] Clean fluid elementwise_min (part1) (#48033)

* clean fluid elementwise_min * fix elementwise_min op testcase

[Clean fluid] Clean fluid elementwise_min (part1) (#48033)
* clean fluid elementwise_min * fix elementwise_min op testcase
99ec2c16 · HongyuJia · GitHub · 29a0987a · 99ec2c16 · 99ec2c16
6 changed file
--- a/python/paddle/distributed/fleet/meta_optimizers/localsgd_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/localsgd_optimizer.py
@@ -465,7 +465,7 @@ class AdaptiveLocalSGDOptimizer(MetaOptimizerBase):
                min_local_steps = layers.fill_constant(
                    shape=[1], dtype='int64', value=1
                )
-                next_local_steps = layers.elementwise_min(
+                next_local_steps = paddle.minimum(
                    next_local_steps, max_local_steps
                )
                next_local_steps = paddle.maximum(

--- a/python/paddle/fluid/dygraph/learning_rate_scheduler.py
+++ b/python/paddle/fluid/dygraph/learning_rate_scheduler.py
@@ -680,9 +680,7 @@ class NoamDecay(LearningRateDecay):
        a = self.create_lr_var(self.step_num**-0.5)
        b = self.create_lr_var((self.warmup_steps**-1.5) * self.step_num)
        lr_value = (
-            self.learning_rate
+            self.learning_rate * (self.d_model**-0.5) * paddle.minimum(a, b)
-            * (self.d_model**-0.5)
-            * layers.elementwise_min(a, b)
        )
        return lr_value

--- a/python/paddle/fluid/layers/learning_rate_scheduler.py
+++ b/python/paddle/fluid/layers/learning_rate_scheduler.py
@@ -23,6 +23,7 @@ strategy according to this module.
 import math
 import numbers
+import paddle
 from . import control_flow
 from . import nn
 from . import ops
@@ -109,9 +110,7 @@ def noam_decay(d_model, warmup_steps, learning_rate=1.0):
            a = global_step**-0.5
            b = (warmup_steps**-1.5) * global_step
-            lr_value = (
+            lr_value = learning_rate * (d_model**-0.5) * paddle.minimum(a, b)
-                learning_rate * (d_model**-0.5) * nn.elementwise_min(a, b)
-            )
            return lr_value
@@ -364,9 +363,7 @@ def polynomial_decay(
                decay_steps_var = tensor.fill_constant(
                    shape=[1], dtype='float32', value=float(decay_steps)
                )
-                global_step = nn.elementwise_min(
+                global_step = paddle.minimum(x=global_step, y=decay_steps_var)
-                    x=global_step, y=decay_steps_var
-                )
            decayed_lr = (learning_rate - end_learning_rate) * (
                (1 - global_step / decay_steps) ** power

--- a/python/paddle/fluid/tests/unittests/ipu/test_elemetwise_x_op_ipu.py
+++ b/python/paddle/fluid/tests/unittests/ipu/test_elemetwise_x_op_ipu.py
@@ -140,7 +140,7 @@ class TestDiv(TestMul):
 class TestMin(TestMul):
    def set_test_op(self):
-        self.op = paddle.fluid.layers.elementwise_min
+        self.op = paddle.minimum
 class TestMax(TestMul):

--- a/python/paddle/fluid/tests/unittests/test_elementwise_min_op.py
+++ b/python/paddle/fluid/tests/unittests/test_elementwise_min_op.py
@@ -18,6 +18,7 @@ from op_test import OpTest, skip_check_grad_ci
 import paddle
 import paddle.fluid as fluid
 import paddle.fluid.core as core
+from paddle import _legacy_C_ops
 paddle.enable_static()
@@ -213,7 +214,7 @@ class TestElementwiseMinOpFP16(unittest.TestCase):
            y = paddle.to_tensor(y_np)
            x.stop_gradient = False
            y.stop_gradient = False
-            z = fluid.layers.elementwise_min(x, y, axis)
+            z = _legacy_C_ops.elementwise_min(x, y, 'axis', axis)
            x_g, y_g = paddle.grad([z], [x, y])
            return (
                z.numpy().astype(dtype),

--- a/python/paddle/fluid/tests/unittests/test_layers.py
+++ b/python/paddle/fluid/tests/unittests/test_layers.py
@@ -649,14 +649,12 @@ class TestLayer(LayerTest):
        with self.dynamic_graph():
            with _test_eager_guard():
-                min_eager_ret = layers.elementwise_min(
+                min_eager_ret = paddle.minimum(to_variable(n), to_variable(n2))
-                    to_variable(n), to_variable(n2)
-                )
                max_eager_ret = paddle.maximum(to_variable(n), to_variable(n2))
                min_eager_ret_value = min_eager_ret.numpy()
                max_eager_ret_value = max_eager_ret.numpy()
-            min_ret = layers.elementwise_min(to_variable(n), to_variable(n2))
+            min_ret = paddle.minimum(to_variable(n), to_variable(n2))
            max_ret = paddle.maximum(to_variable(n), to_variable(n2))
            min_ret_value = min_ret.numpy()
            max_ret_value = max_ret.numpy()