diff --git a/python/paddle/fluid/contrib/slim/tests/test_imperative_qat_matmul.py b/python/paddle/fluid/contrib/slim/tests/test_imperative_qat_matmul.py
index 482f4a49efbe06f16688e4fd28af9bf724eb0ff8..b584204f4f18013bb20e66e8a0cb38dcbd006239 100644
--- a/python/paddle/fluid/contrib/slim/tests/test_imperative_qat_matmul.py
+++ b/python/paddle/fluid/contrib/slim/tests/test_imperative_qat_matmul.py
@@ -173,7 +173,9 @@ class TestImperativeQatMatmul(unittest.TestCase):
                 label = fluid.dygraph.to_variable(y_data)
                 out = lenet(img)
                 acc = paddle.static.accuracy(out, label)
-                loss = fluid.layers.cross_entropy(out, label)
+                loss = paddle.nn.functional.cross_entropy(
+                    out, label, reduction='none', use_softmax=False
+                )
                 avg_loss = paddle.mean(loss)
 
                 avg_loss.backward()
diff --git a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_fp16_allreduce_meta_optimizer.py b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_fp16_allreduce_meta_optimizer.py
index 498c946e95f571947f896b2003e4afc0ad9c27ec..595b0508d57cfbd85562b6577b41a42da786b007 100644
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_fp16_allreduce_meta_optimizer.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_fp16_allreduce_meta_optimizer.py
@@ -42,8 +42,11 @@ class TestFleetFP16CompressOptimizer(unittest.TestCase):
             prediction = paddle.fluid.layers.fc(
                 input=[fc_2], size=2, act='softmax'
             )
-            cost = paddle.fluid.layers.cross_entropy(
-                input=prediction, label=input_y
+            cost = paddle.nn.functional.cross_entropy(
+                input=prediction,
+                label=input_y,
+                reduction='none',
+                use_softmax=False,
             )
             avg_cost = paddle.mean(x=cost)
 
diff --git a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_graph_execution_meta_optimizer.py b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_graph_execution_meta_optimizer.py
index c6c8d9f2b98c9f375521ad5cfd6bbea7a31366fa..f9271832cf27b2102fa214bf7b10cf27e77f0d33 100644
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_graph_execution_meta_optimizer.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_graph_execution_meta_optimizer.py
@@ -72,8 +72,11 @@ class TestFleetGraphExecutionMetaOptimizer(unittest.TestCase):
             prediction = paddle.fluid.layers.fc(
                 input=[fc_2], size=2, act='softmax'
             )
-            cost = paddle.fluid.layers.cross_entropy(
-                input=prediction, label=input_y
+            cost = paddle.nn.functional.cross_entropy(
+                input=prediction,
+                label=input_y,
+                reduction='none',
+                use_softmax=False,
             )
             avg_cost = paddle.mean(x=cost)
 
@@ -135,8 +138,11 @@ class TestFleetGraphExecutionMetaOptimizer(unittest.TestCase):
             prediction = paddle.fluid.layers.fc(
                 input=[fc_2], size=2, act='softmax'
             )
-            cost = paddle.fluid.layers.cross_entropy(
-                input=prediction, label=input_y
+            cost = paddle.nn.functional.cross_entropy(
+                input=prediction,
+                label=input_y,
+                reduction='none',
+                use_softmax=False,
             )
             avg_cost = paddle.mean(x=cost)
 
@@ -210,8 +216,11 @@ class TestFleetGraphExecutionMetaOptimizer(unittest.TestCase):
             prediction = paddle.fluid.layers.fc(
                 input=[fc_2], size=2, act='softmax'
             )
-            cost = paddle.fluid.layers.cross_entropy(
-                input=prediction, label=input_y
+            cost = paddle.nn.functional.cross_entropy(
+                input=prediction,
+                label=input_y,
+                reduction='none',
+                use_softmax=False,
             )
             avg_cost = paddle.mean(x=cost)
 
@@ -272,8 +281,11 @@ class TestFleetGraphExecutionMetaOptimizer(unittest.TestCase):
             prediction = paddle.fluid.layers.fc(
                 input=[fc_2], size=2, act='softmax'
             )
-            cost = paddle.fluid.layers.cross_entropy(
-                input=prediction, label=input_y
+            cost = paddle.nn.functional.cross_entropy(
+                input=prediction,
+                label=input_y,
+                reduction='none',
+                use_softmax=False,
             )
             avg_cost = paddle.mean(x=cost)
 
diff --git a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_graph_executor.py b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_graph_executor.py
index 6951d4c40a67295e70c41394251de9db199dd52a..8ddfb7b40610c5e61eaa8a82b3e15ea937d81f0d 100644
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_graph_executor.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_graph_executor.py
@@ -59,8 +59,11 @@ class TestFleetGraphExecutionMetaOptimizer(unittest.TestCase):
             prediction = paddle.fluid.layers.fc(
                 input=[fc_2], size=2, act='softmax'
             )
-            cost = paddle.fluid.layers.cross_entropy(
-                input=prediction, label=input_y
+            cost = paddle.nn.functional.cross_entropy(
+                input=prediction,
+                label=input_y,
+                reduction='none',
+                use_softmax=False,
             )
             avg_cost = paddle.mean(x=cost)
 
diff --git a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_lamb_meta_optimizer.py b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_lamb_meta_optimizer.py
index f8ba968f553f3618fdd0a5a52cdbeca7dab090ba..1a20f09a1689d05fdcc4d9357d0db6ba1911eebd 100755
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_lamb_meta_optimizer.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_lamb_meta_optimizer.py
@@ -47,8 +47,11 @@ class TestFleetLambMetaOptimizer(unittest.TestCase):
                 prediction = paddle.fluid.layers.fc(
                     input=[fc_2], size=2, act='softmax'
                 )
-                cost = paddle.fluid.layers.cross_entropy(
-                    input=prediction, label=input_y
+                cost = paddle.nn.functional.cross_entropy(
+                    input=prediction,
+                    label=input_y,
+                    reduction='none',
+                    use_softmax=False,
                 )
                 avg_cost = paddle.mean(x=cost)
 
@@ -122,8 +125,8 @@ class TestFleetLambMetaOptimizer(unittest.TestCase):
         fc_1 = paddle.fluid.layers.fc(input=input_x, size=64, act='tanh')
         fc_2 = paddle.fluid.layers.fc(input=fc_1, size=64, act='tanh')
         prediction = paddle.fluid.layers.fc(input=[fc_2], size=2, act='softmax')
-        cost = paddle.fluid.layers.cross_entropy(
-            input=prediction, label=input_y
+        cost = paddle.nn.functional.cross_entropy(
+            input=prediction, label=input_y, reduction='none', use_softmax=False
         )
         avg_cost = paddle.mean(x=cost)
 
diff --git a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_lars_meta_optimizer.py b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_lars_meta_optimizer.py
index 2789c921dd999d2e1a361004ce5cca9ef1b59cba..f0e5f2517dc0fe910cfce2e2e701faff886449f2 100755
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_lars_meta_optimizer.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_lars_meta_optimizer.py
@@ -47,8 +47,11 @@ class TestFleetLarsMetaOptimizer(unittest.TestCase):
                 prediction = paddle.fluid.layers.fc(
                     input=[fc_2], size=2, act='softmax'
                 )
-                cost = paddle.fluid.layers.cross_entropy(
-                    input=prediction, label=input_y
+                cost = paddle.nn.functional.cross_entropy(
+                    input=prediction,
+                    label=input_y,
+                    reduction='none',
+                    use_softmax=False,
                 )
                 avg_cost = paddle.mean(x=cost)
 
@@ -127,8 +130,8 @@ class TestFleetLarsMetaOptimizer(unittest.TestCase):
         fc_1 = paddle.fluid.layers.fc(input=input_x, size=64, act='tanh')
         fc_2 = paddle.fluid.layers.fc(input=fc_1, size=64, act='tanh')
         prediction = paddle.fluid.layers.fc(input=[fc_2], size=2, act='softmax')
-        cost = paddle.fluid.layers.cross_entropy(
-            input=prediction, label=input_y
+        cost = paddle.nn.functional.cross_entropy(
+            input=prediction, label=input_y, reduction='none', use_softmax=False
         )
         avg_cost = paddle.mean(x=cost)
 
diff --git a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_meta_optimizer_base.py b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_meta_optimizer_base.py
index 2dad7b56c26a78d9794fb848d9b65098b0fcf6c6..5d545e2268a00b0d283401157fffe4370ad10d1d 100755
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_meta_optimizer_base.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_meta_optimizer_base.py
@@ -43,8 +43,11 @@ class TestFleetMetaOptimizerBase(unittest.TestCase):
                 prediction = paddle.fluid.layers.fc(
                     input=[fc_2], size=2, act='softmax'
                 )
-                cost = paddle.fluid.layers.cross_entropy(
-                    input=prediction, label=input_y
+                cost = paddle.nn.functional.cross_entropy(
+                    input=prediction,
+                    label=input_y,
+                    reduction='none',
+                    use_softmax=False,
                 )
                 avg_cost = paddle.mean(x=cost)
 
diff --git a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_pipeline_meta_optimizer.py b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_pipeline_meta_optimizer.py
index 564b8c02fd653a051331e3e1233e84dcedbfda51..900e78675a71322b0451727b36e9e980b821d96a 100644
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_pipeline_meta_optimizer.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_pipeline_meta_optimizer.py
@@ -56,8 +56,11 @@ class TestFleetMetaOptimizer(unittest.TestCase):
             prediction = paddle.fluid.layers.fc(
                 input=[fc_2], size=2, act='softmax'
             )
-            cost = paddle.fluid.layers.cross_entropy(
-                input=prediction, label=input_y
+            cost = paddle.nn.functional.cross_entropy(
+                input=prediction,
+                label=input_y,
+                reduction='none',
+                use_softmax=False,
             )
             avg_cost = paddle.mean(x=cost)
         return avg_cost
diff --git a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_pipeline_meta_optimizer_with_recompute.py b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_pipeline_meta_optimizer_with_recompute.py
index 85456cc96c00a09907315ea6c2f9f4f068837f1d..c31698ba5ffa6190f63a9fc99f0c7e2a7a99787b 100644
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_pipeline_meta_optimizer_with_recompute.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_pipeline_meta_optimizer_with_recompute.py
@@ -52,8 +52,11 @@ class TestFleetMetaOptimizer(unittest.TestCase):
             prediction = paddle.fluid.layers.fc(
                 input=[fc_7], size=2, act='softmax'
             )
-            cost = paddle.fluid.layers.cross_entropy(
-                input=prediction, label=input_y
+            cost = paddle.nn.functional.cross_entropy(
+                input=prediction,
+                label=input_y,
+                reduction='none',
+                use_softmax=False,
             )
             avg_cost = paddle.mean(x=cost)
 
diff --git a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_raw_program_meta_optimizer.py b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_raw_program_meta_optimizer.py
index 2b08af3d33c70e29568722da16739a49d1ea3d1a..32e4bfb62f9893bdec53532164d0531290fe863a 100644
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_raw_program_meta_optimizer.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_raw_program_meta_optimizer.py
@@ -41,8 +41,8 @@ class TestFleetMetaOptimizer(unittest.TestCase):
 
         fc_2 = paddle.fluid.layers.fc(input=fc_1, size=64, act='tanh')
         prediction = paddle.fluid.layers.fc(input=[fc_2], size=2, act='softmax')
-        cost = paddle.fluid.layers.cross_entropy(
-            input=prediction, label=input_y
+        cost = paddle.nn.functional.cross_entropy(
+            input=prediction, label=input_y, reduction='none', use_softmax=False
         )
         avg_cost = paddle.mean(x=cost)
 
diff --git a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_mobile_net.py b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_mobile_net.py
index d5a4ae996d68bdb1790a405adadb59ec75b8ffef..9b803ff1130f205cbc167d9f0ca96a7b4aeb1f53 100644
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_mobile_net.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_mobile_net.py
@@ -531,8 +531,11 @@ def train_mobilenet(args, to_static):
 
                 t_end = time.time()
                 softmax_out = paddle.nn.functional.softmax(out)
-                loss = fluid.layers.cross_entropy(
-                    input=softmax_out, label=label
+                loss = paddle.nn.functional.cross_entropy(
+                    input=softmax_out,
+                    label=label,
+                    reduction='none',
+                    use_softmax=False,
                 )
                 avg_loss = paddle.mean(x=loss)
                 acc_top1 = paddle.static.accuracy(input=out, label=label, k=1)
diff --git a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_tsm.py b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_tsm.py
index 805e42a03a10e3527767f3098649744efa5040db..4353a8a72b60b28c46ebf2969f5532796050c1d8 100644
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_tsm.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_tsm.py
@@ -329,8 +329,12 @@ def train(args, fake_data_reader, to_static):
                 labels = to_variable(y_data)
                 labels.stop_gradient = True
                 outputs = video_model(imgs)
-                loss = fluid.layers.cross_entropy(
-                    input=outputs, label=labels, ignore_index=-1
+                loss = paddle.nn.functional.cross_entropy(
+                    input=outputs,
+                    label=labels,
+                    ignore_index=-1,
+                    reduction='none',
+                    use_softmax=False,
                 )
                 avg_loss = paddle.mean(loss)
                 acc_top1 = paddle.static.accuracy(
diff --git a/python/paddle/fluid/tests/unittests/ipu/test_cross_entropy2_op_ipu.py b/python/paddle/fluid/tests/unittests/ipu/test_cross_entropy2_op_ipu.py
index 25c39bd9612ad091d0dbb1c4485837b4b8591895..77785d7359e8415209be03116326300cb074a2d8 100644
--- a/python/paddle/fluid/tests/unittests/ipu/test_cross_entropy2_op_ipu.py
+++ b/python/paddle/fluid/tests/unittests/ipu/test_cross_entropy2_op_ipu.py
@@ -63,8 +63,12 @@ class TestBase(IPUOpTest):
             label = paddle.static.data(
                 name=self.feed_list[1], shape=self.feed_shape[1], dtype='int64'
             )
-        out = paddle.fluid.layers.cross_entropy(
-            input=x, label=label, **self.attrs
+        out = paddle.nn.functional.cross_entropy(
+            input=x,
+            label=label,
+            reduction='none',
+            use_softmax=False,
+            **self.attrs
         )
         self.fetch_list = [out.name]
 
diff --git a/python/paddle/fluid/tests/unittests/ipu/test_dy2static_ipu.py b/python/paddle/fluid/tests/unittests/ipu/test_dy2static_ipu.py
index 69630e67a77e155b5c96e7d7885cc677ca998137..c3c1dd891480c17ba47a172cd3045a7af30fa65b 100644
--- a/python/paddle/fluid/tests/unittests/ipu/test_dy2static_ipu.py
+++ b/python/paddle/fluid/tests/unittests/ipu/test_dy2static_ipu.py
@@ -49,12 +49,9 @@ class SimpleLayer(paddle.nn.Layer):
         if target is not None:
             if self.use_softmax:
                 x = paddle.nn.functional.softmax(x)
-            if self.loss_op:
-                loss = self.loss_op(x, target)
-            else:
-                loss = paddle.paddle.nn.functional.cross_entropy(
-                    x, target, reduction='none', use_softmax=False
-                )
+            loss = paddle.paddle.nn.functional.cross_entropy(
+                x, target, reduction='none', use_softmax=False
+            )
             if self.use_reduction:
                 loss = paddle.mean(loss)
             if self.use_identity_loss:
@@ -69,7 +66,7 @@ class TestBase(IPUD2STest):
         self.set_data_feed()
 
     def set_op_attrs(self):
-        self.loss_op = paddle.fluid.layers.cross_entropy
+        pass
 
     def set_data_feed(self):
         self.data = paddle.uniform((8, 3, 10, 10), dtype='float32')
diff --git a/python/paddle/fluid/tests/unittests/test_layers.py b/python/paddle/fluid/tests/unittests/test_layers.py
index c28044345b42b24017d73d508429adf479167071..eed74746b3d5d06cdee445cef88c0abb67fc75ee 100644
--- a/python/paddle/fluid/tests/unittests/test_layers.py
+++ b/python/paddle/fluid/tests/unittests/test_layers.py
@@ -2062,7 +2062,9 @@ class TestBook(LayerTest):
                 act='softmax',
                 param_attr=["sftmax.w1", "sftmax.w2"],
             )
-            cost = layers.cross_entropy(input=predict, label=label)
+            cost = paddle.nn.functional.cross_entropy(
+                input=predict, label=label, reduction='none', use_softmax=False
+            )
             avg_cost = paddle.mean(cost)
             return avg_cost
 
@@ -2101,7 +2103,9 @@ class TestBook(LayerTest):
             )
 
             predict = layers.fc(input=conv_pool_2, size=10, act="softmax")
-            cost = layers.cross_entropy(input=predict, label=label)
+            cost = paddle.nn.functional.cross_entropy(
+                input=predict, label=label, reduction='none', use_softmax=False
+            )
             avg_cost = paddle.mean(cost)
             return avg_cost
 
@@ -2154,7 +2158,12 @@ class TestBook(LayerTest):
             predict_word = layers.fc(
                 input=hidden1, size=dict_size, act='softmax'
             )
-            cost = layers.cross_entropy(input=predict_word, label=next_word)
+            cost = paddle.nn.functional.cross_entropy(
+                input=predict_word,
+                label=next_word,
+                reduction='none',
+                use_softmax=False,
+            )
             avg_cost = paddle.mean(cost)
             return avg_cost
 
@@ -2366,7 +2375,14 @@ class TestBook(LayerTest):
             x = self._get_data(name="x", shape=[30, 10], dtype="float32")
             label = self._get_data(name="label", shape=[30, 1], dtype="int64")
             mode = 'channel'
-            out = layers.cross_entropy(x, label, False, 4)
+            out = paddle.nn.functional.cross_entropy(
+                x,
+                label,
+                soft_label=False,
+                ignore_index=4,
+                reduction='none',
+                use_softmax=False,
+            )
             return out
 
     def make_uniform_random_batch_size_like(self):