[CodeStyle][py2][U008] remove unnecessary args in `super()` (#47549)

* [CodeStyle][py2][U008] remove unnecessary args in `super()` * remove remained args * revert changes in test_pylayer_op * Revert "revert changes in test_pylayer_op" This reverts commit ff185a9ae738afac3b0264f61bde6c6b7f72e7c4. * revert some changes in example code

[CodeStyle][py2][U008] remove unnecessary args in `super()` (#47549)
* [CodeStyle][py2][U008] remove unnecessary args in `super()` * remove remained args * revert changes in test_pylayer_op * Revert "revert changes in test_pylayer_op" This reverts commit ff185a9ae738afac3b0264f61bde6c6b7f72e7c4. * revert some changes in example code
3de3e45e · Nyakku Shigure · GitHub · 6d0f730d · 3de3e45e · 3de3e45e
566 changed file
--- a/paddle/infrt/tests/models/abs_model.py
+++ b/paddle/infrt/tests/models/abs_model.py
@@ -20,7 +20,7 @@ import sys

 class AbsNet(paddle.nn.Layer):
    def __init__(self):
-        super(AbsNet, self).__init__()
+        super().__init__()

    def forward(self, x):
        x = paddle.abs(x)

--- a/paddle/infrt/tests/models/linear.py
+++ b/paddle/infrt/tests/models/linear.py
@@ -42,7 +42,7 @@ class RandomDataset(paddle.io.Dataset):

 class LinearNet(nn.Layer):
    def __init__(self):
-        super(LinearNet, self).__init__()
+        super().__init__()
        self._linear = nn.Linear(IMAGE_SIZE, CLASS_NUM)

    @paddle.jit.to_static

--- a/paddle/phi/api/yaml/generator/api_gen.py
+++ b/paddle/phi/api/yaml/generator/api_gen.py
@@ -31,7 +31,7 @@ inplace_optional_out_type_map = {

 class ForwardAPI(BaseAPI):
    def __init__(self, api_item_yaml):
-        super(ForwardAPI, self).__init__(api_item_yaml)
+        super().__init__(api_item_yaml)
        self.is_dygraph_api, self.intermediate_outs = self.parse_intermediate(
            api_item_yaml
        )

--- a/paddle/phi/api/yaml/generator/backward_api_gen.py
+++ b/paddle/phi/api/yaml/generator/backward_api_gen.py
@@ -21,7 +21,7 @@ from api_base import BaseAPI

 class BackwardAPI(BaseAPI):
    def __init__(self, backward_item_yaml):
-        super(BackwardAPI, self).__init__(backward_item_yaml)
+        super().__init__(backward_item_yaml)
        self.check_args(backward_item_yaml['forward'])
        self.no_need_buffer = self.parse_no_need_buffer(backward_item_yaml)

@@ -97,7 +97,7 @@ class BackwardAPI(BaseAPI):
            'Tensor': 'Tensor*',
            'std::vector<Tensor>': 'std::vector<Tensor*>',
        }
-        intputs_and_attrs = super(BackwardAPI, self).get_define_args()
+        intputs_and_attrs = super().get_define_args()
        outs = []
        for i, name in enumerate(self.outputs['names']):
            outs.append(

--- a/paddle/phi/api/yaml/generator/sparse_api_gen.py
+++ b/paddle/phi/api/yaml/generator/sparse_api_gen.py
@@ -21,12 +21,12 @@ from api_base import PREFIX_TENSOR_NAME

 class SparseAPI(ForwardAPI):
    def __init__(self, api_item_yaml):
-        super(SparseAPI, self).__init__(api_item_yaml)
+        super().__init__(api_item_yaml)

    def gene_api_declaration(self):
        return f"""
 // {", ".join(self.outputs['names'])}
-{super(SparseAPI, self).gene_api_declaration()}
+{super().gene_api_declaration()}
 """

    def gene_output(

--- a/paddle/phi/api/yaml/generator/strings_api_gen.py
+++ b/paddle/phi/api/yaml/generator/strings_api_gen.py
@@ -23,7 +23,7 @@ PREFIX_META_TENSOR_NAME = 'meta_'

 class StringsAPI(ForwardAPI):
    def __init__(self, api_item_yaml):
-        super(StringsAPI, self).__init__(api_item_yaml)
+        super().__init__(api_item_yaml)

    def get_api_func_name(self):
        return self.api
@@ -31,7 +31,7 @@ class StringsAPI(ForwardAPI):
    def gene_api_declaration(self):
        return f"""
 // {", ".join(self.outputs['names'])}
-{super(StringsAPI, self).gene_api_declaration()}
+{super().gene_api_declaration()}
 """

    def get_kernel_tensor_out_type(self, output_name):

--- a/python/paddle/amp/grad_scaler.py
+++ b/python/paddle/amp/grad_scaler.py
@@ -85,7 +85,7 @@ class GradScaler(AmpScaler):
        decr_every_n_nan_or_inf=2,
        use_dynamic_loss_scaling=True,
    ):
-        super(GradScaler, self).__init__(
+        super().__init__(
            enable,
            init_loss_scaling,
            incr_ratio,
@@ -125,7 +125,7 @@ class GradScaler(AmpScaler):
                scaler.minimize(optimizer, scaled)  # update parameters
                optimizer.clear_grad()
        """
-        return super(GradScaler, self).scale(var)
+        return super().scale(var)

    def minimize(self, optimizer, *args, **kwargs):
        """
@@ -161,7 +161,7 @@ class GradScaler(AmpScaler):
                scaler.minimize(optimizer, scaled)  # update parameters
                optimizer.clear_grad()
        """
-        return super(GradScaler, self).minimize(optimizer, *args, **kwargs)
+        return super().minimize(optimizer, *args, **kwargs)

    def step(self, optimizer):
        """
@@ -280,7 +280,7 @@ class GradScaler(AmpScaler):
                scaler.update()
                optimizer.clear_grad()
        """
-        return super(GradScaler, self)._unscale(optimizer)
+        return super()._unscale(optimizer)

    def is_enable(self):
        """
@@ -304,7 +304,7 @@ class GradScaler(AmpScaler):
                enable = scaler.is_enable()
                print(enable) # True
        """
-        return super(GradScaler, self).is_enable()
+        return super().is_enable()

    def is_use_dynamic_loss_scaling(self):
        """
@@ -328,7 +328,7 @@ class GradScaler(AmpScaler):
                use_dynamic_loss_scaling = scaler.is_use_dynamic_loss_scaling()
                print(use_dynamic_loss_scaling) # True
        """
-        return super(GradScaler, self).is_use_dynamic_loss_scaling()
+        return super().is_use_dynamic_loss_scaling()

    def get_init_loss_scaling(self):
        """
@@ -352,7 +352,7 @@ class GradScaler(AmpScaler):
                init_loss_scaling = scaler.get_init_loss_scaling()
                print(init_loss_scaling) # 1024
        """
-        return super(GradScaler, self).get_init_loss_scaling()
+        return super().get_init_loss_scaling()

    def set_init_loss_scaling(self, new_init_loss_scaling):
        """
@@ -378,7 +378,7 @@ class GradScaler(AmpScaler):
                scaler.set_init_loss_scaling(new_init_loss_scaling)
                print(scaler.get_init_loss_scaling()) # 1000
        """
-        super(GradScaler, self).set_init_loss_scaling(new_init_loss_scaling)
+        super().set_init_loss_scaling(new_init_loss_scaling)

    def get_incr_ratio(self):
        """
@@ -402,7 +402,7 @@ class GradScaler(AmpScaler):
                incr_ratio = scaler.get_incr_ratio()
                print(incr_ratio) # 2.0
        """
-        return super(GradScaler, self).get_incr_ratio()
+        return super().get_incr_ratio()

    def set_incr_ratio(self, new_incr_ratio):
        """
@@ -428,7 +428,7 @@ class GradScaler(AmpScaler):
                scaler.set_incr_ratio(new_incr_ratio)
                print(scaler.get_incr_ratio()) # 3.0
        """
-        super(GradScaler, self).set_incr_ratio(new_incr_ratio)
+        super().set_incr_ratio(new_incr_ratio)

    def get_decr_ratio(self):
        """
@@ -452,7 +452,7 @@ class GradScaler(AmpScaler):
                decr_ratio = scaler.get_decr_ratio()
                print(decr_ratio) # 0.5
        """
-        return super(GradScaler, self).get_decr_ratio()
+        return super().get_decr_ratio()

    def set_decr_ratio(self, new_decr_ratio):
        """
@@ -478,7 +478,7 @@ class GradScaler(AmpScaler):
                scaler.set_decr_ratio(new_decr_ratio)
                print(scaler.get_decr_ratio()) # 0.1
        """
-        super(GradScaler, self).set_decr_ratio(new_decr_ratio)
+        super().set_decr_ratio(new_decr_ratio)

    def get_incr_every_n_steps(self):
        """
@@ -502,7 +502,7 @@ class GradScaler(AmpScaler):
                incr_every_n_steps = scaler.get_incr_every_n_steps()
                print(incr_every_n_steps) # 1000
        """
-        return super(GradScaler, self).get_incr_every_n_steps()
+        return super().get_incr_every_n_steps()

    def set_incr_every_n_steps(self, new_incr_every_n_steps):
        """
@@ -528,7 +528,7 @@ class GradScaler(AmpScaler):
                scaler.set_incr_every_n_steps(new_incr_every_n_steps)
                print(scaler.get_incr_every_n_steps()) # 2000
        """
-        super(GradScaler, self).set_incr_every_n_steps(new_incr_every_n_steps)
+        super().set_incr_every_n_steps(new_incr_every_n_steps)

    def get_decr_every_n_nan_or_inf(self):
        """
@@ -552,7 +552,7 @@ class GradScaler(AmpScaler):
                decr_every_n_nan_or_inf = scaler.get_decr_every_n_nan_or_inf()
                print(decr_every_n_nan_or_inf) # 2
        """
-        return super(GradScaler, self).get_decr_every_n_nan_or_inf()
+        return super().get_decr_every_n_nan_or_inf()

    def set_decr_every_n_nan_or_inf(self, new_decr_every_n_nan_or_inf):
        """
@@ -578,9 +578,7 @@ class GradScaler(AmpScaler):
                scaler.set_decr_every_n_nan_or_inf(new_decr_every_n_nan_or_inf)
                print(scaler.get_decr_every_n_nan_or_inf()) # 3
        """
-        super(GradScaler, self).set_decr_every_n_nan_or_inf(
-            new_decr_every_n_nan_or_inf
-        )
+        super().set_decr_every_n_nan_or_inf(new_decr_every_n_nan_or_inf)

    def state_dict(self):
        """
@@ -614,7 +612,7 @@ class GradScaler(AmpScaler):
                                               use_dynamic_loss_scaling=True)
                scaler_state = scaler.state_dict()
        """
-        return super(GradScaler, self).state_dict()
+        return super().state_dict()

    def load_state_dict(self, state_dict):
        """
@@ -640,4 +638,4 @@ class GradScaler(AmpScaler):
                scaler_state = scaler.state_dict()
                scaler.load_state_dict(scaler_state)
        """
-        super(GradScaler, self).load_state_dict(state_dict)
+        super().load_state_dict(state_dict)
--- a/python/paddle/audio/datasets/dataset.py
+++ b/python/paddle/audio/datasets/dataset.py
@@ -49,7 +49,7 @@ class AudioClassificationDataset(paddle.io.Dataset):
            feat_type (:obj:`str`, `optional`, defaults to `raw`):
                It identifies the feature type that user wants to extrace of an audio file.
        """
-        super(AudioClassificationDataset, self).__init__()
+        super().__init__()

        if feat_type not in feat_funcs.keys():
            raise RuntimeError(

--- a/python/paddle/audio/datasets/esc50.py
+++ b/python/paddle/audio/datasets/esc50.py
@@ -151,7 +151,7 @@ class ESC50(AudioClassificationDataset):
        if archive is not None:
            self.archive = archive
        files, labels = self._get_data(mode, split)
-        super(ESC50, self).__init__(
+        super().__init__(
            files=files, labels=labels, feat_type=feat_type, **kwargs
        )


--- a/python/paddle/audio/datasets/tess.py
+++ b/python/paddle/audio/datasets/tess.py
@@ -107,7 +107,7 @@ class TESS(AudioClassificationDataset):
        if archive is not None:
            self.archive = archive
        files, labels = self._get_data(mode, n_folds, split)
-        super(TESS, self).__init__(
+        super().__init__(
            files=files, labels=labels, feat_type=feat_type, **kwargs
        )


--- a/python/paddle/audio/features/layers.py
+++ b/python/paddle/audio/features/layers.py
@@ -72,7 +72,7 @@ class Spectrogram(nn.Layer):
        pad_mode: str = 'reflect',
        dtype: str = 'float32',
    ) -> None:
-        super(Spectrogram, self).__init__()
+        super().__init__()

        assert power > 0, 'Power of spectrogram must be > 0.'
        self.power = power
@@ -163,7 +163,7 @@ class MelSpectrogram(nn.Layer):
        norm: Union[str, float] = 'slaney',
        dtype: str = 'float32',
    ) -> None:
-        super(MelSpectrogram, self).__init__()
+        super().__init__()

        self._spectrogram = Spectrogram(
            n_fft=n_fft,
@@ -269,7 +269,7 @@ class LogMelSpectrogram(nn.Layer):
        top_db: Optional[float] = None,
        dtype: str = 'float32',
    ) -> None:
-        super(LogMelSpectrogram, self).__init__()
+        super().__init__()

        self._melspectrogram = MelSpectrogram(
            sr=sr,
@@ -374,7 +374,7 @@ class MFCC(nn.Layer):
        top_db: Optional[float] = None,
        dtype: str = 'float32',
    ) -> None:
-        super(MFCC, self).__init__()
+        super().__init__()
        assert (
            n_mfcc <= n_mels
        ), 'n_mfcc cannot be larger than n_mels: %d vs %d' % (n_mfcc, n_mels)

--- a/python/paddle/autograd/py_layer.py
+++ b/python/paddle/autograd/py_layer.py
@@ -201,7 +201,7 @@ class LayerMeta(type):
            name + '_backward', (PyLayerBackward,), {"_forward_cls": cls}
        )

-        return super(LayerMeta, cls).__init__(name, bases, attrs)
+        return super().__init__(name, bases, attrs)


 class LegacyPyLayer(with_mateclass(LayerMeta, CPyLayer)):
@@ -552,7 +552,7 @@ class EagerPyLayerMeta(type):
            name + '_backward', (EagerPyLayerBackward,), {"_forward_cls": cls}
        )

-        return super(EagerPyLayerMeta, cls).__init__(name, bases, attrs)
+        return super().__init__(name, bases, attrs)


 class EagerPyLayer(

--- a/python/paddle/distributed/auto_parallel/callbacks.py
+++ b/python/paddle/distributed/auto_parallel/callbacks.py
@@ -83,7 +83,7 @@ def config_callbacks(

 class ProgBarLoggerAuto(ProgBarLogger):
    def __init__(self, log_freq=1, verbose=2):
-        super(ProgBarLoggerAuto, self).__init__(log_freq, verbose)
+        super().__init__(log_freq, verbose)

    def _is_print(self):
        return True
@@ -158,7 +158,7 @@ class ProgBarLoggerAuto(ProgBarLogger):

 class LRSchedulerAuto(LRScheduler):
    def __init__(self, by_step=True, by_epoch=False):
-        super(LRSchedulerAuto, self).__init__(by_step, by_epoch)
+        super().__init__(by_step, by_epoch)

    def on_epoch_begin(self, epoch=None, logs=None):
        self.acc_step = self.params["acc_step"]
@@ -225,7 +225,7 @@ class Profiler(Callback):

 class ModelCheckpointAuto(ModelCheckpoint):
    def __init__(self, *args, **kwargs):
-        super(ModelCheckpointAuto, self).__init__(*args, **kwargs)
+        super().__init__(*args, **kwargs)

    def _is_save(self):
        return self.model and self.save_dir

--- a/python/paddle/distributed/auto_parallel/cost/base_cost.py
+++ b/python/paddle/distributed/auto_parallel/cost/base_cost.py
@@ -756,7 +756,7 @@ class CommOpCost(OpCost):
    OP_TYPE = "COMM"

    def __init__(self, op=None, op_desc=None, comm_context=None):
-        super(CommOpCost, self).__init__(op=op, op_desc=op_desc)
+        super().__init__(op=op, op_desc=op_desc)
        self._check_comm_op_type()
        self._comm_context = comm_context
        self._group_ranks = None
@@ -859,7 +859,7 @@ class CompOpCost(OpCost):
    OP_TYPE = "COMP"

    def __init__(self, op=None, op_desc=None, cluster=None):
-        super(CompOpCost, self).__init__(op=op, op_desc=op_desc)
+        super().__init__(op=op, op_desc=op_desc)
        self._check_comp_op_type()
        self._cost = self.calc_cost()
        self.cluster = cluster

--- a/python/paddle/distributed/auto_parallel/cost/comm_op_cost.py
+++ b/python/paddle/distributed/auto_parallel/cost/comm_op_cost.py
@@ -22,9 +22,7 @@ class AllreduceSumOpCost(CommOpCost):
    OP_TYPE = "c_allreduce_sum"

    def __init__(self, op=None, op_desc=None, comm_context=None):
-        super(AllreduceSumOpCost, self).__init__(
-            op=op, op_desc=op_desc, comm_context=comm_context
-        )
+        super().__init__(op=op, op_desc=op_desc, comm_context=comm_context)

    def calc_time(self):
        # use tree if cross machine and use ring if in a single machine
@@ -86,9 +84,7 @@ class AllgatherOpCost(CommOpCost):
    OP_TYPE = "c_allgather"

    def __init__(self, op=None, op_desc=None, comm_context=None):
-        super(AllgatherOpCost, self).__init__(
-            op=op, op_desc=op_desc, comm_context=comm_context
-        )
+        super().__init__(op=op, op_desc=op_desc, comm_context=comm_context)

    def calc_time(self):
        time = self.calc_time_ring()
@@ -115,9 +111,7 @@ class BroadcastOpCost(CommOpCost):
    OP_TYPE = "c_broadcast"

    def __init__(self, op=None, op_desc=None, comm_context=None):
-        super(BroadcastOpCost, self).__init__(
-            op=op, op_desc=op_desc, comm_context=comm_context
-        )
+        super().__init__(op=op, op_desc=op_desc, comm_context=comm_context)

    def calc_time(self):
        time = self.calc_time_ring()
@@ -143,9 +137,7 @@ class IdentityOpCost(CommOpCost):
    OP_TYPE = "c_identity"

    def __init__(self, op=None, op_desc=None, comm_context=None):
-        super(IdentityOpCost, self).__init__(
-            op=op, op_desc=op_desc, comm_context=comm_context
-        )
+        super().__init__(op=op, op_desc=op_desc, comm_context=comm_context)

    def calc_time(self):
        return 0
@@ -156,9 +148,7 @@ class RecvOpCost(CommOpCost):
    OP_TYPE = "recv_v2"

    def __init__(self, op=None, op_desc=None, comm_context=None):
-        super(RecvOpCost, self).__init__(
-            op=op, op_desc=op_desc, comm_context=comm_context
-        )
+        super().__init__(op=op, op_desc=op_desc, comm_context=comm_context)

    def calc_time(self):
        alpha = self.comm_context.base_ring
@@ -179,9 +169,7 @@ class SendOpCost(CommOpCost):
    OP_TYPE = "send_v2"

    def __init__(self, op=None, op_desc=None, comm_context=None):
-        super(SendOpCost, self).__init__(
-            op=op, op_desc=op_desc, comm_context=comm_context
-        )
+        super().__init__(op=op, op_desc=op_desc, comm_context=comm_context)

    def calc_time(self):
        alpha = self.comm_context.base_ring

--- a/python/paddle/distributed/auto_parallel/cost/comp_op_cost.py
+++ b/python/paddle/distributed/auto_parallel/cost/comp_op_cost.py
--- a/python/paddle/distributed/auto_parallel/cost_model.py
+++ b/python/paddle/distributed/auto_parallel/cost_model.py
@@ -71,7 +71,7 @@ class CostNode(object):

 class MergedOpsCostNode(CostNode):
    def __init__(self, node_type, id=None, base_node_list=None, is_bwd=False):
-        super(MergedOpsCostNode, self).__init__(None, node_type, id)
+        super().__init__(None, node_type, id)
        self.node_list = base_node_list
        self.is_bwd = is_bwd

@@ -80,7 +80,7 @@ class CommOpCostNode(CostNode):
    def __init__(
        self, node, node_type, id=None, comm_node_list=None, is_bwd=False
    ):
-        super(CommOpCostNode, self).__init__(node, node_type, id)
+        super().__init__(node, node_type, id)
        self.node_list = comm_node_list
        self.ranks = []
        self.comm_type = node.type
@@ -124,7 +124,7 @@ class TensorCostNode(CostNode):
        batch_size=None,
        shared_node_id=None,
    ):
-        super(TensorCostNode, self).__init__(node, node_type, id)
+        super().__init__(node, node_type, id)
        if node.name == "create_py_reader_0" or node.name == "double_buffer_0":
            self.shape = [2, 2]
            self.dtype = paddle.float32
@@ -159,7 +159,7 @@ class TensorCostNode(CostNode):

 class CompOpCostNode(CostNode):
    def __init__(self, node, node_type, id=None, is_bwd=False, is_optim=False):
-        super(CompOpCostNode, self).__init__(node, node_type, id)
+        super().__init__(node, node_type, id)
        self.is_bwd = is_bwd
        self.is_optim = is_optim


--- a/python/paddle/distributed/auto_parallel/helper.py
+++ b/python/paddle/distributed/auto_parallel/helper.py
@@ -37,7 +37,7 @@ class ProxyLayer(Layer):
    """

    def __init__(self, layer, loss_func, metrics):
-        super(ProxyLayer, self).__init__()
+        super().__init__()
        # NOTE: All verify logics are finished in Engine.Prepare
        self.inner_layer = layer
        self.loss_func = loss_func

--- a/python/paddle/distributed/auto_parallel/operators/dist_assign.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_assign.py
@@ -22,7 +22,7 @@ from ..utils import compute_compatible_and_update_dim_mapping

 class DistributedAssign(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedAssign, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(DistributedAssign("assign"))
@@ -30,7 +30,7 @@ register_distributed_operator_impl_container(DistributedAssign("assign"))

 class DistributedAssignImpl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedAssignImpl, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True


--- a/python/paddle/distributed/auto_parallel/operators/dist_check_finite_and_unscale.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_check_finite_and_unscale.py
@@ -31,7 +31,7 @@ world_process_group = get_world_process_group()

 class DistributedCheckFiniteAndUnscale(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedCheckFiniteAndUnscale, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(
@@ -41,7 +41,7 @@ register_distributed_operator_impl_container(

 class DistributedCheckFiniteAndUnscaleImpl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedCheckFiniteAndUnscaleImpl, self).__init__(name)
+        super().__init__(name)
        self._name = name
        self._forward_implemented = False
        self._backward_implemented = True

--- a/python/paddle/distributed/auto_parallel/operators/dist_default.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_default.py
@@ -86,7 +86,7 @@ def prim_operator_data_parallel_functor(ctx, src_op):

 class DistributedDefault(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedDefault, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(DistributedDefault("default"))
@@ -95,7 +95,7 @@ register_distributed_operator_impl_container(DistributedDefault("default"))
 # Replicated Default
 class DistributedDefaultImpl0(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedDefaultImpl0, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True


--- a/python/paddle/distributed/auto_parallel/operators/dist_eltwise.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_eltwise.py
@@ -28,7 +28,7 @@ from ..cost import build_comp_costs_from_descs

 class DistributedElementwise(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedElementwise, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(
@@ -39,7 +39,7 @@ register_distributed_operator_impl_container(
 # Replicated Elementwise
 class DistributedElementwiseImpl0(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedElementwiseImpl0, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = False
        self._backward_implemented = False


--- a/python/paddle/distributed/auto_parallel/operators/dist_embedding.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_embedding.py
@@ -51,7 +51,7 @@ from paddle.distributed.auto_parallel.cost.comm_op_cost import (

 class DistributedEmbedding(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedEmbedding, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(
@@ -153,7 +153,7 @@ def adopt_lookup_table_v1(ctx, main_block, src_op, Ids_var):
 # RowParallel
 class DistributedEmbeddingImpl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedEmbeddingImpl, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True


--- a/python/paddle/distributed/auto_parallel/operators/dist_fill_constant_batch_size_like.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_fill_constant_batch_size_like.py
@@ -26,7 +26,7 @@ from ..cost import build_comp_costs_from_descs

 class DistributedFillConstantBatchSizeLike(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedFillConstantBatchSizeLike, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(
@@ -36,7 +36,7 @@ register_distributed_operator_impl_container(

 class DistributedFillConstantBatchSizeLikeImpl0(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedFillConstantBatchSizeLikeImpl0, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True


--- a/python/paddle/distributed/auto_parallel/operators/dist_fused_attention.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_fused_attention.py
@@ -25,7 +25,7 @@ from ..process_group import new_process_group

 class DistributedFusedAttention(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedFusedAttention, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(
@@ -35,7 +35,7 @@ register_distributed_operator_impl_container(

 class DistributedFusedAttentionImpl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedFusedAttentionImpl, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True


--- a/python/paddle/distributed/auto_parallel/operators/dist_fused_feedforward.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_fused_feedforward.py
@@ -25,7 +25,7 @@ from ..process_group import new_process_group

 class DistributedFusedFeedForward(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedFusedFeedForward, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(
@@ -35,7 +35,7 @@ register_distributed_operator_impl_container(

 class DistributedFusedFeedForwardImpl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedFusedFeedForwardImpl, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True


--- a/python/paddle/distributed/auto_parallel/operators/dist_matmul.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_matmul.py
@@ -544,7 +544,7 @@ def _init_param_sync(Weight_var, dist_op_context, startup_block, ctx, rank_id):

 class DistributedMatmul(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedMatmul, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(DistributedMatmul("matmul"))
@@ -553,7 +553,7 @@ register_distributed_operator_impl_container(DistributedMatmul("matmul"))
 # ColumnParallel
 class DistributedMatmulImpl0(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedMatmulImpl0, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True

@@ -939,7 +939,7 @@ class DistributedMatmulImpl0(DistributedOperatorImpl):
 # RowParallel
 class DistributedMatmulImpl1(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedMatmulImpl1, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True

@@ -1300,7 +1300,7 @@ class DistributedMatmulImpl1(DistributedOperatorImpl):
 # ReplicateParallel
 class DistributedMatmulImpl2(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedMatmulImpl2, self).__init__(name)
+        super().__init__(name)

    def calc_cost(self, op_role, dist_op, ctx, cluster):
        cost = None
@@ -1441,7 +1441,7 @@ register_distributed_operator_impl(

 class DistributedMatmulV2(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedMatmulV2, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(DistributedMatmulV2("matmul_v2"))
@@ -1450,7 +1450,7 @@ register_distributed_operator_impl_container(DistributedMatmulV2("matmul_v2"))
 # ColumnParallel
 class DistributedMatmulV2Impl0(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedMatmulV2Impl0, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True

@@ -1839,7 +1839,7 @@ class DistributedMatmulV2Impl0(DistributedOperatorImpl):
 # RowParallel
 class DistributedMatmulV2Impl1(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedMatmulV2Impl1, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True

@@ -2199,7 +2199,7 @@ class DistributedMatmulV2Impl1(DistributedOperatorImpl):
 # ReplicateParallel
 class DistributedMatmulV2Impl2(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedMatmulV2Impl2, self).__init__(name)
+        super().__init__(name)

    def calc_cost(self, op_role, dist_op, ctx, cluster):
        cost = None
@@ -2342,7 +2342,7 @@ register_distributed_operator_impl(

 class DistributedMul(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedMul, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(DistributedMul("mul"))
@@ -2351,7 +2351,7 @@ register_distributed_operator_impl_container(DistributedMul("mul"))
 # ColumnParallel
 class DistributedMulImpl0(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedMulImpl0, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True

@@ -2743,7 +2743,7 @@ class DistributedMulImpl0(DistributedOperatorImpl):
 # RowParallel
 class DistributedMulImpl1(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedMulImpl1, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True

@@ -3114,7 +3114,7 @@ class DistributedMulImpl1(DistributedOperatorImpl):
 # ReplicateParallel
 class DistributedMulImpl2(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedMulImpl2, self).__init__(name)
+        super().__init__(name)

    def calc_cost(self, op_role, dist_op, ctx, cluster):
        cost = None

--- a/python/paddle/distributed/auto_parallel/operators/dist_pnorm.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_pnorm.py
@@ -37,7 +37,7 @@ from paddle.fluid.data_feeder import check_variable_and_dtype, check_dtype

 class DistributedPNorm(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedPNorm, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(DistributedPNorm("p_norm"))
@@ -46,7 +46,7 @@ register_distributed_operator_impl_container(DistributedPNorm("p_norm"))
 # Row Parallel
 class DistributedPNormImpl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedPNormImpl, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True


--- a/python/paddle/distributed/auto_parallel/operators/dist_reduce_sum_p.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_reduce_sum_p.py
@@ -24,7 +24,7 @@ from ..process_group import new_process_group

 class DistributedReduceSumPrimtive(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedReduceSumPrimtive, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(
@@ -35,7 +35,7 @@ register_distributed_operator_impl_container(
 # Batch Dimension ReduceSum Primitive
 class DistributedReduceSumPrimtiveImpl0(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedReduceSumPrimtiveImpl0, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True


--- a/python/paddle/distributed/auto_parallel/operators/dist_reshape.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_reshape.py
@@ -28,7 +28,7 @@ from paddle.distributed.fleet.meta_optimizers.common import OpRole

 class DistributedReshape2(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedReshape2, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(DistributedReshape2("reshape2"))
@@ -36,7 +36,7 @@ register_distributed_operator_impl_container(DistributedReshape2("reshape2"))

 class DistributedReshapeImpl0(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedReshapeImpl0, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = False

@@ -286,7 +286,7 @@ class DistributedReshapeImpl0(DistributedOperatorImpl):

 class DistributedReshapeImpl1(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedReshapeImpl1, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = False

@@ -539,7 +539,7 @@ class DistributedReshapeImpl1(DistributedOperatorImpl):

 class DistributedReshapeImpl2(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedReshapeImpl2, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = False


--- a/python/paddle/distributed/auto_parallel/operators/dist_shape.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_shape.py
@@ -22,7 +22,7 @@ from ..utils import is_dim_shard

 class DistributedShape(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedShape, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(DistributedShape("shape"))
@@ -30,7 +30,7 @@ register_distributed_operator_impl_container(DistributedShape("shape"))

 class DistributedShapeImpl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedShapeImpl, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True


--- a/python/paddle/distributed/auto_parallel/operators/dist_slice.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_slice.py
@@ -23,7 +23,7 @@ from .dist_default import DistributedDefaultImpl0

 class DistributedSlice(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedSlice, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(DistributedSlice("slice"))
@@ -31,7 +31,7 @@ register_distributed_operator_impl_container(DistributedSlice("slice"))

 class DistributedSliceImpl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedSliceImpl, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True


--- a/python/paddle/distributed/auto_parallel/operators/dist_softmax.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_softmax.py
@@ -28,7 +28,7 @@ from paddle.distributed.fleet.meta_optimizers.common import OpRole

 class DistributedSoftmax(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedSoftmax, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(DistributedSoftmax("softmax"))
@@ -36,7 +36,7 @@ register_distributed_operator_impl_container(DistributedSoftmax("softmax"))

 class DistributedSoftmaxImpl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedSoftmaxImpl, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = False
        self._backward_implemented = False


--- a/python/paddle/distributed/auto_parallel/operators/dist_split.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_split.py
@@ -23,7 +23,7 @@ from .dist_default import DistributedDefaultImpl0

 class DistributedSplit(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedSplit, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(DistributedSplit("split"))
@@ -31,7 +31,7 @@ register_distributed_operator_impl_container(DistributedSplit("split"))

 class DistributedSplitImpl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedSplitImpl, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = True
        self._backward_implemented = True


--- a/python/paddle/distributed/auto_parallel/operators/dist_transpose.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_transpose.py
@@ -27,7 +27,7 @@ from paddle.distributed.fleet.meta_optimizers.common import OpRole

 class DistributedTranspose2(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedTranspose2, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(
@@ -37,7 +37,7 @@ register_distributed_operator_impl_container(

 class DistributedTranspose2Impl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedTranspose2Impl, self).__init__(name)
+        super().__init__(name)
        self._forward_implemented = False
        self._backward_implemented = False


--- a/python/paddle/distributed/auto_parallel/operators/dist_update_loss_scaling.py
+++ b/python/paddle/distributed/auto_parallel/operators/dist_update_loss_scaling.py
@@ -21,7 +21,7 @@ from ..utils import set_dist_op_desc_original_id

 class DistributedUpdateLossScaling(DistributedOperatorImplContainer):
    def __init__(self, op_type):
-        super(DistributedUpdateLossScaling, self).__init__(op_type)
+        super().__init__(op_type)


 register_distributed_operator_impl_container(
@@ -31,7 +31,7 @@ register_distributed_operator_impl_container(

 class DistributedUpdateLossScalingImpl(DistributedOperatorImpl):
    def __init__(self, name):
-        super(DistributedUpdateLossScalingImpl, self).__init__(name)
+        super().__init__(name)
        self._name = name
        self._forward_implemented = False
        self._backward_implemented = True

--- a/python/paddle/distributed/auto_parallel/planner.py
+++ b/python/paddle/distributed/auto_parallel/planner.py
@@ -445,7 +445,7 @@ class SearchAlgorithm:

 class MCMC(SearchAlgorithm):
    def __init__(self, serial_program_info, parallelizer, max_search_times=5):
-        super(MCMC, self).__init__("mcmc")
+        super().__init__("mcmc")
        self._serial_program_info = serial_program_info
        self._max_search_times = max_search_times
        self._parallelizer = parallelizer

--- a/python/paddle/distributed/auto_parallel/strategy.py
+++ b/python/paddle/distributed/auto_parallel/strategy.py
@@ -76,43 +76,43 @@ class BaseConfig(object):
 class RecomputeConfig(BaseConfig):
    def __init__(self, config_dict=None):
        category = constants.RECOMPUTE
-        super(RecomputeConfig, self).__init__(category, config_dict)
+        super().__init__(category, config_dict)


 class AMPConfig(BaseConfig):
    def __init__(self, config_dict=None):
        category = constants.AMP
-        super(AMPConfig, self).__init__(category, config_dict)
+        super().__init__(category, config_dict)


 class ShardingConfig(BaseConfig):
    def __init__(self, config_dict=None):
        category = constants.SHARDING
-        super(ShardingConfig, self).__init__(category, config_dict)
+        super().__init__(category, config_dict)


 class GradientMergeConfig(BaseConfig):
    def __init__(self, config_dict=None):
        category = constants.GRADIENT_MERGE
-        super(GradientMergeConfig, self).__init__(category, config_dict)
+        super().__init__(category, config_dict)


 class QATConfig(BaseConfig):
    def __init__(self, config_dict=None):
        category = constants.QAT
-        super(QATConfig, self).__init__(category, config_dict)
+        super().__init__(category, config_dict)


 class TuningConfig(BaseConfig):
    def __init__(self, config_dict=None):
        category = constants.TUNING
-        super(TuningConfig, self).__init__(category, config_dict)
+        super().__init__(category, config_dict)


 class DatasetConfig(BaseConfig):
    def __init__(self, config_dict=None):
        category = constants.DATASET
-        super(DatasetConfig, self).__init__(category, config_dict)
+        super().__init__(category, config_dict)


 class Strategy(BaseConfig):
@@ -161,7 +161,7 @@ class Strategy(BaseConfig):
            self._config_dict = {}

        category = constants.BASE
-        super(Strategy, self).__init__(category, self._config_dict)
+        super().__init__(category, self._config_dict)

        config_dict = self._config_dict.get(constants.RECOMPUTE, None)
        self.recompute = RecomputeConfig(config_dict)

--- a/python/paddle/distributed/auto_parallel/tuner/trial.py
+++ b/python/paddle/distributed/auto_parallel/tuner/trial.py
@@ -121,7 +121,7 @@ class OptimizationTunerTrial(Trial):
        trial_id=None,
        status=TrialStatus.RUNNING,
    ):
-        super(OptimizationTunerTrial, self).__init__(config, trial_id, status)
+        super().__init__(config, trial_id, status)
        self._name = name
        self._changed_configs = changed_configs


--- a/python/paddle/distributed/auto_parallel/tuner/tunable_variable.py
+++ b/python/paddle/distributed/auto_parallel/tuner/tunable_variable.py
@@ -45,7 +45,7 @@ class Fixed(TunableVariable):
    """

    def __init__(self, name, default):
-        super(Fixed, self).__init__(name=name, default=default)
+        super().__init__(name=name, default=default)
        self.name = name
        if not isinstance(default, (str, int, float, bool)):
            raise ValueError(
@@ -68,7 +68,7 @@ class Boolean(TunableVariable):
    """

    def __init__(self, name, default=False):
-        super(Boolean, self).__init__(name=name, default=default)
+        super().__init__(name=name, default=default)
        if default not in {True, False}:
            raise ValueError(
                "default must be a Python boolean, but got {}".format(default)
@@ -86,7 +86,7 @@ class Boolean(TunableVariable):

 class Choice(TunableVariable):
    def __init__(self, name, values, default=None):
-        super(Choice, self).__init__(name=name, default=default)
+        super().__init__(name=name, default=default)

        types = set(type(v) for v in values)
        if len(types) > 1:
@@ -143,7 +143,7 @@ class Choice(TunableVariable):
            return rng.choice(self.values)

    def get_state(self):
-        state = super(Choice, self).get_state()
+        state = super().get_state()
        state["values"] = self.values
        return state

@@ -159,7 +159,7 @@ class IntRange(TunableVariable):
    """

    def __init__(self, name, start, stop, step=1, default=None, endpoint=False):
-        super(IntRange, self).__init__(name=name, default=default)
+        super().__init__(name=name, default=default)
        self.start = self._check_int(start)
        self.stop = self._check_int(stop)
        self.step = self._check_int(step)
@@ -185,7 +185,7 @@ class IntRange(TunableVariable):
        return int(value)

    def get_state(self):
-        state = super(IntRange, self).get_state()
+        state = super().get_state()
        state["start"] = self.start
        state["stop"] = self.stop
        state["step"] = self.step
@@ -214,7 +214,7 @@ class FloatRange(TunableVariable):
    def __init__(
        self, name, start, stop, step=None, default=None, endpoint=False
    ):
-        super(FloatRange, self).__init__(name=name, default=default)
+        super().__init__(name=name, default=default)
        self.stop = float(stop)
        self.start = float(start)
        if step is not None:
@@ -243,7 +243,7 @@ class FloatRange(TunableVariable):
        return value

    def get_state(self):
-        state = super(FloatRange, self).get_state()
+        state = super().get_state()
        state["start"] = self.start
        state["stop"] = self.stop
        state["step"] = self.step

--- a/python/paddle/distributed/entry_attr.py
+++ b/python/paddle/distributed/entry_attr.py
@@ -80,7 +80,7 @@ class ProbabilityEntry(EntryAttr):
    """

    def __init__(self, probability):
-        super(ProbabilityEntry, self).__init__()
+        super().__init__()

        if not isinstance(probability, float):
            raise ValueError("probability must be a float in (0,1)")
@@ -120,7 +120,7 @@ class CountFilterEntry(EntryAttr):
    """

    def __init__(self, count_filter):
-        super(CountFilterEntry, self).__init__()
+        super().__init__()

        if not isinstance(count_filter, int):
            raise ValueError(
@@ -168,7 +168,7 @@ class ShowClickEntry(EntryAttr):
    """

    def __init__(self, show_name, click_name):
-        super(ShowClickEntry, self).__init__()
+        super().__init__()

        if not isinstance(show_name, str) or not isinstance(click_name, str):
            raise ValueError("show_name click_name must be a str")

--- a/python/paddle/distributed/fleet/base/role_maker.py
+++ b/python/paddle/distributed/fleet/base/role_maker.py
@@ -545,7 +545,7 @@ class RoleMakerBase(object):

 class PaddleCloudRoleMaker(RoleMakerBase):
    def __init__(self, is_collective=False, **kwargs):
-        super(PaddleCloudRoleMaker, self).__init__()
+        super().__init__()
        self._is_collective = is_collective
        self._non_distributed = False

@@ -1181,7 +1181,7 @@ class PaddleCloudRoleMaker(RoleMakerBase):

 class UserDefinedRoleMaker(PaddleCloudRoleMaker):
    def __init__(self, is_collective=False, init_gloo=False, **kwargs):
-        super(UserDefinedRoleMaker, self).__init__(
+        super().__init__(
            is_collective=is_collective, init_gloo=init_gloo, **kwargs
        )
        self._init_gloo = init_gloo

--- a/python/paddle/distributed/fleet/base/strategy_compiler.py
+++ b/python/paddle/distributed/fleet/base/strategy_compiler.py
@@ -123,7 +123,7 @@ class StrategyCompiler(StrategyCompilerBase):
    """

    def __init__(self):
-        super(StrategyCompiler, self).__init__()
+        super().__init__()
        self._meta_optimizers = []
        self._graph_optimizers = []
        self._valid_optimizer_list = None

--- a/python/paddle/distributed/fleet/base/strategy_group.py
+++ b/python/paddle/distributed/fleet/base/strategy_group.py
@@ -100,7 +100,7 @@ class DPGroup(StrategyGroupBase):
    """

    def __init__(self, list_of_ranks):
-        super(DPGroup, self).__init__(list_of_ranks)
+        super().__init__(list_of_ranks)
        assert not isinstance(
            self.group, list
        ), "Rank {} belongs to multi dp groups".format(self._rank)
@@ -119,7 +119,7 @@ class MPGroup(StrategyGroupBase):
    """

    def __init__(self, list_of_ranks):
-        super(MPGroup, self).__init__(list_of_ranks)
+        super().__init__(list_of_ranks)
        assert not isinstance(
            self.group, list
        ), "Rank {} belongs to multi mp groups".format(self._rank)
@@ -138,7 +138,7 @@ class ShardingGroup(StrategyGroupBase):
    """

    def __init__(self, list_of_ranks):
-        super(ShardingGroup, self).__init__(list_of_ranks)
+        super().__init__(list_of_ranks)
        assert not isinstance(
            self.group, list
        ), "Rank {} belongs to multi sharding groups".format(self._rank)
@@ -157,7 +157,7 @@ class PPGroup(StrategyGroupBase):
    """

    def __init__(self, list_of_ranks):
-        super(PPGroup, self).__init__(list_of_ranks)
+        super().__init__(list_of_ranks)
        assert not isinstance(
            self.group, list
        ), "Rank {} belongs to multi pp groups".format(self._rank)

--- a/python/paddle/distributed/fleet/dataset/dataset.py
+++ b/python/paddle/distributed/fleet/dataset/dataset.py
@@ -363,7 +363,7 @@ class InMemoryDataset(DatasetBase):

    def __init__(self):
        """Init."""
-        super(InMemoryDataset, self).__init__()
+        super().__init__()
        self.proto_desc.name = "MultiSlotInMemoryDataFeed"
        self.fleet_send_batch_size = None
        self.is_user_set_queue_num = False
@@ -597,7 +597,7 @@ class InMemoryDataset(DatasetBase):
            data_feed_type = "MultiSlotInMemoryDataFeed"
        self._set_feed_type(data_feed_type)

-        super(InMemoryDataset, self).init(
+        super().init(
            batch_size=batch_size,
            thread_num=thread_num,
            use_var=use_var,
@@ -1288,7 +1288,7 @@ class QueueDataset(DatasetBase):
        """
        Initialize QueueDataset
        """
-        super(QueueDataset, self).__init__()
+        super().__init__()
        self.proto_desc.name = "MultiSlotDataFeed"

    def init(self, **kwargs):
@@ -1297,7 +1297,7 @@ class QueueDataset(DatasetBase):

        should be called only once in user's python scripts to initialize setings of dataset instance
        """
-        super(QueueDataset, self).init(**kwargs)
+        super().init(**kwargs)

    def _prepare_to_run(self):
        """
@@ -1329,14 +1329,14 @@ class FileInstantDataset(DatasetBase):
        """
        Initialize FileInstantDataset
        """
-        super(FileInstantDataset, self).__init__()
+        super().__init__()
        self.proto_desc.name = "MultiSlotFileInstantDataFeed"

    def init(self, **kwargs):
        """
        should be called only once in user's python scripts to initialize setings of dataset instance
        """
-        super(FileInstantDataset, self).init(**kwargs)
+        super().init(**kwargs)


 class BoxPSDataset(InMemoryDataset):
@@ -1354,7 +1354,7 @@ class BoxPSDataset(InMemoryDataset):
        """
        Initialize BoxPSDataset
        """
-        super(BoxPSDataset, self).__init__()
+        super().__init__()
        self.boxps = core.BoxPS(self.dataset)
        self.proto_desc.name = "PaddleBoxDataFeed"

@@ -1362,7 +1362,7 @@ class BoxPSDataset(InMemoryDataset):
        """
        should be called only once in user's python scripts to initialize setings of dataset instance
        """
-        super(BoxPSDataset, self).init(**kwargs)
+        super().init(**kwargs)

        rank_offset = kwargs.get("rank_offset", "")
        self._set_rank_offset(rank_offset)

--- a/python/paddle/distributed/fleet/dataset/index_dataset.py
+++ b/python/paddle/distributed/fleet/dataset/index_dataset.py
@@ -23,7 +23,7 @@ class Index(object):

 class TreeIndex(Index):
    def __init__(self, name, path):
-        super(TreeIndex, self).__init__(name)
+        super().__init__(name)
        self._wrapper = core.IndexWrapper()
        self._wrapper.insert_tree_index(name, path)
        self._tree = self._wrapper.get_tree_index(name)

--- a/python/paddle/distributed/fleet/layers/mpu/mp_layers.py
+++ b/python/paddle/distributed/fleet/layers/mpu/mp_layers.py
@@ -59,7 +59,7 @@ class VocabParallelEmbedding(Layer):

        class SimpleMPNet(paddle.nn.Layer):
           def __init__(self, vocab_size, hidden_size, inner_size, output_size):
-              super(SimpleMPNet, self).__init__()
+              super().__init__()
              self.linear1 = fleet.meta_parallel.ColumnParallelLinear(
                    hidden_size,
                    inner_size,
@@ -94,7 +94,7 @@ class VocabParallelEmbedding(Layer):
        mp_group=None,
        name=None,
    ):
-        super(VocabParallelEmbedding, self).__init__()
+        super().__init__()

        self.model_parallel_group = (
            tp._HYBRID_PARALLEL_GROUP.get_model_parallel_group()
@@ -193,7 +193,7 @@ class ColumnParallelLinear(Layer):

        class SimpleMPNet(paddle.nn.Layer):
           def __init__(self, vocab_size, hidden_size, inner_size, output_size):
-              super(SimpleMPNet, self).__init__()
+              super().__init__()
              self.linear1 = fleet.meta_parallel.ColumnParallelLinear(
                    hidden_size,
                    inner_size,
@@ -231,7 +231,7 @@ class ColumnParallelLinear(Layer):
        mp_group=None,
        name=None,
    ):
-        super(ColumnParallelLinear, self).__init__()
+        super().__init__()

        self.model_parallel_group = (
            tp._HYBRID_PARALLEL_GROUP.get_model_parallel_group()
@@ -347,7 +347,7 @@ class RowParallelLinear(Layer):

        class SimpleMPNet(paddle.nn.Layer):
           def __init__(self, vocab_size, hidden_size, inner_size, output_size):
-              super(SimpleMPNet, self).__init__()
+              super().__init__()
              self.linear1 = fleet.meta_parallel.ColumnParallelLinear(
                    hidden_size,
                    inner_size,
@@ -385,7 +385,7 @@ class RowParallelLinear(Layer):
        mp_group=None,
        name=None,
    ):
-        super(RowParallelLinear, self).__init__()
+        super().__init__()

        self.in_features = in_features
        self.out_features = out_features
@@ -504,7 +504,7 @@ class ParallelCrossEntropy(Layer):
    """

    def __init__(self, mp_group=None, name=None):
-        super(ParallelCrossEntropy, self).__init__()
+        super().__init__()
        self.name = name
        self.model_parallel_group = (
            tp._HYBRID_PARALLEL_GROUP.get_model_parallel_group()

--- a/python/paddle/distributed/fleet/layers/mpu/mp_ops.py
+++ b/python/paddle/distributed/fleet/layers/mpu/mp_ops.py
@@ -371,7 +371,7 @@ class _Linear(layers.Layer):
        bias_attr=None,
        name=None,
    ):
-        super(_Linear, self).__init__()
+        super().__init__()
        self._dtype = self._helper.get_default_dtype()
        self._weight_attr = weight_attr
        self._bias_attr = bias_attr

--- a/python/paddle/distributed/fleet/meta_optimizers/amp_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/amp_optimizer.py
@@ -19,7 +19,7 @@ __all__ = []

 class AMPOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(AMPOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.wrapped_opt = None
        # we do not allow meta optimizer to be inner optimizer currently
@@ -34,7 +34,7 @@ class AMPOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(AMPOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )


--- a/python/paddle/distributed/fleet/meta_optimizers/ascend/ascend_parser.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/ascend/ascend_parser.py
--- a/python/paddle/distributed/fleet/meta_optimizers/asp_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/asp_optimizer.py
@@ -20,7 +20,7 @@ __all__ = []

 class ASPOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(ASPOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        # we do not allow meta optimizer to be inner optimizer currently
        self.meta_optimizers_white_list = [
@@ -36,7 +36,7 @@ class ASPOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(ASPOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )


--- a/python/paddle/distributed/fleet/meta_optimizers/dgc_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/dgc_optimizer.py
@@ -20,7 +20,7 @@ __all__ = []

 class DGCOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(DGCOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.dgc_opt = None
        # we do not allow meta optimizer to be inner optimizer currently
@@ -30,7 +30,7 @@ class DGCOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(DGCOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )


--- a/python/paddle/distributed/fleet/meta_optimizers/fp16_allreduce_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/fp16_allreduce_optimizer.py
@@ -19,7 +19,7 @@ __all__ = []

 class FP16AllReduceOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(FP16AllReduceOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        # we do not allow meta optimizer to be inner optimizer currently
        self.meta_optimizers_white_list = [
@@ -36,7 +36,7 @@ class FP16AllReduceOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(FP16AllReduceOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )


--- a/python/paddle/distributed/fleet/meta_optimizers/gradient_merge_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/gradient_merge_optimizer.py
@@ -19,7 +19,7 @@ __all__ = []

 class GradientMergeOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(GradientMergeOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.wrapped_opt = None
        self.meta_optimizers_white_list = [
@@ -34,7 +34,7 @@ class GradientMergeOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(GradientMergeOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )


--- a/python/paddle/distributed/fleet/meta_optimizers/graph_execution_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/graph_execution_optimizer.py
@@ -25,7 +25,7 @@ __all__ = []

 class GraphExecutionOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(GraphExecutionOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        # we do not allow meta optimizer to be inner optimizer currently
        self.meta_optimizers_white_list = []

--- a/python/paddle/distributed/fleet/meta_optimizers/lamb_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/lamb_optimizer.py
@@ -21,7 +21,7 @@ __all__ = []

 class LambOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(LambOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.lamb_opt = None
        # we do not allow meta optimizer to be inner optimizer currently
@@ -31,7 +31,7 @@ class LambOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(LambOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )


--- a/python/paddle/distributed/fleet/meta_optimizers/lars_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/lars_optimizer.py
@@ -20,7 +20,7 @@ __all__ = []

 class LarsOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(LarsOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.lars_opt = None
        # we do not allow meta optimizer to be inner optimizer currently
@@ -30,7 +30,7 @@ class LarsOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(LarsOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )


--- a/python/paddle/distributed/fleet/meta_optimizers/localsgd_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/localsgd_optimizer.py
@@ -23,7 +23,7 @@ __all__ = []

 class LocalSGDOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(LocalSGDOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.meta_optimizers_white_list = ['AMPOptimizer']
        self.meta_optimizers_black_list = [
@@ -205,7 +205,7 @@ class LocalSGDOptimizer(MetaOptimizerBase):

 class AdaptiveLocalSGDOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(AdaptiveLocalSGDOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.meta_optimizers_white_list = ['AMPOptimizer']
        self.meta_optimizers_black_list = [

--- a/python/paddle/distributed/fleet/meta_optimizers/parameter_server_graph_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/parameter_server_graph_optimizer.py
@@ -19,7 +19,7 @@ __all__ = []

 class ParameterServerGraphOptimizer(ParameterServerOptimizer):
    def __init__(self, optimizer):
-        super(ParameterServerGraphOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        # we do not allow meta optimizer to be inner optimizer currently
        self.meta_optimizers_white_list = []

--- a/python/paddle/distributed/fleet/meta_optimizers/parameter_server_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/parameter_server_optimizer.py
@@ -25,7 +25,7 @@ __all__ = []

 class ParameterServerOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(ParameterServerOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        # we do not allow meta optimizer to be inner optimizer currently
        self.meta_optimizers_white_list = []
@@ -33,7 +33,7 @@ class ParameterServerOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(ParameterServerOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )


--- a/python/paddle/distributed/fleet/meta_optimizers/pipeline_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/pipeline_optimizer.py
@@ -28,7 +28,7 @@ __all__ = []

 class PipelineOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(PipelineOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.meta_optimizers_white_list = [
            "RecomputeOptimizer",
@@ -44,7 +44,7 @@ class PipelineOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(PipelineOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )
        self.micro_batch_size = user_defined_strategy.pipeline_configs[

--- a/python/paddle/distributed/fleet/meta_optimizers/ps_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/ps_optimizer.py
@@ -33,7 +33,7 @@ from paddle.distributed.ps.utils.ps_factory import PsProgramBuilderFactory

 class ParameterServerOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(ParameterServerOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        # we do not allow meta optimizer to be inner optimizer currently
        self.meta_optimizers_white_list = []
@@ -41,7 +41,7 @@ class ParameterServerOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(ParameterServerOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )


--- a/python/paddle/distributed/fleet/meta_optimizers/raw_program_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/raw_program_optimizer.py
@@ -27,7 +27,7 @@ from .common import (

 class RawProgramOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(RawProgramOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.meta_optimizers_white_list = [
            "RecomputeOptimizer",
@@ -46,7 +46,7 @@ class RawProgramOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(RawProgramOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )
        self.without_graph_optimization = (

--- a/python/paddle/distributed/fleet/meta_optimizers/recompute_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/recompute_optimizer.py
@@ -19,7 +19,7 @@ __all__ = []

 class RecomputeOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(RecomputeOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.wrapped_opt = None
        # we do not allow meta optimizer to be inner optimizer currently
@@ -34,7 +34,7 @@ class RecomputeOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(RecomputeOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )


--- a/python/paddle/distributed/fleet/meta_optimizers/sharding_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/sharding_optimizer.py
@@ -50,7 +50,7 @@ class ShardingOptimizer(MetaOptimizerBase):
    """Sharding Optimizer."""

    def __init__(self, optimizer):
-        super(ShardingOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.meta_optimizers_white_list = [
            "RecomputeOptimizer",

--- a/python/paddle/distributed/fleet/meta_optimizers/tensor_parallel_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/tensor_parallel_optimizer.py
@@ -28,7 +28,7 @@ __all__ = []

 class TensorParallelOptimizer(MetaOptimizerBase):
    def __init__(self, optimizer):
-        super(TensorParallelOptimizer, self).__init__(optimizer)
+        super().__init__(optimizer)
        self.inner_opt = optimizer
        self.meta_optimizers_white_list = [
            "RecomputeOptimizer",
@@ -46,7 +46,7 @@ class TensorParallelOptimizer(MetaOptimizerBase):
    def _set_basic_info(
        self, loss, role_maker, user_defined_optimizer, user_defined_strategy
    ):
-        super(TensorParallelOptimizer, self)._set_basic_info(
+        super()._set_basic_info(
            loss, role_maker, user_defined_optimizer, user_defined_strategy
        )
        self.mp_degree = user_defined_strategy.tensor_parallel_configs[

--- a/python/paddle/distributed/fleet/meta_parallel/meta_parallel_base.py
+++ b/python/paddle/distributed/fleet/meta_parallel/meta_parallel_base.py
@@ -19,9 +19,7 @@ __all__ = []

 class MetaParallelBase(Layer):
    def __init__(self, layers, hcg, strategy):
-        super(MetaParallelBase, self).__init__(
-            layers.full_name() + "_meta_parallel_base"
-        )
+        super().__init__(layers.full_name() + "_meta_parallel_base")
        self._layers = layers
        self._hcg = hcg
        self._strategy = strategy

--- a/python/paddle/distributed/fleet/meta_parallel/parallel_layers/pp_layers.py
+++ b/python/paddle/distributed/fleet/meta_parallel/parallel_layers/pp_layers.py
@@ -83,7 +83,7 @@ class SharedLayerDesc(LayerDesc):
        *inputs,
        **kwargs
    ):
-        super(SharedLayerDesc, self).__init__(layer_func, *inputs, **kwargs)
+        super().__init__(layer_func, *inputs, **kwargs)
        self.layer_name = key
        self.forward_func = forward_func
        self.shared_weight_attr = shared_weight_attr
@@ -179,7 +179,7 @@ class SegmentLayers(object):

 class PipelineLayerChunk(Layer):
    def __init__(self):
-        super(PipelineLayerChunk, self).__init__()
+        super().__init__()
        self.run_function = []

    def append(self, sublayer):
@@ -240,7 +240,7 @@ class PipelineLayer(Layer):

        class ReshapeHelp(Layer):
            def __init__(self, shape):
-                super(ReshapeHelp, self).__init__()
+                super().__init__()
                self.shape = shape

            def forward(self, x):
@@ -275,7 +275,7 @@ class PipelineLayer(Layer):
                        ReshapeHelp, shape=[-1, 256]),
                    LayerDesc(nn.Linear, 256, self.num_classes),  # classifier
                ]
-                super(AlexNetPipeDesc, self).__init__(
+                super().__init__(
                    layers=decs, loss_fn=nn.CrossEntropyLoss(), **kwargs)

        model = AlexNetPipeDesc(num_stages=pipeline_parallel_size, topology=hcg._topo)
@@ -293,7 +293,7 @@ class PipelineLayer(Layer):
        recompute_ctx=None,
        num_virtual_pipeline_stages=None,
    ):
-        super(PipelineLayer, self).__init__()
+        super().__init__()
        if num_stages is None and topology is None:
            raise ValueError("should provide num_stages or topology")


--- a/python/paddle/distributed/fleet/meta_parallel/pipeline_parallel.py
+++ b/python/paddle/distributed/fleet/meta_parallel/pipeline_parallel.py
@@ -34,7 +34,7 @@ class PipelineParallel(MetaParallelBase):
            raise TypeError(
                "The Layer should be a derived class of PipelineLayer."
            )
-        super(PipelineParallel, self).__init__(layers, hcg, strategy)
+        super().__init__(layers, hcg, strategy)
        self.use_data_parallel = self._hcg.get_data_parallel_world_size() > 1
        self.use_model_parallel = self._hcg.get_model_parallel_world_size() > 1
        self.use_sharding_parallel = (
@@ -462,9 +462,7 @@ class PipelineParallelWithInterleave(PipelineParallel):
    # pipeline parallel with interleave scheduler

    def __init__(self, layers, hcg, strategy):
-        super(PipelineParallelWithInterleave, self).__init__(
-            layers=layers, hcg=hcg, strategy=strategy
-        )
+        super().__init__(layers=layers, hcg=hcg, strategy=strategy)
        assert layers.get_num_virtual_stages() > 1
        assert (
            framework.in_dygraph_mode()

--- a/python/paddle/distributed/fleet/meta_parallel/sharding_parallel.py
+++ b/python/paddle/distributed/fleet/meta_parallel/sharding_parallel.py
@@ -21,7 +21,7 @@ __all__ = []

 class ShardingParallel(MetaParallelBase):
    def __init__(self, layers, hcg, **kwargs):
-        super(ShardingParallel, self).__init__(layers, hcg, **kwargs)
+        super().__init__(layers, hcg, **kwargs)

    def _prepare_for_model(self):
        logger.info("start broadcast sharding parameters")

--- a/python/paddle/distributed/fleet/meta_parallel/tensor_parallel.py
+++ b/python/paddle/distributed/fleet/meta_parallel/tensor_parallel.py
@@ -26,7 +26,7 @@ __all__ = []

 class TensorParallel(MetaParallelBase):
    def __init__(self, layers, hcg, **kwargs):
-        super(TensorParallel, self).__init__(layers, hcg, **kwargs)
+        super().__init__(layers, hcg, **kwargs)

    def _prepare_for_model(self):
        logger.info("start broadcast mp parameters")

--- a/python/paddle/distributed/fleet/model.py
+++ b/python/paddle/distributed/fleet/model.py
@@ -47,7 +47,7 @@ def distributed_model(model):

            class LinearNet(nn.Layer):
                def __init__(self):
-                    super(LinearNet, self).__init__()
+                    super().__init__()
                    self._linear1 = nn.Linear(10, 10)
                    self._linear2 = nn.Linear(10, 1)


--- a/python/paddle/distributed/fleet/recompute/recompute.py
+++ b/python/paddle/distributed/fleet/recompute/recompute.py
@@ -439,7 +439,7 @@ def recompute(function, *args, **kwargs):
                def __init__(self, input_size=10,
                            recompute_blocks=[1, 3],
                            recompute_kwargs={}):
-                    super(Naive_fc_net, self).__init__()
+                    super().__init__()
                    self.recompute_blocks = recompute_blocks
                    self.recompute_kwargs = recompute_kwargs
                    self.runfunc0 = get_fc_block(0, input_size, is_last=False)

--- a/python/paddle/distributed/fleet/runtime/collective_runtime.py
+++ b/python/paddle/distributed/fleet/runtime/collective_runtime.py
@@ -20,7 +20,7 @@ __all__ = []

 class CollectiveRuntime(RuntimeBase):
    def __init__(self):
-        super(CollectiveRuntime, self).__init__()
+        super().__init__()

    def _init_worker(self):
        logging.warn(

--- a/python/paddle/distributed/fleet/runtime/parameter_server_runtime.py
+++ b/python/paddle/distributed/fleet/runtime/parameter_server_runtime.py
@@ -31,7 +31,7 @@ __all__ = []

 class ParameterServerRuntime(RuntimeBase):
    def __init__(self):
-        super(ParameterServerRuntime, self).__init__()
+        super().__init__()
        self._communicator = None

    def _set_basic_info(self, context):

--- a/python/paddle/distributed/fleet/runtime/the_one_ps.py
+++ b/python/paddle/distributed/fleet/runtime/the_one_ps.py
@@ -677,7 +677,7 @@ class fsClient:

 class TheOnePSRuntime(RuntimeBase):
    def __init__(self):
-        super(TheOnePSRuntime, self).__init__()
+        super().__init__()
        self._communicator = None
        self._server = None
        self._worker = fluid.core.DistFleetWrapper()

--- a/python/paddle/distributed/fleet/utils/http_server.py
+++ b/python/paddle/distributed/fleet/utils/http_server.py
@@ -135,7 +135,7 @@ class KVHTTPServer(HTTPServer, object):

    def __init__(self, port, handler):
        """Init."""
-        super(KVHTTPServer, self).__init__(('', port), handler)
+        super().__init__(('', port), handler)
        self.delete_kv_lock = threading.Lock()
        self.delete_kv = {}
        self.kv_lock = threading.Lock()

--- a/python/paddle/distributed/launch/utils/kv_server.py
+++ b/python/paddle/distributed/launch/utils/kv_server.py
@@ -69,7 +69,7 @@ class KVHandler(SimpleHTTPServer.SimpleHTTPRequestHandler):

 class KVServer(HTTPServer, object):
    def __init__(self, port):
-        super(KVServer, self).__init__(('', port), KVHandler)
+        super().__init__(('', port), KVHandler)
        self.kv_lock = threading.Lock()
        self.kv = {'/healthy': b'ok'}
        self.port = port

--- a/python/paddle/distributed/parallel.py
+++ b/python/paddle/distributed/parallel.py
@@ -120,7 +120,7 @@ def init_parallel_env():

            class LinearNet(nn.Layer):
                def __init__(self):
-                    super(LinearNet, self).__init__()
+                    super().__init__()
                    self._linear1 = nn.Linear(10, 10)
                    self._linear2 = nn.Linear(10, 1)


--- a/python/paddle/distributed/passes/auto_parallel_amp.py
+++ b/python/paddle/distributed/passes/auto_parallel_amp.py
@@ -618,7 +618,7 @@ def _check_and_update_gradient(params_grads, loss_scaling, dist_context):
 @register_pass("auto_parallel_amp")
 class AMPPass(PassBase):
    def __init__(self):
-        super(AMPPass, self).__init__()
+        super().__init__()
        self.set_attr("loss", None)
        self.set_attr("dist_context", None)
        self.set_attr("custom_white_list", None)

--- a/python/paddle/distributed/passes/auto_parallel_data_parallel_optimization.py
+++ b/python/paddle/distributed/passes/auto_parallel_data_parallel_optimization.py
@@ -58,7 +58,7 @@ class DataParallelOptimizationPass(PassBase):
    """

    def __init__(self):
-        super(DataParallelOptimizationPass, self).__init__()
+        super().__init__()
        # NOTE not use depence on loss and param_grads
        self.set_attr("dist_context", None)
        self.set_attr("global_rank", -1)

--- a/python/paddle/distributed/passes/auto_parallel_fp16.py
+++ b/python/paddle/distributed/passes/auto_parallel_fp16.py
@@ -699,7 +699,7 @@ def cast_startup_program():
 @register_pass("auto_parallel_fp16")
 class FP16Pass(AMPPass):
    def __init__(self):
-        super(FP16Pass, self).__init__()
+        super().__init__()

    # NOTE: why FP16Pass can override apply_single_impl instead of
    # apply_impl? AMP is an optimization pass for serial program,

--- a/python/paddle/distributed/passes/auto_parallel_grad_clip.py
+++ b/python/paddle/distributed/passes/auto_parallel_grad_clip.py
@@ -221,7 +221,7 @@ class ClipGradByGloblNormPass(PassBase):
    """

    def __init__(self):
-        super(ClipGradByGloblNormPass, self).__init__()
+        super().__init__()
        self.set_attr("rank_id", None)
        self.set_attr("dist_context", None)
        self.set_attr("params_grads", None)

--- a/python/paddle/distributed/passes/auto_parallel_gradient_merge.py
+++ b/python/paddle/distributed/passes/auto_parallel_gradient_merge.py
@@ -327,7 +327,7 @@ def parse_program(
 @register_pass("auto_parallel_gradient_merge_pass")
 class GradientMergePass(PassBase):
    def __init__(self):
-        super(GradientMergePass, self).__init__()
+        super().__init__()
        self.set_attr("k_steps", -1)
        self.set_attr("avg", True)


--- a/python/paddle/distributed/passes/auto_parallel_quantization.py
+++ b/python/paddle/distributed/passes/auto_parallel_quantization.py
@@ -38,7 +38,7 @@ def _node_id(node):
 @register_pass("auto_parallel_quantization")
 class QuantizationPass(PassBase):
    def __init__(self):
-        super(QuantizationPass, self).__init__()
+        super().__init__()
        self.set_attr("dist_context", None)
        self.set_attr("params_grads", None)


--- a/python/paddle/distributed/passes/auto_parallel_recompute.py
+++ b/python/paddle/distributed/passes/auto_parallel_recompute.py
@@ -35,7 +35,7 @@ from paddle.distributed.auto_parallel.utils import (

 class RecomputeState(ProgramStats):
    def __init__(self, block, ops):
-        super(RecomputeState, self).__init__(block=block, ops=ops)
+        super().__init__(block=block, ops=ops)
        self._block = block
        self._ops = ops
        self.var_op_deps = {}
@@ -239,7 +239,7 @@ def _add_needed_descs_to_block(
 @register_pass("auto_parallel_recompute")
 class RecomputePass(PassBase):
    def __init__(self):
-        super(RecomputePass, self).__init__()
+        super().__init__()
        self.set_attr("checkpoints", None)
        self.set_attr("loss", None)
        self.set_attr("dist_context", None)

--- a/python/paddle/distributed/passes/auto_parallel_sharding.py
+++ b/python/paddle/distributed/passes/auto_parallel_sharding.py
@@ -71,7 +71,7 @@ def _is_reshard_op(op):
 @register_pass("auto_parallel_sharding")
 class ShardingPass(PassBase):
    def __init__(self):
-        super(ShardingPass, self).__init__()
+        super().__init__()
        self.set_attr("dist_context", None)
        self.set_attr("stage", None)
        self.set_attr("sharding_degree", None)  # for parallelizer

--- a/python/paddle/distributed/passes/cpp_pass.py
+++ b/python/paddle/distributed/passes/cpp_pass.py
@@ -20,7 +20,7 @@ from paddle.fluid.framework import core, _apply_pass as _apply_cpp_pass
 @register_pass("fuse_elewise_add_act")
 class FuseElementwiseAddActPass(CPPPassWrapper):
    def __init__(self):
-        super(FuseElementwiseAddActPass, self).__init__()
+        super().__init__()

    @property
    def cpp_name(self):
@@ -33,7 +33,7 @@ class FuseElementwiseAddActPass(CPPPassWrapper):
 @register_pass("fuse_bn_act")
 class FuseBatchNormActPass(CPPPassWrapper):
    def __init__(self):
-        super(FuseBatchNormActPass, self).__init__()
+        super().__init__()

    @property
    def cpp_name(self):
@@ -46,7 +46,7 @@ class FuseBatchNormActPass(CPPPassWrapper):
 @register_pass("fuse_bn_add_act")
 class FuseBatchNormAddActPass(CPPPassWrapper):
    def __init__(self):
-        super(FuseBatchNormAddActPass, self).__init__()
+        super().__init__()

    @property
    def cpp_name(self):
@@ -59,7 +59,7 @@ class FuseBatchNormAddActPass(CPPPassWrapper):
 @register_pass("fuse_relu_depthwise_conv")
 class FuseReluDepthwiseConvPass(CPPPassWrapper):
    def __init__(self):
-        super(FuseReluDepthwiseConvPass, self).__init__()
+        super().__init__()

    @property
    def cpp_name(self):
@@ -72,7 +72,7 @@ class FuseReluDepthwiseConvPass(CPPPassWrapper):
 @register_pass("fuse_optimizer")
 class FuseOptimizerPass(CPPPassWrapper):
    def __init__(self):
-        super(FuseOptimizerPass, self).__init__()
+        super().__init__()

    @property
    def cpp_name(self):
@@ -89,7 +89,7 @@ class FuseOptimizerPass(CPPPassWrapper):
 @register_pass("inplace_addto_op")
 class InplaceAddtoOpPass(CPPPassWrapper):
    def __init__(self):
-        super(InplaceAddtoOpPass, self).__init__()
+        super().__init__()

    @property
    def cpp_name(self):
@@ -109,7 +109,7 @@ def _set_cinn_op_flag(flag_name, extra_ops):
 @register_pass("build_cinn")
 class BuildCINNPass(CPPPassWrapper):
    def __init__(self):
-        super(BuildCINNPass, self).__init__()
+        super().__init__()
        self.set_attr("allow_ops", [])
        self.set_attr("deny_ops", [])


--- a/python/paddle/distributed/passes/fuse_all_reduce.py
+++ b/python/paddle/distributed/passes/fuse_all_reduce.py
@@ -351,7 +351,7 @@ def insert_fuse_all_reduce_by_memory_size(block, groups, max_memory_size):
 @register_pass("fuse_all_reduce")
 class FuseAllReducePass(PassBase):
    def __init__(self):
-        super(FuseAllReducePass, self).__init__()
+        super().__init__()
        self.set_attr("max_memory_size", -1)

    def _check_self(self):

--- a/python/paddle/distributed/passes/pass_base.py
+++ b/python/paddle/distributed/passes/pass_base.py
@@ -139,7 +139,7 @@ def new_pass(name, pass_attrs={}):

 class CPPPassWrapper(PassBase):
    def __init__(self):
-        super(CPPPassWrapper, self).__init__()
+        super().__init__()

    @property
    def cpp_name(self):

--- a/python/paddle/distributed/passes/ps_server_pass.py
+++ b/python/paddle/distributed/passes/ps_server_pass.py
@@ -40,7 +40,7 @@ from paddle.fluid.layers.learning_rate_scheduler import (
 @register_pass("add_lr_decay_table_pass")
 class AddLrDecayTablePass(PassBase):
    def __init__(self):
-        super(AddLrDecayTablePass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -169,7 +169,7 @@ class AddLrDecayTablePass(PassBase):
 @register_pass("add_listen_and_serv_pass")
 class AddListenAndServPass(PassBase):
    def __init__(self):
-        super(AddListenAndServPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -202,7 +202,7 @@ class AddListenAndServPass(PassBase):
 @register_pass("add_rpc_global_flags_pass")
 class AddRpcGlobalFlagsPass(PassBase):
    def __init__(self):
-        super(AddRpcGlobalFlagsPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -217,7 +217,7 @@ class AddRpcGlobalFlagsPass(PassBase):
 @register_pass("add_optimizer_pass")
 class AddOptimizerPass(PassBase):
    def __init__(self):
-        super(AddOptimizerPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -232,7 +232,7 @@ class AddOptimizerPass(PassBase):
 @register_pass("add_geo_optimizer_pass")
 class AddGeoOptimizerPass(PassBase):
    def __init__(self):
-        super(AddGeoOptimizerPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -247,7 +247,7 @@ class AddGeoOptimizerPass(PassBase):
 @register_pass("build_pserver_startup_program_pass")
 class BuildPserverStartupProgramPass(PassBase):
    def __init__(self):
-        super(BuildPserverStartupProgramPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -262,7 +262,7 @@ class BuildPserverStartupProgramPass(PassBase):
 @register_pass("delete_unused_in_startup_pass")
 class DeleteUnusedInStartupPass(PassBase):
    def __init__(self):
-        super(DeleteUnusedInStartupPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True

--- a/python/paddle/distributed/passes/ps_trainer_pass.py
+++ b/python/paddle/distributed/passes/ps_trainer_pass.py
@@ -26,7 +26,7 @@ from paddle.fluid.framework import Program, Parameter
 @register_pass("append_send_ops_pass")
 class AppendSendOpsPass(PassBase):  # 该 pass 被多种模式复用
    def __init__(self):
-        super(AppendSendOpsPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -115,7 +115,7 @@ class AppendSendOpsPass(PassBase):  # 该 pass 被多种模式复用
 @register_pass("distributed_ops_pass")
 class DistributedOpsPass(PassBase):
    def __init__(self):
-        super(DistributedOpsPass, self).__init__()
+        super().__init__()
        self.w_2_table_id = {}
        self.emb_size = {}

@@ -533,7 +533,7 @@ class DistributedOpsPass(PassBase):
 @register_pass("delete_optimizer_pass")
 class DeleteOptimizesPass(PassBase):
    def __init__(self):
-        super(DeleteOptimizesPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -617,7 +617,7 @@ class DeleteOptimizesPass(PassBase):
 @register_pass("delete_extra_optimizer_pass")
 class DeleteExtraOptimizerPass(PassBase):
    def __init__(self):
-        super(DeleteExtraOptimizerPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -674,7 +674,7 @@ class DeleteExtraOptimizerPass(PassBase):
 @register_pass("fake_init_ops_pass")
 class FakeInitOpsPass(PassBase):
    def __init__(self):
-        super(FakeInitOpsPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -729,7 +729,7 @@ class FakeInitOpsPass(PassBase):
 @register_pass("ps_gpu_pass")
 class PsGpuPass(PassBase):
    def __init__(self):
-        super(PsGpuPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -831,7 +831,7 @@ class PsGpuPass(PassBase):
 @register_pass("ps_transpile_pass")
 class PsTranspilePass(PassBase):
    def __init__(self):
-        super(PsTranspilePass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -856,7 +856,7 @@ class PsTranspilePass(PassBase):
 @register_pass("split_heter_worker_ops_pass")
 class SplitHeterWorkerOpsPass(PassBase):
    def __init__(self):
-        super(SplitHeterWorkerOpsPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -1064,7 +1064,7 @@ class SplitHeterWorkerOpsPass(PassBase):
 @register_pass("split_trainer_ops_pass")
 class SplitTrainerOpsPass(PassBase):
    def __init__(self):
-        super(SplitTrainerOpsPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -1272,7 +1272,7 @@ class SplitTrainerOpsPass(PassBase):
 @register_pass("set_heter_pipeline_opt_pass")
 class SetHeterPipelineOptPass(PassBase):
    def __init__(self):
-        super(SetHeterPipelineOptPass, self).__init__()
+        super().__init__()

    def _check_self(self):
        return True
@@ -1310,7 +1310,7 @@ class SetHeterPipelineOptPass(PassBase):
 @register_pass("split_fl_ops_pass")
 class SplitFlOpsPass(PassBase):
    def __init__(self):
-        super(SplitFlOpsPass, self).__init__()
+        super().__init__()
        self.PART_A_DEVICE_FlAG = 'gpu:0'
        self.PART_A_JOINT_OP_DEVICE_FlAG = 'gpu:2'
        self.PART_B_DEVICE_FlAG = 'gpu:1'

--- a/python/paddle/distributed/ps/coordinator.py
+++ b/python/paddle/distributed/ps/coordinator.py
@@ -197,7 +197,7 @@ class FLClientBase(abc.ABC):

 class FLClient(FLClientBase):
    def __init__(self):
-        super(FLClient, self).__init__()
+        super().__init__()

    def __build_fl_client_info_desc(self, state_info):
        # ......... to implement ...... #

--- a/python/paddle/distributed/ps/the_one_ps.py
+++ b/python/paddle/distributed/ps/the_one_ps.py
@@ -129,7 +129,7 @@ class Service:

 class GpuService(Service):
    def __init__(self):
-        super(GpuService, self).__init__()
+        super().__init__()

    def _set(self, service_proto):
        service_proto.server_class = 'PsLocalServer'
@@ -285,7 +285,7 @@ class Accessor:

 class CommonAccessor(Accessor):
    def __init__(self):
-        super(CommonAccessor, self).__init__()
+        super().__init__()
        self.table_name = ''
        self.entry = 'none'
        self.attrs = []
@@ -633,7 +633,7 @@ class Table:

 class BarrierTable(Table):
    def __init__(self, context, idx):
-        super(BarrierTable, self).__init__()
+        super().__init__()
        self.type = None
        self.shard_num = 256
        self.accessor.accessor_class = 'CommMergeAccessor'
@@ -668,7 +668,7 @@ class BarrierTable(Table):

 class TensorTable(Table):
    def __init__(self, idx, tensor_dict, role_maker):
-        super(TensorTable, self).__init__()
+        super().__init__()
        self.idx = idx
        self.tensor_dict = tensor_dict
        self.role_maker = role_maker
@@ -691,7 +691,7 @@ class TensorTable(Table):

 class SparseTable(Table):
    def __init__(self, context, send_ctx):
-        super(SparseTable, self).__init__()
+        super().__init__()
        self.context = context
        self.ctx = send_ctx
        self.type = None
@@ -800,7 +800,7 @@ class SparseTable(Table):

 class GeoSparseTable(SparseTable):
    def __init__(self, context, send_ctx):
-        super(GeoSparseTable, self).__init__(context, send_ctx)
+        super().__init__(context, send_ctx)
        self.table_class = "MemorySparseGeoTable"
        if self.context['ps_mode'] != DistributedMode.GEO:
            raise ValueError("not geo sparse table!")
@@ -835,7 +835,7 @@ class GeoSparseTable(SparseTable):

 class DenseTable(Table):
    def __init__(self, context, send_ctx):
-        super(DenseTable, self).__init__()
+        super().__init__()
        self.context = context
        self.ctx = send_ctx
        self.accessor = Accessor()
@@ -879,7 +879,7 @@ class Server:

 class DownpourServer(Server):
    def __init__(self):
-        super(DownpourServer, self).__init__()
+        super().__init__()

    def _set(self):
        pass
@@ -895,7 +895,7 @@ class Worker:

 class DownpourWorker(Worker):
    def __init__(self):
-        super(DownpourWorker, self).__init__()
+        super().__init__()

    def _set(self):
        pass
@@ -1032,7 +1032,7 @@ class PsDescBuilder(object):

 class TheOnePSRuntime(RuntimeBase):
    def __init__(self):
-        super(TheOnePSRuntime, self).__init__()
+        super().__init__()
        self._communicator = None
        self._server = None
        self._worker = fluid.core.DistFleetWrapper()

--- a/python/paddle/distributed/ps/utils/ps_program_builder.py
+++ b/python/paddle/distributed/ps/utils/ps_program_builder.py
@@ -101,7 +101,7 @@ class PsProgramBuilder(object):

 class GeoPsProgramBuilder(PsProgramBuilder):  # 仅 CPU 模式
    def __init__(self, pass_ctx):
-        super(GeoPsProgramBuilder, self).__init__(pass_ctx)
+        super().__init__(pass_ctx)
        if self.ps_mode != DistributedMode.GEO:
            raise ValueError(
                "ps mode: {} not matched {}",
@@ -129,7 +129,7 @@ class GeoPsProgramBuilder(PsProgramBuilder):  # 仅 CPU 模式

 class NuPsProgramBuilder(PsProgramBuilder):
    def __init__(self, pass_ctx):
-        super(NuPsProgramBuilder, self).__init__(pass_ctx)
+        super().__init__(pass_ctx)
        if not self.attrs['local_sparse']:
            raise ValueError("No local sparse params")

@@ -178,7 +178,7 @@ class NuPsProgramBuilder(PsProgramBuilder):

 class CpuSyncPsProgramBuilder(PsProgramBuilder):
    def __init__(self, pass_ctx):
-        super(CpuSyncPsProgramBuilder, self).__init__(pass_ctx)
+        super().__init__(pass_ctx)
        if (
            self.ps_mode != DistributedMode.SYNC
            and self.ps_mode != DistributedMode.ASYNC
@@ -230,7 +230,7 @@ class CpuSyncPsProgramBuilder(PsProgramBuilder):

 class CpuAsyncPsProgramBuilder(CpuSyncPsProgramBuilder):
    def __init__(self, pass_ctx):
-        super(CpuAsyncPsProgramBuilder, self).__init__(pass_ctx)
+        super().__init__(pass_ctx)

    def _build_trainer_desc(self):
        opt_info = self.loss.block.program._fleet_opt
@@ -267,7 +267,7 @@ class CpuAsyncPsProgramBuilder(CpuSyncPsProgramBuilder):

 class GpuPsProgramBuilder(PsProgramBuilder):
    def __init__(self, pass_ctx):
-        super(GpuPsProgramBuilder, self).__init__(pass_ctx)
+        super().__init__(pass_ctx)

    def _build_trainer_programs(self):

@@ -301,7 +301,7 @@ class GpuPsProgramBuilder(PsProgramBuilder):

 class HeterAsyncPsProgramBuilder(PsProgramBuilder):
    def __init__(self, pass_ctx):
-        super(HeterAsyncPsProgramBuilder, self).__init__(pass_ctx)
+        super().__init__(pass_ctx)

    def _build_trainer_programs(self):
        add_lr_decay_table_pass = new_pass(
@@ -377,7 +377,7 @@ class HeterAsyncPsProgramBuilder(PsProgramBuilder):

 class FlPsProgramBuilder(HeterAsyncPsProgramBuilder):
    def __init__(self, pass_ctx):
-        super(FlPsProgramBuilder, self).__init__(pass_ctx)
+        super().__init__(pass_ctx)

    def _build_trainer_programs(self):
        _main_file = ps_log_root_dir + '0_fl_worker_main_program.prototxt'

--- a/python/paddle/distribution/beta.py
+++ b/python/paddle/distribution/beta.py
@@ -95,7 +95,7 @@ class Beta(exponential_family.ExponentialFamily):
            paddle.stack([self.alpha, self.beta], -1)
        )

-        super(Beta, self).__init__(self._dirichlet._batch_shape)
+        super().__init__(self._dirichlet._batch_shape)

    @property
    def mean(self):

--- a/python/paddle/distribution/constraint.py
+++ b/python/paddle/distribution/constraint.py
@@ -30,7 +30,7 @@ class Range(Constraint):
    def __init__(self, lower, upper):
        self._lower = lower
        self._upper = upper
-        super(Range, self).__init__()
+        super().__init__()

    def __call__(self, value):
        return self._lower <= value <= self._upper

--- a/python/paddle/distribution/dirichlet.py
+++ b/python/paddle/distribution/dirichlet.py
@@ -77,9 +77,7 @@ class Dirichlet(exponential_family.ExponentialFamily):
            )

        self.concentration = concentration
-        super(Dirichlet, self).__init__(
-            concentration.shape[:-1], concentration.shape[-1:]
-        )
+        super().__init__(concentration.shape[:-1], concentration.shape[-1:])

    @property
    def mean(self):

--- a/python/paddle/distribution/distribution.py
+++ b/python/paddle/distribution/distribution.py
@@ -60,7 +60,7 @@ class Distribution(object):
            else tuple(event_shape)
        )

-        super(Distribution, self).__init__()
+        super().__init__()

    @property
    def batch_shape(self):

--- a/python/paddle/distribution/gumbel.py
+++ b/python/paddle/distribution/gumbel.py
@@ -96,7 +96,7 @@ class Gumbel(TransformedDistribution):

        self.transforms = ()

-        super(Gumbel, self).__init__(self.base_dist, self.transforms)
+        super().__init__(self.base_dist, self.transforms)

    @property
    def mean(self):

--- a/python/paddle/distribution/independent.py
+++ b/python/paddle/distribution/independent.py
--- a/python/paddle/distribution/laplace.py
+++ b/python/paddle/distribution/laplace.py
--- a/python/paddle/distribution/lognormal.py
+++ b/python/paddle/distribution/lognormal.py
--- a/python/paddle/distribution/multinomial.py
+++ b/python/paddle/distribution/multinomial.py
--- a/python/paddle/distribution/normal.py
+++ b/python/paddle/distribution/normal.py
--- a/python/paddle/distribution/transform.py
+++ b/python/paddle/distribution/transform.py
--- a/python/paddle/distribution/transformed_distribution.py
+++ b/python/paddle/distribution/transformed_distribution.py
--- a/python/paddle/distribution/uniform.py
+++ b/python/paddle/distribution/uniform.py
--- a/python/paddle/distribution/variable.py
+++ b/python/paddle/distribution/variable.py
--- a/python/paddle/fluid/clip.py
+++ b/python/paddle/fluid/clip.py
--- a/python/paddle/fluid/communicator.py
+++ b/python/paddle/fluid/communicator.py
--- a/python/paddle/fluid/contrib/extend_optimizer/extend_optimizer_with_weight_decay.py
+++ b/python/paddle/fluid/contrib/extend_optimizer/extend_optimizer_with_weight_decay.py
--- a/python/paddle/fluid/contrib/layers/rnn_impl.py
+++ b/python/paddle/fluid/contrib/layers/rnn_impl.py
--- a/python/paddle/fluid/contrib/optimizer.py
+++ b/python/paddle/fluid/contrib/optimizer.py
--- a/python/paddle/fluid/contrib/slim/quantization/imperative/fuse_utils.py
+++ b/python/paddle/fluid/contrib/slim/quantization/imperative/fuse_utils.py
--- a/python/paddle/fluid/contrib/slim/quantization/imperative/ptq.py
+++ b/python/paddle/fluid/contrib/slim/quantization/imperative/ptq.py
--- a/python/paddle/fluid/contrib/slim/quantization/imperative/ptq_config.py
+++ b/python/paddle/fluid/contrib/slim/quantization/imperative/ptq_config.py
--- a/python/paddle/fluid/contrib/slim/quantization/imperative/ptq_quantizer.py
+++ b/python/paddle/fluid/contrib/slim/quantization/imperative/ptq_quantizer.py
--- a/python/paddle/fluid/contrib/slim/quantization/imperative/ptq_registry.py
+++ b/python/paddle/fluid/contrib/slim/quantization/imperative/ptq_registry.py
--- a/python/paddle/fluid/contrib/slim/quantization/imperative/qat.py
+++ b/python/paddle/fluid/contrib/slim/quantization/imperative/qat.py
--- a/python/paddle/fluid/contrib/slim/tests/imperative_test_utils.py
+++ b/python/paddle/fluid/contrib/slim/tests/imperative_test_utils.py
--- a/python/paddle/fluid/contrib/slim/tests/test_imperative_out_scale.py
+++ b/python/paddle/fluid/contrib/slim/tests/test_imperative_out_scale.py
--- a/python/paddle/fluid/contrib/slim/tests/test_imperative_qat_lsq.py
+++ b/python/paddle/fluid/contrib/slim/tests/test_imperative_qat_lsq.py
--- a/python/paddle/fluid/contrib/slim/tests/test_imperative_qat_user_defined.py
+++ b/python/paddle/fluid/contrib/slim/tests/test_imperative_qat_user_defined.py
--- a/python/paddle/fluid/contrib/sparsity/asp.py
+++ b/python/paddle/fluid/contrib/sparsity/asp.py
--- a/python/paddle/fluid/contrib/tests/test_correlation.py
+++ b/python/paddle/fluid/contrib/tests/test_correlation.py
--- a/python/paddle/fluid/contrib/tests/test_multi_precision_fp16_train.py
+++ b/python/paddle/fluid/contrib/tests/test_multi_precision_fp16_train.py
--- a/python/paddle/fluid/dataloader/dataloader_iter.py
+++ b/python/paddle/fluid/dataloader/dataloader_iter.py
--- a/python/paddle/fluid/dataloader/fetcher.py
+++ b/python/paddle/fluid/dataloader/fetcher.py
--- a/python/paddle/fluid/dataloader/worker.py
+++ b/python/paddle/fluid/dataloader/worker.py
--- a/python/paddle/fluid/dataset.py
+++ b/python/paddle/fluid/dataset.py
--- a/python/paddle/fluid/device_worker.py
+++ b/python/paddle/fluid/device_worker.py
--- a/python/paddle/fluid/dygraph/container.py
+++ b/python/paddle/fluid/dygraph/container.py
--- a/python/paddle/fluid/dygraph/dygraph_to_static/base_transformer.py
+++ b/python/paddle/fluid/dygraph/dygraph_to_static/base_transformer.py
--- a/python/paddle/fluid/dygraph/dygraph_to_static/break_continue_transformer.py
+++ b/python/paddle/fluid/dygraph/dygraph_to_static/break_continue_transformer.py
--- a/python/paddle/fluid/dygraph/dygraph_to_static/partial_program.py
+++ b/python/paddle/fluid/dygraph/dygraph_to_static/partial_program.py
--- a/python/paddle/fluid/dygraph/dygraph_to_static/program_translator.py
+++ b/python/paddle/fluid/dygraph/dygraph_to_static/program_translator.py
--- a/python/paddle/fluid/dygraph/dygraph_to_static/return_transformer.py
+++ b/python/paddle/fluid/dygraph/dygraph_to_static/return_transformer.py
--- a/python/paddle/fluid/dygraph/io.py
+++ b/python/paddle/fluid/dygraph/io.py
--- a/python/paddle/fluid/dygraph/jit.py
+++ b/python/paddle/fluid/dygraph/jit.py
--- a/python/paddle/fluid/dygraph/layer_object_helper.py
+++ b/python/paddle/fluid/dygraph/layer_object_helper.py
--- a/python/paddle/fluid/dygraph/layers.py
+++ b/python/paddle/fluid/dygraph/layers.py
--- a/python/paddle/fluid/dygraph/learning_rate_scheduler.py
+++ b/python/paddle/fluid/dygraph/learning_rate_scheduler.py
--- a/python/paddle/fluid/dygraph/nn.py
+++ b/python/paddle/fluid/dygraph/nn.py
--- a/python/paddle/fluid/dygraph/parallel.py
+++ b/python/paddle/fluid/dygraph/parallel.py
--- a/python/paddle/fluid/dygraph/rnn.py
+++ b/python/paddle/fluid/dygraph/rnn.py
--- a/python/paddle/fluid/dygraph/tracer.py
+++ b/python/paddle/fluid/dygraph/tracer.py
--- a/python/paddle/fluid/entry_attr.py
+++ b/python/paddle/fluid/entry_attr.py
--- a/python/paddle/fluid/evaluator.py
+++ b/python/paddle/fluid/evaluator.py
--- a/python/paddle/fluid/framework.py
+++ b/python/paddle/fluid/framework.py
--- a/python/paddle/fluid/generator.py
+++ b/python/paddle/fluid/generator.py
--- a/python/paddle/fluid/incubate/fleet/base/role_maker.py
+++ b/python/paddle/fluid/incubate/fleet/base/role_maker.py
--- a/python/paddle/fluid/incubate/fleet/collective/__init__.py
+++ b/python/paddle/fluid/incubate/fleet/collective/__init__.py
--- a/python/paddle/fluid/incubate/fleet/parameter_server/distribute_transpiler/__init__.py
+++ b/python/paddle/fluid/incubate/fleet/parameter_server/distribute_transpiler/__init__.py
--- a/python/paddle/fluid/incubate/fleet/parameter_server/distribute_transpiler/distributed_strategy.py
+++ b/python/paddle/fluid/incubate/fleet/parameter_server/distribute_transpiler/distributed_strategy.py
--- a/python/paddle/fluid/incubate/fleet/parameter_server/ir/ps_dispatcher.py
+++ b/python/paddle/fluid/incubate/fleet/parameter_server/ir/ps_dispatcher.py
--- a/python/paddle/fluid/incubate/fleet/parameter_server/pslib/__init__.py
+++ b/python/paddle/fluid/incubate/fleet/parameter_server/pslib/__init__.py
--- a/python/paddle/fluid/incubate/fleet/parameter_server/pslib/optimizer_factory.py
+++ b/python/paddle/fluid/incubate/fleet/parameter_server/pslib/optimizer_factory.py
--- a/python/paddle/fluid/incubate/fleet/utils/fleet_util.py
+++ b/python/paddle/fluid/incubate/fleet/utils/fleet_util.py
--- a/python/paddle/fluid/incubate/fleet/utils/http_server.py
+++ b/python/paddle/fluid/incubate/fleet/utils/http_server.py
--- a/python/paddle/fluid/initializer.py
+++ b/python/paddle/fluid/initializer.py
--- a/python/paddle/fluid/install_check.py
+++ b/python/paddle/fluid/install_check.py
--- a/python/paddle/fluid/io.py
+++ b/python/paddle/fluid/io.py
--- a/python/paddle/fluid/layer_helper.py
+++ b/python/paddle/fluid/layer_helper.py
--- a/python/paddle/fluid/layers/control_flow.py
+++ b/python/paddle/fluid/layers/control_flow.py
--- a/python/paddle/fluid/layers/io.py
+++ b/python/paddle/fluid/layers/io.py
--- a/python/paddle/fluid/layers/rnn.py
+++ b/python/paddle/fluid/layers/rnn.py
--- a/python/paddle/fluid/metrics.py
+++ b/python/paddle/fluid/metrics.py
--- a/python/paddle/fluid/optimizer.py
+++ b/python/paddle/fluid/optimizer.py
--- a/python/paddle/fluid/param_attr.py
+++ b/python/paddle/fluid/param_attr.py
--- a/python/paddle/fluid/reader.py
+++ b/python/paddle/fluid/reader.py
--- a/python/paddle/fluid/regularizer.py
+++ b/python/paddle/fluid/regularizer.py
--- a/python/paddle/fluid/tests/custom_kernel/custom_kernel_dot_c_setup.py
+++ b/python/paddle/fluid/tests/custom_kernel/custom_kernel_dot_c_setup.py
--- a/python/paddle/fluid/tests/custom_kernel/custom_kernel_dot_setup.py
+++ b/python/paddle/fluid/tests/custom_kernel/custom_kernel_dot_setup.py
--- a/python/paddle/fluid/tests/custom_op/test_custom_relu_model.py
+++ b/python/paddle/fluid/tests/custom_op/test_custom_relu_model.py
--- a/python/paddle/fluid/tests/custom_runtime/test_custom_cpu_plugin.py
+++ b/python/paddle/fluid/tests/custom_runtime/test_custom_cpu_plugin.py
--- a/python/paddle/fluid/tests/custom_runtime/test_custom_cpu_to_static.py
+++ b/python/paddle/fluid/tests/custom_runtime/test_custom_cpu_to_static.py
--- a/python/paddle/fluid/tests/unittests/asp/test_asp_customized_pruning.py
+++ b/python/paddle/fluid/tests/unittests/asp/test_asp_customized_pruning.py
--- a/python/paddle/fluid/tests/unittests/asp/test_asp_optimize_dynamic.py
+++ b/python/paddle/fluid/tests/unittests/asp/test_asp_optimize_dynamic.py
--- a/python/paddle/fluid/tests/unittests/asp/test_asp_pruning_dynamic.py
+++ b/python/paddle/fluid/tests/unittests/asp/test_asp_pruning_dynamic.py
--- a/python/paddle/fluid/tests/unittests/asp/test_asp_save_load.py
+++ b/python/paddle/fluid/tests/unittests/asp/test_asp_save_load.py
--- a/python/paddle/fluid/tests/unittests/asp/test_fleet_with_asp_dynamic.py
+++ b/python/paddle/fluid/tests/unittests/asp/test_fleet_with_asp_dynamic.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/auto_parallel_relaunch_model.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/auto_parallel_relaunch_model.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/engine_api.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/engine_api.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/engine_api_dp.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/engine_api_dp.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/high_order_grad.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/high_order_grad.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/iterable_dataset.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/iterable_dataset.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/optimization_tuner_api.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/optimization_tuner_api.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_base_cost.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_base_cost.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_conditional_block_reshard.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_conditional_block_reshard.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_dist_attr_v2.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_dist_attr_v2.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_dist_context.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_dist_context.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_engine_api_error.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_engine_api_error.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_interface.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_interface.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_process_mesh.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_process_mesh.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_serialization.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_serialization.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_to_static.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_to_static.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_while_op_completion.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_while_op_completion.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel/test_while_op_partition.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel/test_while_op_partition.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel_autoconvert.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel_autoconvert.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel_gpt_model.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel_gpt_model.py
--- a/python/paddle/fluid/tests/unittests/auto_parallel_save_load.py
+++ b/python/paddle/fluid/tests/unittests/auto_parallel_save_load.py
--- a/python/paddle/fluid/tests/unittests/check_nan_inf_base_dygraph.py
+++ b/python/paddle/fluid/tests/unittests/check_nan_inf_base_dygraph.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/auto_parallel_parallelizer.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/auto_parallel_parallelizer.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_dist_save_load.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_dist_save_load.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_api.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_api.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_api_eager.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_api_eager.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_stage2.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_stage2.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_stage2_comm_overlap.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_stage2_comm_overlap.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_stage3.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_stage3.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_stage3_offload.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_group_sharded_stage3_offload.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_sharding_optimizer_stage2.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_sharding_optimizer_stage2.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_sharding_stage2.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_sharding_stage2.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_sharding_stage3.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_sharding_stage3.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_sharding_stage3_offload.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/dygraph_sharding_stage3_offload.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_mp_layers.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_mp_layers.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_mp_model.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_mp_model.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_pp_embedding.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_pp_embedding.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_pp_layer_with_virtual_stage.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_pp_layer_with_virtual_stage.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_pp_recompute.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_pp_recompute.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_pp_transformer.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_pp_transformer.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_pp_transformer_with_virtual_stage.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_pp_transformer_with_virtual_stage.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_qat.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_qat.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_sharding_model.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_sharding_model.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_shared_weight.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/hybrid_parallel_shared_weight.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_control_flow_different.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_control_flow_different.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_control_flow_same.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_control_flow_same.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_no_sync.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_no_sync.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_no_sync_control_flow.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_no_sync_control_flow.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_no_sync_gradient_check.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_no_sync_gradient_check.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_no_sync_unused_params.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_no_sync_unused_params.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_se_resnext.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_se_resnext.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_sync_batch_norm.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_sync_batch_norm.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_transformer.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/parallel_dygraph_transformer.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_dygraph_recompute.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_dygraph_recompute.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_dygraph_recompute_for_eager.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_dygraph_recompute_for_eager.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_static_mp_layers.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_fleet_static_mp_layers.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_imperative_auto_mixed_precision.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_imperative_auto_mixed_precision.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_imperative_auto_mixed_precision_for_eager.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_imperative_auto_mixed_precision_for_eager.py
--- a/python/paddle/fluid/tests/unittests/collective/fleet/test_mixed_precision.py
+++ b/python/paddle/fluid/tests/unittests/collective/fleet/test_mixed_precision.py
--- a/python/paddle/fluid/tests/unittests/collective/multinode/dygraph_hybrid_dpppmp.py
+++ b/python/paddle/fluid/tests/unittests/collective/multinode/dygraph_hybrid_dpppmp.py
--- a/python/paddle/fluid/tests/unittests/collective/multinode/dygraph_hybrid_fp16.py
+++ b/python/paddle/fluid/tests/unittests/collective/multinode/dygraph_hybrid_fp16.py
--- a/python/paddle/fluid/tests/unittests/collective/multinode/dygraph_hybrid_recompute.py
+++ b/python/paddle/fluid/tests/unittests/collective/multinode/dygraph_hybrid_recompute.py
--- a/python/paddle/fluid/tests/unittests/collective/multinode/mn_dygraph_group_sharded_stage3.py
+++ b/python/paddle/fluid/tests/unittests/collective/multinode/mn_dygraph_group_sharded_stage3.py
--- a/python/paddle/fluid/tests/unittests/collective/multinode/mn_dygraph_sharding_stage2.py
+++ b/python/paddle/fluid/tests/unittests/collective/multinode/mn_dygraph_sharding_stage2.py
--- a/python/paddle/fluid/tests/unittests/collective/test_communication_stream_allgather_api.py
+++ b/python/paddle/fluid/tests/unittests/collective/test_communication_stream_allgather_api.py
--- a/python/paddle/fluid/tests/unittests/collective/test_communication_stream_allreduce_api.py
+++ b/python/paddle/fluid/tests/unittests/collective/test_communication_stream_allreduce_api.py
--- a/python/paddle/fluid/tests/unittests/collective/test_communication_stream_alltoall_api.py
+++ b/python/paddle/fluid/tests/unittests/collective/test_communication_stream_alltoall_api.py
--- a/python/paddle/fluid/tests/unittests/collective/test_communication_stream_alltoall_single_api.py
+++ b/python/paddle/fluid/tests/unittests/collective/test_communication_stream_alltoall_single_api.py
--- a/python/paddle/fluid/tests/unittests/collective/test_communication_stream_broadcast_api.py
+++ b/python/paddle/fluid/tests/unittests/collective/test_communication_stream_broadcast_api.py
--- a/python/paddle/fluid/tests/unittests/collective/test_communication_stream_reduce_api.py
+++ b/python/paddle/fluid/tests/unittests/collective/test_communication_stream_reduce_api.py
--- a/python/paddle/fluid/tests/unittests/collective/test_communication_stream_reduce_scatter_api.py
+++ b/python/paddle/fluid/tests/unittests/collective/test_communication_stream_reduce_scatter_api.py
--- a/python/paddle/fluid/tests/unittests/collective/test_communication_stream_scatter_api.py
+++ b/python/paddle/fluid/tests/unittests/collective/test_communication_stream_scatter_api.py
--- a/python/paddle/fluid/tests/unittests/collective/test_communication_stream_sendrecv_api.py
+++ b/python/paddle/fluid/tests/unittests/collective/test_communication_stream_sendrecv_api.py
--- a/python/paddle/fluid/tests/unittests/distributed_passes/dist_pass_test_base.py
+++ b/python/paddle/fluid/tests/unittests/distributed_passes/dist_pass_test_base.py
--- a/python/paddle/fluid/tests/unittests/distributed_passes/test_auto_parallel_gradient_merge_pass.py
+++ b/python/paddle/fluid/tests/unittests/distributed_passes/test_auto_parallel_gradient_merge_pass.py
--- a/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_adam_pass.py
+++ b/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_adam_pass.py
--- a/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_bn_act_pass.py
+++ b/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_bn_act_pass.py
--- a/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_bn_add_act_pass.py
+++ b/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_bn_add_act_pass.py
--- a/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_momentum_pass.py
+++ b/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_momentum_pass.py
--- a/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_relu_depthwise_conv_pass.py
+++ b/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_relu_depthwise_conv_pass.py
--- a/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_sgd_pass.py
+++ b/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_fuse_sgd_pass.py
--- a/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_inplace_addto_pass.py
+++ b/python/paddle/fluid/tests/unittests/distributed_passes/test_dist_inplace_addto_pass.py
--- a/python/paddle/fluid/tests/unittests/distributed_passes/test_white_lists.py
+++ b/python/paddle/fluid/tests/unittests/distributed_passes/test_white_lists.py
--- a/python/paddle/fluid/tests/unittests/distribution/mock_data.py
+++ b/python/paddle/fluid/tests/unittests/distribution/mock_data.py
--- a/python/paddle/fluid/tests/unittests/dygraph_recompute_hybrid.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_recompute_hybrid.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/bert_dygraph_model.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/bert_dygraph_model.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/darknet.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/darknet.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/ifelse_simple_func.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/ifelse_simple_func.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/seq2seq_dygraph_model.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/seq2seq_dygraph_model.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/simnet_dygraph_model.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/simnet_dygraph_model.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/simnet_dygraph_model_v2.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/simnet_dygraph_model_v2.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_bmn.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_bmn.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_container.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_container.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_convert_call.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_convert_call.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_convert_operators.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_convert_operators.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_cycle_gan.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_cycle_gan.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_declarative.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_declarative.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_dict.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_dict.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_drop_path.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_drop_path.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_error.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_error.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_fetch_feed.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_fetch_feed.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_for_enumerate.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_for_enumerate.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_grad.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_grad.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_gradient_aggregation.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_gradient_aggregation.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_grid_generator.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_grid_generator.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_ifelse.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_ifelse.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_isinstance.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_isinstance.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_lac.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_lac.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_layer_hook.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_layer_hook.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_list.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_list.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_lstm.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_lstm.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_mnist.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_mnist.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_mobile_net.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_mobile_net.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_op_attr.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_op_attr.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_param_guard.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_param_guard.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_params_no_grad.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_params_no_grad.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_partial_program.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_partial_program.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_program_translator.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_program_translator.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_ptb_lm.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_ptb_lm.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_ptb_lm_v2.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_ptb_lm_v2.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_reinforcement_learning.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_reinforcement_learning.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_resnet.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_resnet.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_resnet_v2.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_resnet_v2.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_rollback.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_rollback.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_save_inference_model.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_save_inference_model.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_se_resnet.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_se_resnet.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_sentiment.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_sentiment.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_slice.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_slice.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_spec_names.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_spec_names.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_tsm.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_tsm.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_typing.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_typing.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/test_word2vec.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/test_word2vec.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/transformer_dygraph_model.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/transformer_dygraph_model.py
--- a/python/paddle/fluid/tests/unittests/dygraph_to_static/yolov3.py
+++ b/python/paddle/fluid/tests/unittests/dygraph_to_static/yolov3.py
--- a/python/paddle/fluid/tests/unittests/hybrid_parallel_pp_layer.py
+++ b/python/paddle/fluid/tests/unittests/hybrid_parallel_pp_layer.py
--- a/python/paddle/fluid/tests/unittests/ipu/test_dy2static_fp16_ipu.py
+++ b/python/paddle/fluid/tests/unittests/ipu/test_dy2static_fp16_ipu.py
--- a/python/paddle/fluid/tests/unittests/ipu/test_dy2static_ipu.py
+++ b/python/paddle/fluid/tests/unittests/ipu/test_dy2static_ipu.py
--- a/python/paddle/fluid/tests/unittests/ipu/test_lr_sheduler_ipu.py
+++ b/python/paddle/fluid/tests/unittests/ipu/test_lr_sheduler_ipu.py
--- a/python/paddle/fluid/tests/unittests/ipu/test_print_op_ipu.py
+++ b/python/paddle/fluid/tests/unittests/ipu/test_print_op_ipu.py
--- a/python/paddle/fluid/tests/unittests/ipu/test_set_ipu_shard_api.py
+++ b/python/paddle/fluid/tests/unittests/ipu/test_set_ipu_shard_api.py
--- a/python/paddle/fluid/tests/unittests/ir/inference/auto_scan_test.py
+++ b/python/paddle/fluid/tests/unittests/ir/inference/auto_scan_test.py
--- a/python/paddle/fluid/tests/unittests/ir/inference/inference_pass_test.py
+++ b/python/paddle/fluid/tests/unittests/ir/inference/inference_pass_test.py
--- a/python/paddle/fluid/tests/unittests/ir/inference/quant_dequant_test.py
+++ b/python/paddle/fluid/tests/unittests/ir/inference/quant_dequant_test.py
--- a/python/paddle/fluid/tests/unittests/ir/inference/test_trt_subgraph_pass.py
+++ b/python/paddle/fluid/tests/unittests/ir/inference/test_trt_subgraph_pass.py
--- a/python/paddle/fluid/tests/unittests/mkldnn/test_activation_mkldnn_op.py
+++ b/python/paddle/fluid/tests/unittests/mkldnn/test_activation_mkldnn_op.py
--- a/python/paddle/fluid/tests/unittests/mkldnn/test_conv2d_transpose_bf16_mkldnn_op.py
+++ b/python/paddle/fluid/tests/unittests/mkldnn/test_conv2d_transpose_bf16_mkldnn_op.py
--- a/python/paddle/fluid/tests/unittests/mkldnn/test_conv2d_transpose_mkldnn_op.py
+++ b/python/paddle/fluid/tests/unittests/mkldnn/test_conv2d_transpose_mkldnn_op.py
--- a/python/paddle/fluid/tests/unittests/mkldnn/test_pool2d_bf16_mkldnn_op.py
+++ b/python/paddle/fluid/tests/unittests/mkldnn/test_pool2d_bf16_mkldnn_op.py
--- a/python/paddle/fluid/tests/unittests/mkldnn/test_softmax_mkldnn_op.py
+++ b/python/paddle/fluid/tests/unittests/mkldnn/test_softmax_mkldnn_op.py
--- a/python/paddle/fluid/tests/unittests/mlu/parallel_dygraph_sync_batch_norm.py
+++ b/python/paddle/fluid/tests/unittests/mlu/parallel_dygraph_sync_batch_norm.py
--- a/python/paddle/fluid/tests/unittests/mlu/test_iou_similarity_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_iou_similarity_op_mlu.py
--- a/python/paddle/fluid/tests/unittests/mlu/test_label_smooth_op_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_label_smooth_op_mlu.py
--- a/python/paddle/fluid/tests/unittests/mlu/test_spawn_mlu.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_spawn_mlu.py
--- a/python/paddle/fluid/tests/unittests/mlu/test_sync_batch_norm_op_mlu_extra.py
+++ b/python/paddle/fluid/tests/unittests/mlu/test_sync_batch_norm_op_mlu_extra.py
--- a/python/paddle/fluid/tests/unittests/npu/test_bilinear_interp_v2_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_bilinear_interp_v2_op_npu.py
--- a/python/paddle/fluid/tests/unittests/npu/test_box_coder_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_box_coder_op_npu.py
--- a/python/paddle/fluid/tests/unittests/npu/test_density_prior_box_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_density_prior_box_op_npu.py
--- a/python/paddle/fluid/tests/unittests/npu/test_iou_similarity_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_iou_similarity_op_npu.py
--- a/python/paddle/fluid/tests/unittests/npu/test_label_smooth_op_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_label_smooth_op_npu.py
--- a/python/paddle/fluid/tests/unittests/npu/test_mixed_precision_npu.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_mixed_precision_npu.py
--- a/python/paddle/fluid/tests/unittests/npu/test_sync_batch_norm_op_npu_extra.py
+++ b/python/paddle/fluid/tests/unittests/npu/test_sync_batch_norm_op_npu_extra.py
--- a/python/paddle/fluid/tests/unittests/parallel_dygraph_dataparallel_with_pylayer.py
+++ b/python/paddle/fluid/tests/unittests/parallel_dygraph_dataparallel_with_pylayer.py
--- a/python/paddle/fluid/tests/unittests/parallel_dygraph_gradient_check.py
+++ b/python/paddle/fluid/tests/unittests/parallel_dygraph_gradient_check.py
--- a/python/paddle/fluid/tests/unittests/parallel_dygraph_gradient_check_in_eager_mode.py
+++ b/python/paddle/fluid/tests/unittests/parallel_dygraph_gradient_check_in_eager_mode.py
--- a/python/paddle/fluid/tests/unittests/parallel_dygraph_mnist.py
+++ b/python/paddle/fluid/tests/unittests/parallel_dygraph_mnist.py
--- a/python/paddle/fluid/tests/unittests/parallel_dygraph_none_var.py
+++ b/python/paddle/fluid/tests/unittests/parallel_dygraph_none_var.py
--- a/python/paddle/fluid/tests/unittests/parallel_dygraph_shared_unused_var.py
+++ b/python/paddle/fluid/tests/unittests/parallel_dygraph_shared_unused_var.py
--- a/python/paddle/fluid/tests/unittests/parallel_dygraph_sparse_embedding.py
+++ b/python/paddle/fluid/tests/unittests/parallel_dygraph_sparse_embedding.py
--- a/python/paddle/fluid/tests/unittests/parallel_dygraph_sparse_embedding_fp64.py
+++ b/python/paddle/fluid/tests/unittests/parallel_dygraph_sparse_embedding_fp64.py
--- a/python/paddle/fluid/tests/unittests/parallel_dygraph_unused_variables.py
+++ b/python/paddle/fluid/tests/unittests/parallel_dygraph_unused_variables.py
--- a/python/paddle/fluid/tests/unittests/ps_dnn_model.py
+++ b/python/paddle/fluid/tests/unittests/ps_dnn_model.py
--- a/python/paddle/fluid/tests/unittests/rnn/rnn_numpy.py
+++ b/python/paddle/fluid/tests/unittests/rnn/rnn_numpy.py
--- a/python/paddle/fluid/tests/unittests/rnn/test_rnn_cells.py
+++ b/python/paddle/fluid/tests/unittests/rnn/test_rnn_cells.py
--- a/python/paddle/fluid/tests/unittests/rnn/test_rnn_cells_static.py
+++ b/python/paddle/fluid/tests/unittests/rnn/test_rnn_cells_static.py
--- a/python/paddle/fluid/tests/unittests/rnn/test_rnn_nets.py
+++ b/python/paddle/fluid/tests/unittests/rnn/test_rnn_nets.py
--- a/python/paddle/fluid/tests/unittests/rnn/test_rnn_nets_static.py
+++ b/python/paddle/fluid/tests/unittests/rnn/test_rnn_nets_static.py
--- a/python/paddle/fluid/tests/unittests/rnn/test_wrappers.py
+++ b/python/paddle/fluid/tests/unittests/rnn/test_wrappers.py
--- a/python/paddle/fluid/tests/unittests/test_affine_grid_function.py
+++ b/python/paddle/fluid/tests/unittests/test_affine_grid_function.py
--- a/python/paddle/fluid/tests/unittests/test_auto_parallel_completion.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_parallel_completion.py
--- a/python/paddle/fluid/tests/unittests/test_auto_parallel_completion_gpt.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_parallel_completion_gpt.py
--- a/python/paddle/fluid/tests/unittests/test_auto_parallel_cost_model.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_parallel_cost_model.py
--- a/python/paddle/fluid/tests/unittests/test_auto_parallel_mapper.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_parallel_mapper.py
--- a/python/paddle/fluid/tests/unittests/test_auto_parallel_partitioner.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_parallel_partitioner.py
--- a/python/paddle/fluid/tests/unittests/test_auto_parallel_partitioner_gpt.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_parallel_partitioner_gpt.py
--- a/python/paddle/fluid/tests/unittests/test_auto_parallel_reshard.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_parallel_reshard.py
--- a/python/paddle/fluid/tests/unittests/test_auto_parallel_reshard_dpmppp.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_parallel_reshard_dpmppp.py
--- a/python/paddle/fluid/tests/unittests/test_auto_parallel_reshard_mppp.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_parallel_reshard_mppp.py
--- a/python/paddle/fluid/tests/unittests/test_auto_parallel_reshard_serial.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_parallel_reshard_serial.py
--- a/python/paddle/fluid/tests/unittests/test_auto_parallel_searcher.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_parallel_searcher.py
--- a/python/paddle/fluid/tests/unittests/test_auto_search_dist_matmul_op.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_search_dist_matmul_op.py
--- a/python/paddle/fluid/tests/unittests/test_auto_search_dist_op.py
+++ b/python/paddle/fluid/tests/unittests/test_auto_search_dist_op.py
--- a/python/paddle/fluid/tests/unittests/test_backward.py
+++ b/python/paddle/fluid/tests/unittests/test_backward.py
--- a/python/paddle/fluid/tests/unittests/test_base_layer.py
+++ b/python/paddle/fluid/tests/unittests/test_base_layer.py
--- a/python/paddle/fluid/tests/unittests/test_complex_grad_accumulated.py
+++ b/python/paddle/fluid/tests/unittests/test_complex_grad_accumulated.py
--- a/python/paddle/fluid/tests/unittests/test_complex_kron.py
+++ b/python/paddle/fluid/tests/unittests/test_complex_kron.py
--- a/python/paddle/fluid/tests/unittests/test_complex_simplenet.py
+++ b/python/paddle/fluid/tests/unittests/test_complex_simplenet.py
--- a/python/paddle/fluid/tests/unittests/test_conv1d_layer.py
+++ b/python/paddle/fluid/tests/unittests/test_conv1d_layer.py
--- a/python/paddle/fluid/tests/unittests/test_conv1d_transpose_layer.py
+++ b/python/paddle/fluid/tests/unittests/test_conv1d_transpose_layer.py
--- a/python/paddle/fluid/tests/unittests/test_conv2d_layer.py
+++ b/python/paddle/fluid/tests/unittests/test_conv2d_layer.py
--- a/python/paddle/fluid/tests/unittests/test_conv2d_transpose_layer.py
+++ b/python/paddle/fluid/tests/unittests/test_conv2d_transpose_layer.py
--- a/python/paddle/fluid/tests/unittests/test_conv3d_layer.py
+++ b/python/paddle/fluid/tests/unittests/test_conv3d_layer.py
--- a/python/paddle/fluid/tests/unittests/test_conv3d_transpose_layer.py
+++ b/python/paddle/fluid/tests/unittests/test_conv3d_transpose_layer.py
--- a/python/paddle/fluid/tests/unittests/test_cpuonly_spawn.py
+++ b/python/paddle/fluid/tests/unittests/test_cpuonly_spawn.py
--- a/python/paddle/fluid/tests/unittests/test_cuda_graph_partial_graph.py
+++ b/python/paddle/fluid/tests/unittests/test_cuda_graph_partial_graph.py
--- a/python/paddle/fluid/tests/unittests/test_cuda_graph_partial_graph_static.py
+++ b/python/paddle/fluid/tests/unittests/test_cuda_graph_partial_graph_static.py
--- a/python/paddle/fluid/tests/unittests/test_cuda_graph_partial_graph_static_run.py
+++ b/python/paddle/fluid/tests/unittests/test_cuda_graph_partial_graph_static_run.py
--- a/python/paddle/fluid/tests/unittests/test_dataloader_autotune.py
+++ b/python/paddle/fluid/tests/unittests/test_dataloader_autotune.py
--- a/python/paddle/fluid/tests/unittests/test_detection_map_op.py
+++ b/python/paddle/fluid/tests/unittests/test_detection_map_op.py
--- a/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
+++ b/python/paddle/fluid/tests/unittests/test_dist_transpiler.py
--- a/python/paddle/fluid/tests/unittests/test_dygraph_mnist_fp16.py
+++ b/python/paddle/fluid/tests/unittests/test_dygraph_mnist_fp16.py
--- a/python/paddle/fluid/tests/unittests/test_dygraph_multi_forward.py
+++ b/python/paddle/fluid/tests/unittests/test_dygraph_multi_forward.py
--- a/python/paddle/fluid/tests/unittests/test_dynrnn_gradient_check.py
+++ b/python/paddle/fluid/tests/unittests/test_dynrnn_gradient_check.py
--- a/python/paddle/fluid/tests/unittests/test_eager_deletion_recurrent_op.py
+++ b/python/paddle/fluid/tests/unittests/test_eager_deletion_recurrent_op.py
--- a/python/paddle/fluid/tests/unittests/test_faster_tokenizer_op.py
+++ b/python/paddle/fluid/tests/unittests/test_faster_tokenizer_op.py
--- a/python/paddle/fluid/tests/unittests/test_fleet_base_single.py
+++ b/python/paddle/fluid/tests/unittests/test_fleet_base_single.py
--- a/python/paddle/fluid/tests/unittests/test_fleet_metric.py
+++ b/python/paddle/fluid/tests/unittests/test_fleet_metric.py
--- a/python/paddle/fluid/tests/unittests/test_fleet_rolemaker_2.py
+++ b/python/paddle/fluid/tests/unittests/test_fleet_rolemaker_2.py
--- a/python/paddle/fluid/tests/unittests/test_fleet_util.py
+++ b/python/paddle/fluid/tests/unittests/test_fleet_util.py
--- a/python/paddle/fluid/tests/unittests/test_fuse_gemm_epilogue_pass.py
+++ b/python/paddle/fluid/tests/unittests/test_fuse_gemm_epilogue_pass.py
--- a/python/paddle/fluid/tests/unittests/test_fused_transformer_with_amp_decorator.py
+++ b/python/paddle/fluid/tests/unittests/test_fused_transformer_with_amp_decorator.py
--- a/python/paddle/fluid/tests/unittests/test_gradient_clip.py
+++ b/python/paddle/fluid/tests/unittests/test_gradient_clip.py
--- a/python/paddle/fluid/tests/unittests/test_grid_sample_function.py
+++ b/python/paddle/fluid/tests/unittests/test_grid_sample_function.py
--- a/python/paddle/fluid/tests/unittests/test_gru_op.py
+++ b/python/paddle/fluid/tests/unittests/test_gru_op.py
--- a/python/paddle/fluid/tests/unittests/test_gru_unit_op.py
+++ b/python/paddle/fluid/tests/unittests/test_gru_unit_op.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_auto_prune.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_auto_prune.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_basic.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_basic.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_container_layerlist.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_container_layerlist.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_container_parameterlist.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_container_parameterlist.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_data_parallel.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_data_parallel.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_deepcf.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_deepcf.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_framework.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_framework.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_gan.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_gan.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_gnn.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_gnn.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_layer_apply.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_layer_apply.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_layer_children.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_layer_children.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_load_static_param.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_load_static_param.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_lod_tensor_to_selected_rows.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_lod_tensor_to_selected_rows.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_mnist.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_mnist.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_named_members.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_named_members.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_ocr_attention_model.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_ocr_attention_model.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_optimizer.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_optimizer.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_optimizer_v2.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_optimizer_v2.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_parallel_coalesce_split.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_parallel_coalesce_split.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_ptb_rnn.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_ptb_rnn.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_recurrent_usage.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_recurrent_usage.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_reinforcement.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_reinforcement.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_resnet.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_resnet.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_save_load.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_save_load.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_save_load_v2.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_save_load_v2.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_se_resnext.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_se_resnext.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_selected_rows.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_selected_rows.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_selected_rows_to_lod_tensor.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_selected_rows_to_lod_tensor.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_star_gan_with_gradient_penalty.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_star_gan_with_gradient_penalty.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_thread_local_has_grad.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_thread_local_has_grad.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_trace_non_persistable_inputs.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_trace_non_persistable_inputs.py
--- a/python/paddle/fluid/tests/unittests/test_imperative_transformer_sorted_gradient.py
+++ b/python/paddle/fluid/tests/unittests/test_imperative_transformer_sorted_gradient.py
--- a/python/paddle/fluid/tests/unittests/test_inplace_addto_strategy.py
+++ b/python/paddle/fluid/tests/unittests/test_inplace_addto_strategy.py
--- a/python/paddle/fluid/tests/unittests/test_input_spec.py
+++ b/python/paddle/fluid/tests/unittests/test_input_spec.py
--- a/python/paddle/fluid/tests/unittests/test_iou_similarity_op.py
+++ b/python/paddle/fluid/tests/unittests/test_iou_similarity_op.py
--- a/python/paddle/fluid/tests/unittests/test_jit_layer.py
+++ b/python/paddle/fluid/tests/unittests/test_jit_layer.py
--- a/python/paddle/fluid/tests/unittests/test_jit_save_load.py
+++ b/python/paddle/fluid/tests/unittests/test_jit_save_load.py
--- a/python/paddle/fluid/tests/unittests/test_label_smooth_functional.py
+++ b/python/paddle/fluid/tests/unittests/test_label_smooth_functional.py
--- a/python/paddle/fluid/tests/unittests/test_label_smooth_op.py
+++ b/python/paddle/fluid/tests/unittests/test_label_smooth_op.py
--- a/python/paddle/fluid/tests/unittests/test_layers.py
+++ b/python/paddle/fluid/tests/unittests/test_layers.py
--- a/python/paddle/fluid/tests/unittests/test_layout_autotune.py
+++ b/python/paddle/fluid/tests/unittests/test_layout_autotune.py
--- a/python/paddle/fluid/tests/unittests/test_lazy_init.py
+++ b/python/paddle/fluid/tests/unittests/test_lazy_init.py
--- a/python/paddle/fluid/tests/unittests/test_lookahead.py
+++ b/python/paddle/fluid/tests/unittests/test_lookahead.py
--- a/python/paddle/fluid/tests/unittests/test_lookup_table_bf16_op.py
+++ b/python/paddle/fluid/tests/unittests/test_lookup_table_bf16_op.py
--- a/python/paddle/fluid/tests/unittests/test_lstm_cudnn_op.py
+++ b/python/paddle/fluid/tests/unittests/test_lstm_cudnn_op.py
--- a/python/paddle/fluid/tests/unittests/test_mine_hard_examples_op.py
+++ b/python/paddle/fluid/tests/unittests/test_mine_hard_examples_op.py
--- a/python/paddle/fluid/tests/unittests/test_modelaverage.py
+++ b/python/paddle/fluid/tests/unittests/test_modelaverage.py
--- a/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_dynamic.py
+++ b/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_dynamic.py
--- a/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_iterable_dataset_dynamic.py
+++ b/python/paddle/fluid/tests/unittests/test_multiprocess_dataloader_iterable_dataset_dynamic.py
--- a/python/paddle/fluid/tests/unittests/test_nan_inf.py
+++ b/python/paddle/fluid/tests/unittests/test_nan_inf.py
--- a/python/paddle/fluid/tests/unittests/test_newprofiler.py
+++ b/python/paddle/fluid/tests/unittests/test_newprofiler.py
--- a/python/paddle/fluid/tests/unittests/test_onnx_export.py
+++ b/python/paddle/fluid/tests/unittests/test_onnx_export.py
--- a/python/paddle/fluid/tests/unittests/test_op_function_generator.py
+++ b/python/paddle/fluid/tests/unittests/test_op_function_generator.py
--- a/python/paddle/fluid/tests/unittests/test_op_version.py
+++ b/python/paddle/fluid/tests/unittests/test_op_version.py
--- a/python/paddle/fluid/tests/unittests/test_optimizer.py
+++ b/python/paddle/fluid/tests/unittests/test_optimizer.py
--- a/python/paddle/fluid/tests/unittests/test_optimizer_in_control_flow.py
+++ b/python/paddle/fluid/tests/unittests/test_optimizer_in_control_flow.py
--- a/python/paddle/fluid/tests/unittests/test_paddle_save_load.py
+++ b/python/paddle/fluid/tests/unittests/test_paddle_save_load.py
--- a/python/paddle/fluid/tests/unittests/test_pow2_decay_with_linear_warmup_op.py
+++ b/python/paddle/fluid/tests/unittests/test_pow2_decay_with_linear_warmup_op.py
--- a/python/paddle/fluid/tests/unittests/test_pylayer_op.py
+++ b/python/paddle/fluid/tests/unittests/test_pylayer_op.py
--- a/python/paddle/fluid/tests/unittests/test_recurrent_op.py
+++ b/python/paddle/fluid/tests/unittests/test_recurrent_op.py
--- a/python/paddle/fluid/tests/unittests/test_retain_graph.py
+++ b/python/paddle/fluid/tests/unittests/test_retain_graph.py
--- a/python/paddle/fluid/tests/unittests/test_run_program_op.py
+++ b/python/paddle/fluid/tests/unittests/test_run_program_op.py
--- a/python/paddle/fluid/tests/unittests/test_sample_logits_op.py
+++ b/python/paddle/fluid/tests/unittests/test_sample_logits_op.py
--- a/python/paddle/fluid/tests/unittests/test_save_inference_model_conditional_op.py
+++ b/python/paddle/fluid/tests/unittests/test_save_inference_model_conditional_op.py
--- a/python/paddle/fluid/tests/unittests/test_segment_ops.py
+++ b/python/paddle/fluid/tests/unittests/test_segment_ops.py
--- a/python/paddle/fluid/tests/unittests/test_set_value_op.py
+++ b/python/paddle/fluid/tests/unittests/test_set_value_op.py
--- a/python/paddle/fluid/tests/unittests/test_shuffle_batch_op.py
+++ b/python/paddle/fluid/tests/unittests/test_shuffle_batch_op.py
--- a/python/paddle/fluid/tests/unittests/test_static_save_load.py
+++ b/python/paddle/fluid/tests/unittests/test_static_save_load.py
--- a/python/paddle/fluid/tests/unittests/test_strided_slice_op.py
+++ b/python/paddle/fluid/tests/unittests/test_strided_slice_op.py
--- a/python/paddle/fluid/tests/unittests/test_switch_autotune.py
+++ b/python/paddle/fluid/tests/unittests/test_switch_autotune.py
--- a/python/paddle/fluid/tests/unittests/test_sync_batch_norm_op.py
+++ b/python/paddle/fluid/tests/unittests/test_sync_batch_norm_op.py
--- a/python/paddle/fluid/tests/unittests/test_tensor_register_hook.py
+++ b/python/paddle/fluid/tests/unittests/test_tensor_register_hook.py
--- a/python/paddle/fluid/tests/unittests/test_traced_layer_err_msg.py
+++ b/python/paddle/fluid/tests/unittests/test_traced_layer_err_msg.py
--- a/python/paddle/fluid/tests/unittests/test_translated_layer.py
+++ b/python/paddle/fluid/tests/unittests/test_translated_layer.py
--- a/python/paddle/fluid/tests/unittests/xpu/test_pow2_decay_with_linear_warmup_op_xpu.py
+++ b/python/paddle/fluid/tests/unittests/xpu/test_pow2_decay_with_linear_warmup_op_xpu.py
--- a/python/paddle/fluid/trainer_desc.py
+++ b/python/paddle/fluid/trainer_desc.py
--- a/python/paddle/fluid/transpiler/ascend_transpiler.py
+++ b/python/paddle/fluid/transpiler/ascend_transpiler.py
--- a/python/paddle/fluid/transpiler/ps_dispatcher.py
+++ b/python/paddle/fluid/transpiler/ps_dispatcher.py
--- a/python/paddle/hapi/callbacks.py
+++ b/python/paddle/hapi/callbacks.py
--- a/python/paddle/hapi/dynamic_flops.py
+++ b/python/paddle/hapi/dynamic_flops.py
--- a/python/paddle/hapi/model.py
+++ b/python/paddle/hapi/model.py
--- a/python/paddle/hapi/model_summary.py
+++ b/python/paddle/hapi/model_summary.py
--- a/python/paddle/hapi/static_flops.py
+++ b/python/paddle/hapi/static_flops.py
--- a/python/paddle/incubate/autograd/functional.py
+++ b/python/paddle/incubate/autograd/functional.py
--- a/python/paddle/incubate/distributed/models/moe/grad_clip.py
+++ b/python/paddle/incubate/distributed/models/moe/grad_clip.py
--- a/python/paddle/incubate/distributed/models/moe/moe_layer.py
+++ b/python/paddle/incubate/distributed/models/moe/moe_layer.py
--- a/python/paddle/incubate/nn/layer/fused_linear.py
+++ b/python/paddle/incubate/nn/layer/fused_linear.py
--- a/python/paddle/incubate/nn/layer/fused_transformer.py
+++ b/python/paddle/incubate/nn/layer/fused_transformer.py
--- a/python/paddle/incubate/operators/resnet_unit.py
+++ b/python/paddle/incubate/operators/resnet_unit.py
--- a/python/paddle/incubate/optimizer/distributed_fused_lamb.py
+++ b/python/paddle/incubate/optimizer/distributed_fused_lamb.py
--- a/python/paddle/incubate/optimizer/lookahead.py
+++ b/python/paddle/incubate/optimizer/lookahead.py
--- a/python/paddle/incubate/optimizer/modelaverage.py
+++ b/python/paddle/incubate/optimizer/modelaverage.py
--- a/python/paddle/incubate/xpu/resnet_block.py
+++ b/python/paddle/incubate/xpu/resnet_block.py
--- a/python/paddle/metric/metrics.py
+++ b/python/paddle/metric/metrics.py
--- a/python/paddle/nn/initializer/assign.py
+++ b/python/paddle/nn/initializer/assign.py
--- a/python/paddle/nn/initializer/constant.py
+++ b/python/paddle/nn/initializer/constant.py
--- a/python/paddle/nn/initializer/dirac.py
+++ b/python/paddle/nn/initializer/dirac.py
--- a/python/paddle/nn/initializer/kaiming.py
+++ b/python/paddle/nn/initializer/kaiming.py
--- a/python/paddle/nn/initializer/normal.py
+++ b/python/paddle/nn/initializer/normal.py
--- a/python/paddle/nn/initializer/orthogonal.py
+++ b/python/paddle/nn/initializer/orthogonal.py
--- a/python/paddle/nn/initializer/uniform.py
+++ b/python/paddle/nn/initializer/uniform.py
--- a/python/paddle/nn/initializer/xavier.py
+++ b/python/paddle/nn/initializer/xavier.py
--- a/python/paddle/nn/layer/activation.py
+++ b/python/paddle/nn/layer/activation.py
--- a/python/paddle/nn/layer/common.py
+++ b/python/paddle/nn/layer/common.py
--- a/python/paddle/nn/layer/container.py
+++ b/python/paddle/nn/layer/container.py
--- a/python/paddle/nn/layer/conv.py
+++ b/python/paddle/nn/layer/conv.py
--- a/python/paddle/nn/layer/distance.py
+++ b/python/paddle/nn/layer/distance.py
--- a/python/paddle/nn/layer/loss.py
+++ b/python/paddle/nn/layer/loss.py
--- a/python/paddle/nn/layer/norm.py
+++ b/python/paddle/nn/layer/norm.py
--- a/python/paddle/nn/layer/pooling.py
+++ b/python/paddle/nn/layer/pooling.py
--- a/python/paddle/nn/layer/rnn.py
+++ b/python/paddle/nn/layer/rnn.py
--- a/python/paddle/nn/layer/transformer.py
+++ b/python/paddle/nn/layer/transformer.py
--- a/python/paddle/nn/layer/vision.py
+++ b/python/paddle/nn/layer/vision.py
--- a/python/paddle/nn/quant/functional_layers.py
+++ b/python/paddle/nn/quant/functional_layers.py
--- a/python/paddle/nn/quant/lsq.py
+++ b/python/paddle/nn/quant/lsq.py
--- a/python/paddle/nn/quant/quant_layers.py
+++ b/python/paddle/nn/quant/quant_layers.py
--- a/python/paddle/onnx/export.py
+++ b/python/paddle/onnx/export.py
--- a/python/paddle/optimizer/adadelta.py
+++ b/python/paddle/optimizer/adadelta.py
--- a/python/paddle/optimizer/adagrad.py
+++ b/python/paddle/optimizer/adagrad.py
--- a/python/paddle/optimizer/adam.py
+++ b/python/paddle/optimizer/adam.py
--- a/python/paddle/optimizer/adamax.py
+++ b/python/paddle/optimizer/adamax.py
--- a/python/paddle/optimizer/lamb.py
+++ b/python/paddle/optimizer/lamb.py
--- a/python/paddle/optimizer/lr.py
+++ b/python/paddle/optimizer/lr.py
--- a/python/paddle/optimizer/momentum.py
+++ b/python/paddle/optimizer/momentum.py
--- a/python/paddle/optimizer/rmsprop.py
+++ b/python/paddle/optimizer/rmsprop.py
--- a/python/paddle/optimizer/sgd.py
+++ b/python/paddle/optimizer/sgd.py
--- a/python/paddle/profiler/profiler.py
+++ b/python/paddle/profiler/profiler.py
--- a/python/paddle/regularizer.py
+++ b/python/paddle/regularizer.py
--- a/python/paddle/sparse/nn/layer/activation.py
+++ b/python/paddle/sparse/nn/layer/activation.py
--- a/python/paddle/sparse/nn/layer/conv.py
+++ b/python/paddle/sparse/nn/layer/conv.py
--- a/python/paddle/sparse/nn/layer/norm.py
+++ b/python/paddle/sparse/nn/layer/norm.py
--- a/python/paddle/sparse/nn/layer/pooling.py
+++ b/python/paddle/sparse/nn/layer/pooling.py
--- a/python/paddle/tests/dist_hapi_mnist_dynamic.py
+++ b/python/paddle/tests/dist_hapi_mnist_dynamic.py
--- a/python/paddle/tests/dist_hapi_mnist_static.py
+++ b/python/paddle/tests/dist_hapi_mnist_static.py
--- a/python/paddle/tests/hapi_mnist_bf16_static.py
+++ b/python/paddle/tests/hapi_mnist_bf16_static.py
--- a/python/paddle/tests/test_callback_early_stop.py
+++ b/python/paddle/tests/test_callback_early_stop.py
--- a/python/paddle/tests/test_callbacks.py
+++ b/python/paddle/tests/test_callbacks.py
--- a/python/paddle/tests/test_hapi_hub_model.py
+++ b/python/paddle/tests/test_hapi_hub_model.py
--- a/python/paddle/tests/test_model.py
+++ b/python/paddle/tests/test_model.py
--- a/python/paddle/text/datasets/conll05.py
+++ b/python/paddle/text/datasets/conll05.py
--- a/python/paddle/text/datasets/imdb.py
+++ b/python/paddle/text/datasets/imdb.py
--- a/python/paddle/text/datasets/imikolov.py
+++ b/python/paddle/text/datasets/imikolov.py
--- a/python/paddle/text/datasets/movielens.py
+++ b/python/paddle/text/datasets/movielens.py
--- a/python/paddle/text/datasets/uci_housing.py
+++ b/python/paddle/text/datasets/uci_housing.py
--- a/python/paddle/text/datasets/wmt14.py
+++ b/python/paddle/text/datasets/wmt14.py
--- a/python/paddle/text/datasets/wmt16.py
+++ b/python/paddle/text/datasets/wmt16.py
--- a/python/paddle/text/viterbi_decode.py
+++ b/python/paddle/text/viterbi_decode.py
--- a/python/paddle/utils/cpp_extension/cpp_extension.py
+++ b/python/paddle/utils/cpp_extension/cpp_extension.py
--- a/python/paddle/vision/datasets/cifar.py
+++ b/python/paddle/vision/datasets/cifar.py
--- a/python/paddle/vision/models/alexnet.py
+++ b/python/paddle/vision/models/alexnet.py
--- a/python/paddle/vision/models/densenet.py
+++ b/python/paddle/vision/models/densenet.py
--- a/python/paddle/vision/models/googlenet.py
+++ b/python/paddle/vision/models/googlenet.py
--- a/python/paddle/vision/models/lenet.py
+++ b/python/paddle/vision/models/lenet.py
--- a/python/paddle/vision/models/mobilenetv1.py
+++ b/python/paddle/vision/models/mobilenetv1.py
--- a/python/paddle/vision/models/mobilenetv2.py
+++ b/python/paddle/vision/models/mobilenetv2.py
--- a/python/paddle/vision/models/resnet.py
+++ b/python/paddle/vision/models/resnet.py
--- a/python/paddle/vision/models/shufflenetv2.py
+++ b/python/paddle/vision/models/shufflenetv2.py
--- a/python/paddle/vision/models/squeezenet.py
+++ b/python/paddle/vision/models/squeezenet.py
--- a/python/paddle/vision/models/vgg.py
+++ b/python/paddle/vision/models/vgg.py
--- a/python/paddle/vision/ops.py
+++ b/python/paddle/vision/ops.py
--- a/python/paddle/vision/transforms/transforms.py
+++ b/python/paddle/vision/transforms/transforms.py