diff --git a/paddle/phi/kernels/gpu/index_sample_grad_kernel.cu b/paddle/phi/kernels/gpu/index_sample_grad_kernel.cu
old mode 100644
new mode 100755
diff --git a/paddle/phi/kernels/gpu/index_sample_kernel.cu b/paddle/phi/kernels/gpu/index_sample_kernel.cu
old mode 100644
new mode 100755
diff --git a/python/paddle/distributed/fleet/base/distributed_strategy.py b/python/paddle/distributed/fleet/base/distributed_strategy.py
index 34207f6ce6f3115cc08edbb6866e9a55885da0b5..32656c19a38dc0ab90228fd4e48f405382ac0a4a 100755
--- a/python/paddle/distributed/fleet/base/distributed_strategy.py
+++ b/python/paddle/distributed/fleet/base/distributed_strategy.py
@@ -103,7 +103,7 @@ class DistributedJobInfo:
         self.job_info.strategy = dist_strategy
 
 
-ReduceStrategyFluid = paddle.fluid.BuildStrategy.ReduceStrategy
+ReduceStrategyFluid = paddle.static.BuildStrategy.ReduceStrategy
 ReduceStrategyFleet = int
 
 
@@ -207,7 +207,7 @@ class DistributedStrategy:
                 strategy.execution_strategy = exe_strategy
 
         """
-        execution_strategy = paddle.fluid.ExecutionStrategy()
+        execution_strategy = paddle.static.ExecutionStrategy()
         fields = self.strategy.execution_strategy.DESCRIPTOR.fields
         for f in fields:
             setattr(
@@ -255,7 +255,7 @@ class DistributedStrategy:
 
         """
 
-        build_strategy = paddle.fluid.BuildStrategy()
+        build_strategy = paddle.static.BuildStrategy()
         fields = self.strategy.build_strategy.DESCRIPTOR.fields
         for f in fields:
             value = getattr(self.strategy.build_strategy, f.name)
diff --git a/python/paddle/distributed/fleet/base/role_maker.py b/python/paddle/distributed/fleet/base/role_maker.py
index b001c5482fdfc7af804f89728f9e644db05bd233..e29cee04fca03c49a36f325c66baf306c9fa1e85 100755
--- a/python/paddle/distributed/fleet/base/role_maker.py
+++ b/python/paddle/distributed/fleet/base/role_maker.py
@@ -19,7 +19,7 @@ import warnings
 from multiprocessing import Process, Manager
 
 import paddle
-import paddle.fluid as fluid
+import paddle.fluid.core as core
 from paddle.distributed.fleet.base.private_helper_function import (
     wait_server_ready,
 )
@@ -128,7 +128,7 @@ class Gloo:
 
     def _init_fs(self, fs_path, prefix):
         def init(rank, nodes, role):
-            gloo = fluid.core.Gloo()
+            gloo = core.Gloo()
             gloo.set_rank(rank)
             gloo.set_size(nodes)
             gloo.set_prefix(prefix)
@@ -156,7 +156,7 @@ class Gloo:
 
     def _init_dfs(self, dfs_name, dfs_ugi, dfs_path, prefix):
         def init(rank, nodes, role):
-            gloo = fluid.core.Gloo()
+            gloo = core.Gloo()
             gloo.set_rank(rank)
             gloo.set_size(nodes)
             gloo.set_prefix(prefix)
@@ -216,7 +216,7 @@ class Gloo:
             return _http_server
 
         def init(rank, nodes, role):
-            gloo = fluid.core.Gloo()
+            gloo = core.Gloo()
             gloo.set_rank(rank)
             gloo.set_size(nodes)
             gloo.set_prefix(prefix)
@@ -1175,7 +1175,7 @@ class PaddleCloudRoleMaker(RoleMakerBase):
             else:
                 self._collective_env()
             self._role_is_generated = True
-            if not paddle.fluid.framework._non_static_mode():
+            if not paddle.framework.in_dynamic_mode():
                 self._gloo_init()
 
 
diff --git a/python/paddle/distributed/fleet/base/util_factory.py b/python/paddle/distributed/fleet/base/util_factory.py
index 8717619eafe357252fb737a3b693ce32a62ab1a7..1f9a0c8d5f30c7135181933001c42488b16258a7 100755
--- a/python/paddle/distributed/fleet/base/util_factory.py
+++ b/python/paddle/distributed/fleet/base/util_factory.py
@@ -16,12 +16,13 @@
 """basic collective operations in python"""
 """remote file system"""
 
+import paddle
 from ..utils.fs import FS
 from paddle.fluid.proto import framework_pb2
-from paddle.fluid.framework import Program
+from paddle.static import Program
 from paddle.fluid import debugger
 from google.protobuf import text_format
-import paddle.fluid as fluid
+import paddle.framework as framework
 from collections import OrderedDict
 from paddle.fluid import core
 import subprocess
@@ -376,7 +377,7 @@ class UtilBase:
         pruned_vars = [
             (v.name, v)
             for v in pruned_prog.list_vars()
-            if fluid.io.is_persistable(v)
+            if paddle.static.io.is_persistable(v)
         ]
         pruned_vars = OrderedDict(pruned_vars)
         pruned_vars_name = [name for name in pruned_vars]
@@ -460,7 +461,7 @@ class UtilBase:
             )
 
         saved_params = [
-            v for v in prog.list_vars() if fluid.io.is_persistable(v)
+            v for v in prog.list_vars() if paddle.static.io.is_persistable(v)
         ]
         print(
             "persistable vars in dump program: {}".format(
@@ -487,15 +488,15 @@ class UtilBase:
             )
             return False
 
-        place = fluid.CPUPlace()
-        exe = fluid.Executor(place)
-        scope = fluid.core.Scope()
-        with fluid.scope_guard(scope):
+        place = framework.CPUPlace()
+        exe = paddle.static.Executor(place)
+        scope = paddle.static.Scope()
+        with paddle.static.scope_guard(scope):
             (
                 inference_program,
                 feed_target_names,
                 fetch_targets,
-            ) = fluid.io.load_inference_model(
+            ) = paddle.fluid.io.load_inference_model(
                 config.dump_model_dir,
                 exe,
                 model_filename=model_filename,
@@ -508,7 +509,7 @@ class UtilBase:
                 for each_var in saved_params
             }
             for each_var in saved_params:
-                var_temp = fluid.global_scope().find_var(each_var.name)
+                var_temp = paddle.static.global_scope().find_var(each_var.name)
                 assert var_temp is not None, (
                     "can't not find var: " + each_var.name
                 )
@@ -639,7 +640,7 @@ class UtilBase:
                             dtype=feed_config.feeded_vars_types[i],
                         )
                         feed_tensors.append(
-                            fluid.create_lod_tensor(
+                            paddle.fluid.create_lod_tensor(
                                 t, [[1] * config.batch_size], place
                             )
                         )
@@ -668,7 +669,9 @@ class UtilBase:
                     )
                     for i in range(len(feed_config.feeded_vars_names))
                 ]
-                feeder = fluid.DataFeeder(feed_list=feed_vars, place=place)
+                feeder = paddle.fluid.DataFeeder(
+                    feed_list=feed_vars, place=place
+                )
                 batch_feed = feed_gen(
                     config.batch_size,
                     feed_config.feeded_vars_dims,
diff --git a/python/paddle/distributed/fleet/layers/mpu/mp_layers.py b/python/paddle/distributed/fleet/layers/mpu/mp_layers.py
index 8224d2a7b98a0941dbc2916f260863d9096e51cb..acbd95f8ff50a32681dffa61e57329740657a259 100644
--- a/python/paddle/distributed/fleet/layers/mpu/mp_layers.py
+++ b/python/paddle/distributed/fleet/layers/mpu/mp_layers.py
@@ -15,7 +15,7 @@
 import paddle
 from . import mp_ops
 from paddle.fluid import core
-from paddle.fluid.dygraph.layers import Layer
+from paddle.nn import Layer
 from .random import get_rng_state_tracker
 from paddle.nn import functional as F
 from ...base import topology as tp
diff --git a/python/paddle/distributed/fleet/layers/mpu/mp_ops.py b/python/paddle/distributed/fleet/layers/mpu/mp_ops.py
index 83ba760c9e0a788a51133c49f7004f99053bc7d1..8a463e996604e79f016e9c23a34b96af8e60043f 100644
--- a/python/paddle/distributed/fleet/layers/mpu/mp_ops.py
+++ b/python/paddle/distributed/fleet/layers/mpu/mp_ops.py
@@ -15,17 +15,17 @@
 import paddle
 from paddle import _legacy_C_ops
 from paddle.fluid import core
-from paddle.fluid.framework import _non_static_mode
-from paddle.fluid.framework import _in_legacy_dygraph
-from paddle.fluid.framework import in_dygraph_mode
-from paddle.fluid.framework import _varbase_creator
-from paddle.fluid.layer_helper import LayerHelper
+from paddle.framework import in_dynamic_mode
+from paddle.framework import _in_legacy_dygraph
+from paddle.framework import in_dygraph_mode
+from paddle.framework import _varbase_creator
+from paddle.framework import LayerHelper
 from paddle.fluid.data_feeder import check_variable_and_dtype
-from paddle.fluid.dygraph import layers
+from paddle.nn import Layer
 from paddle.distributed import collective
 from ....communication.reduce import ReduceOp, _get_reduce_op
 from paddle.fluid.data_feeder import check_dtype
-import paddle.fluid.dygraph_utils as dygraph_utils
+from paddle.common_ops_import import dygraph_utils
 
 
 def _c_identity(tensor, group=None):
@@ -123,7 +123,7 @@ def _c_concat(tensor, group=None):
     rank = group.rank
     nranks = group.nranks
 
-    if _non_static_mode():
+    if in_dynamic_mode():
         return _legacy_C_ops.c_concat(
             tensor,
             'ring_id',
@@ -189,7 +189,7 @@ def _c_split(tensor, group=None):
         else group.nranks
     )
 
-    if _non_static_mode():
+    if in_dynamic_mode():
         return _legacy_C_ops.c_split(
             tensor,
             'use_calc_stream',
@@ -335,7 +335,7 @@ def _c_lookup_table(table, index, start_index=0, name=None):
     Returns:
         Tensor.
     """
-    if _non_static_mode():
+    if in_dynamic_mode():
         return _legacy_C_ops.c_embedding(
             table, index, "start_index", start_index
         )
@@ -354,7 +354,7 @@ def _c_lookup_table(table, index, start_index=0, name=None):
     return tmp
 
 
-class _Linear(layers.Layer):
+class _Linear(Layer):
     """
     Linear
     """
@@ -424,7 +424,7 @@ def _c_softmax_with_cross_entropy(
     if input_dims - 1 == label_dims:
         label = paddle.unsqueeze(label, axis=-1)
 
-    if _non_static_mode():
+    if in_dynamic_mode():
         softmax, loss = _legacy_C_ops.c_softmax_with_cross_entropy(
             logits, label, 'ring_id', ring_id, 'rank', rank, 'nranks', nranks
         )
@@ -458,7 +458,7 @@ def _linear(x, weight, bias=None, name=None):
     """
     Fuction Linear
     """
-    if _non_static_mode():
+    if in_dynamic_mode():
         pre_bias = _varbase_creator(dtype=x.dtype)
         _legacy_C_ops.matmul(
             x,
@@ -825,7 +825,7 @@ def split(
             supported_operations
         )
     )
-    if _non_static_mode():
+    if in_dynamic_mode():
         raise ValueError(
             "paddle.distributed.split cannot be used in dynamic "
             "graph mode, plese use ParallelEmbedding, ParallelRowLinear, "
diff --git a/python/paddle/distributed/fleet/layers/mpu/random.py b/python/paddle/distributed/fleet/layers/mpu/random.py
index 17442c1938a1d3264da80e3a05a19c5c41ed63d7..5661804a27966717c13f802cd93011dd831c9f37 100644
--- a/python/paddle/distributed/fleet/layers/mpu/random.py
+++ b/python/paddle/distributed/fleet/layers/mpu/random.py
@@ -18,8 +18,9 @@ import contextlib
 from paddle import _legacy_C_ops
 from paddle.fluid import core
 from paddle.fluid.data_feeder import check_variable_and_dtype
-from paddle.fluid.framework import Variable, _non_static_mode
-from paddle.fluid.layer_helper import LayerHelper
+from paddle.static import Variable
+from paddle.framework import in_dynamic_mode
+from paddle.framework import LayerHelper
 
 __all__ = []
 
@@ -209,7 +210,7 @@ def dropout(
     )  # semantic transfer
 
     # dygraph using tracker, doesn't need determinate seed
-    if _non_static_mode():
+    if in_dynamic_mode():
         out, mask = _legacy_C_ops.dropout(
             x,
             'dropout_prob',
diff --git a/python/paddle/distributed/fleet/meta_optimizers/raw_program_optimizer.py b/python/paddle/distributed/fleet/meta_optimizers/raw_program_optimizer.py
index c16f60139dbe4a98da9f749994d8bfe6f03d4588..6b1425c703f970ce6194c8ea154fb12e8e2dba2b 100755
--- a/python/paddle/distributed/fleet/meta_optimizers/raw_program_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/raw_program_optimizer.py
@@ -11,8 +11,9 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 
-import paddle.fluid as fluid
-from paddle.fluid import core, unique_name
+import paddle.static as static
+from paddle.fluid import core
+from paddle.utils import unique_name
 from .meta_optimizer_base import MetaOptimizerBase
 from .common import (
     OpRole,
@@ -132,7 +133,7 @@ class RawProgramOptimizer(MetaOptimizerBase):
         self.rank = self.role_maker._worker_index()
         self.nranks = self.role_maker._worker_num()
         if startup_program is None:
-            startup_program = fluid.default_startup_program()
+            startup_program = static.default_startup_program()
         self.startup_program = startup_program
 
         block = loss.block
diff --git a/python/paddle/distributed/fleet/meta_optimizers/sharding_optimizer.py b/python/paddle/distributed/fleet/meta_optimizers/sharding_optimizer.py
index fe11a788c51e1cf163e2c686c8ec140469e5d728..05fa6e16ca51a095af4bfabfbc328e7ddc4f2966 100755
--- a/python/paddle/distributed/fleet/meta_optimizers/sharding_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/sharding_optimizer.py
@@ -13,10 +13,11 @@
 # limitations under the License.
 
 import os
-from paddle.fluid import unique_name, core
-import paddle.fluid as fluid
+from paddle.fluid import core
+from paddle.utils import unique_name
+from paddle.fluid.optimizer import PipelineOptimizer
 from paddle.static import default_startup_program, device_guard
-from paddle.fluid import layers
+from paddle.static import create_global_var
 
 from .common import OpRole, OP_ROLE_VAR_KEY, CollectiveHelper, OP_ROLE_KEY
 from .common import is_backward_op, is_optimizer_op, is_update_op
@@ -275,7 +276,7 @@ class ShardingOptimizer(MetaOptimizerBase):
             )
 
         if self.pp_degree > 1:
-            pp_optimizer = fluid.optimizer.PipelineOptimizer(
+            pp_optimizer = PipelineOptimizer(
                 self.inner_opt, self._gradient_merge_acc_step
             )
             self._pp_optimizer = pp_optimizer
@@ -1916,7 +1917,7 @@ class ShardingOptimizer(MetaOptimizerBase):
 
     def _create_gm_cond(self, main_block):
         # Add const var
-        acc_step_var = layers.create_global_var(
+        acc_step_var = create_global_var(
             name="gradient_merge_acc_step",
             shape=[1],
             value=int(self._gradient_merge_acc_step),
@@ -1925,7 +1926,7 @@ class ShardingOptimizer(MetaOptimizerBase):
             force_cpu=True,
         )
 
-        zero_var = layers.create_global_var(
+        zero_var = create_global_var(
             name="gradient_merge_zero",
             shape=[1],
             value=int(0),
@@ -1935,7 +1936,7 @@ class ShardingOptimizer(MetaOptimizerBase):
         )
 
         # Add step var & cond var
-        current_step_var = layers.create_global_var(
+        current_step_var = create_global_var(
             name="gradient_merge_current_step",
             shape=[1],
             value=int(0),
diff --git a/python/paddle/distributed/fleet/meta_optimizers/tensor_parallel_optimizer.py b/python/paddle/distributed/fleet/meta_optimizers/tensor_parallel_optimizer.py
index f798a6d3f430ec1512da54ae88740d35aacf21e6..41ef5f6190ebf9d36616e55132110355137c046b 100644
--- a/python/paddle/distributed/fleet/meta_optimizers/tensor_parallel_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/tensor_parallel_optimizer.py
@@ -11,7 +11,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 
-import paddle.fluid as fluid
+import paddle.static as static
 from .meta_optimizer_base import MetaOptimizerBase
 from .common import (
     CollectiveHelper,
@@ -174,7 +174,7 @@ class TensorParallelOptimizer(MetaOptimizerBase):
         self.current_endpoint = self.endpoints[self.role_maker._worker_index()]
         self.startup_program = startup_program
         if startup_program is None:
-            self.startup_program = fluid.default_startup_program()
+            self.startup_program = static.default_startup_program()
 
         optimize_ops, params_grads = self.inner_opt.minimize(
             loss, self.startup_program, parameter_list, no_grad_set
diff --git a/python/paddle/fluid/tests/unittests/test_index_sample_op.py b/python/paddle/fluid/tests/unittests/test_index_sample_op.py
old mode 100644
new mode 100755
diff --git a/python/paddle/tensor/search.py b/python/paddle/tensor/search.py
old mode 100644
new mode 100755