[Fluid clean] (#48105)

* add index sample fp16 support * remove fluid APIs in distributed_strategy.py and role_maker.py * Revert "remove fluid APIs in distributed_strategy.py and role_maker.py" This reverts commit 223bbee990d3bf69e252fc3c0f19e3873550a264. * remove fluid APIs in distributed_strategy.py and role_maker.py * remove index sample op changes * remove fluid APIs under fleet.base * remove fluid APIs under fleet.layers.mpu * remove fluid APIs under fleet.meta_optimizers * fix fluid error * fix util_factory.py * reset fluid.io.load_inference_model API

[Fluid clean] (#48105)
* add index sample fp16 support * remove fluid APIs in distributed_strategy.py and role_maker.py * Revert "remove fluid APIs in distributed_strategy.py and role_maker.py" This reverts commit 223bbee990d3bf69e252fc3c0f19e3873550a264. * remove fluid APIs in distributed_strategy.py and role_maker.py * remove index sample op changes * remove fluid APIs under fleet.base * remove fluid APIs under fleet.layers.mpu * remove fluid APIs under fleet.meta_optimizers * fix fluid error * fix util_factory.py * reset fluid.io.load_inference_model API
43b92b63 · wangxiaoning · GitHub · f3a93e51 · 43b92b63 · 43b92b63
13 changed file
--- a/paddle/phi/kernels/gpu/index_sample_grad_kernel.cu
+++ b/paddle/phi/kernels/gpu/index_sample_grad_kernel.cu
--- a/paddle/phi/kernels/gpu/index_sample_kernel.cu
+++ b/paddle/phi/kernels/gpu/index_sample_kernel.cu
--- a/python/paddle/distributed/fleet/base/distributed_strategy.py
+++ b/python/paddle/distributed/fleet/base/distributed_strategy.py
@@ -103,7 +103,7 @@ class DistributedJobInfo:
        self.job_info.strategy = dist_strategy


-ReduceStrategyFluid = paddle.fluid.BuildStrategy.ReduceStrategy
+ReduceStrategyFluid = paddle.static.BuildStrategy.ReduceStrategy
 ReduceStrategyFleet = int


@@ -207,7 +207,7 @@ class DistributedStrategy:
                strategy.execution_strategy = exe_strategy

        """
-        execution_strategy = paddle.fluid.ExecutionStrategy()
+        execution_strategy = paddle.static.ExecutionStrategy()
        fields = self.strategy.execution_strategy.DESCRIPTOR.fields
        for f in fields:
            setattr(
@@ -255,7 +255,7 @@ class DistributedStrategy:

        """

-        build_strategy = paddle.fluid.BuildStrategy()
+        build_strategy = paddle.static.BuildStrategy()
        fields = self.strategy.build_strategy.DESCRIPTOR.fields
        for f in fields:
            value = getattr(self.strategy.build_strategy, f.name)

--- a/python/paddle/distributed/fleet/base/role_maker.py
+++ b/python/paddle/distributed/fleet/base/role_maker.py
@@ -19,7 +19,7 @@ import warnings
 from multiprocessing import Process, Manager

 import paddle
-import paddle.fluid as fluid
+import paddle.fluid.core as core
 from paddle.distributed.fleet.base.private_helper_function import (
    wait_server_ready,
 )
@@ -128,7 +128,7 @@ class Gloo:

    def _init_fs(self, fs_path, prefix):
        def init(rank, nodes, role):
-            gloo = fluid.core.Gloo()
+            gloo = core.Gloo()
            gloo.set_rank(rank)
            gloo.set_size(nodes)
            gloo.set_prefix(prefix)
@@ -156,7 +156,7 @@ class Gloo:

    def _init_dfs(self, dfs_name, dfs_ugi, dfs_path, prefix):
        def init(rank, nodes, role):
-            gloo = fluid.core.Gloo()
+            gloo = core.Gloo()
            gloo.set_rank(rank)
            gloo.set_size(nodes)
            gloo.set_prefix(prefix)
@@ -216,7 +216,7 @@ class Gloo:
            return _http_server

        def init(rank, nodes, role):
-            gloo = fluid.core.Gloo()
+            gloo = core.Gloo()
            gloo.set_rank(rank)
            gloo.set_size(nodes)
            gloo.set_prefix(prefix)
@@ -1175,7 +1175,7 @@ class PaddleCloudRoleMaker(RoleMakerBase):
            else:
                self._collective_env()
            self._role_is_generated = True
-            if not paddle.fluid.framework._non_static_mode():
+            if not paddle.framework.in_dynamic_mode():
                self._gloo_init()



--- a/python/paddle/distributed/fleet/base/util_factory.py
+++ b/python/paddle/distributed/fleet/base/util_factory.py
@@ -16,12 +16,13 @@
 """basic collective operations in python"""
 """remote file system"""

+import paddle
 from ..utils.fs import FS
 from paddle.fluid.proto import framework_pb2
-from paddle.fluid.framework import Program
+from paddle.static import Program
 from paddle.fluid import debugger
 from google.protobuf import text_format
-import paddle.fluid as fluid
+import paddle.framework as framework
 from collections import OrderedDict
 from paddle.fluid import core
 import subprocess
@@ -376,7 +377,7 @@ class UtilBase:
        pruned_vars = [
            (v.name, v)
            for v in pruned_prog.list_vars()
-            if fluid.io.is_persistable(v)
+            if paddle.static.io.is_persistable(v)
        ]
        pruned_vars = OrderedDict(pruned_vars)
        pruned_vars_name = [name for name in pruned_vars]
@@ -460,7 +461,7 @@ class UtilBase:
            )

        saved_params = [
-            v for v in prog.list_vars() if fluid.io.is_persistable(v)
+            v for v in prog.list_vars() if paddle.static.io.is_persistable(v)
        ]
        print(
            "persistable vars in dump program: {}".format(
@@ -487,15 +488,15 @@ class UtilBase:
            )
            return False

-        place = fluid.CPUPlace()
-        exe = fluid.Executor(place)
-        scope = fluid.core.Scope()
-        with fluid.scope_guard(scope):
+        place = framework.CPUPlace()
+        exe = paddle.static.Executor(place)
+        scope = paddle.static.Scope()
+        with paddle.static.scope_guard(scope):
            (
                inference_program,
                feed_target_names,
                fetch_targets,
-            ) = fluid.io.load_inference_model(
+            ) = paddle.fluid.io.load_inference_model(
                config.dump_model_dir,
                exe,
                model_filename=model_filename,
@@ -508,7 +509,7 @@ class UtilBase:
                for each_var in saved_params
            }
            for each_var in saved_params:
-                var_temp = fluid.global_scope().find_var(each_var.name)
+                var_temp = paddle.static.global_scope().find_var(each_var.name)
                assert var_temp is not None, (
                    "can't not find var: " + each_var.name
                )
@@ -639,7 +640,7 @@ class UtilBase:
                            dtype=feed_config.feeded_vars_types[i],
                        )
                        feed_tensors.append(
-                            fluid.create_lod_tensor(
+                            paddle.fluid.create_lod_tensor(
                                t, [[1] * config.batch_size], place
                            )
                        )
@@ -668,7 +669,9 @@ class UtilBase:
                    )
                    for i in range(len(feed_config.feeded_vars_names))
                ]
-                feeder = fluid.DataFeeder(feed_list=feed_vars, place=place)
+                feeder = paddle.fluid.DataFeeder(
+                    feed_list=feed_vars, place=place
+                )
                batch_feed = feed_gen(
                    config.batch_size,
                    feed_config.feeded_vars_dims,

--- a/python/paddle/distributed/fleet/layers/mpu/mp_layers.py
+++ b/python/paddle/distributed/fleet/layers/mpu/mp_layers.py
@@ -15,7 +15,7 @@
 import paddle
 from . import mp_ops
 from paddle.fluid import core
-from paddle.fluid.dygraph.layers import Layer
+from paddle.nn import Layer
 from .random import get_rng_state_tracker
 from paddle.nn import functional as F
 from ...base import topology as tp

--- a/python/paddle/distributed/fleet/layers/mpu/mp_ops.py
+++ b/python/paddle/distributed/fleet/layers/mpu/mp_ops.py
@@ -15,17 +15,17 @@
 import paddle
 from paddle import _legacy_C_ops
 from paddle.fluid import core
-from paddle.fluid.framework import _non_static_mode
-from paddle.fluid.framework import _in_legacy_dygraph
-from paddle.fluid.framework import in_dygraph_mode
-from paddle.fluid.framework import _varbase_creator
-from paddle.fluid.layer_helper import LayerHelper
+from paddle.framework import in_dynamic_mode
+from paddle.framework import _in_legacy_dygraph
+from paddle.framework import in_dygraph_mode
+from paddle.framework import _varbase_creator
+from paddle.framework import LayerHelper
 from paddle.fluid.data_feeder import check_variable_and_dtype
-from paddle.fluid.dygraph import layers
+from paddle.nn import Layer
 from paddle.distributed import collective
 from ....communication.reduce import ReduceOp, _get_reduce_op
 from paddle.fluid.data_feeder import check_dtype
-import paddle.fluid.dygraph_utils as dygraph_utils
+from paddle.common_ops_import import dygraph_utils


 def _c_identity(tensor, group=None):
@@ -123,7 +123,7 @@ def _c_concat(tensor, group=None):
    rank = group.rank
    nranks = group.nranks

-    if _non_static_mode():
+    if in_dynamic_mode():
        return _legacy_C_ops.c_concat(
            tensor,
            'ring_id',
@@ -189,7 +189,7 @@ def _c_split(tensor, group=None):
        else group.nranks
    )

-    if _non_static_mode():
+    if in_dynamic_mode():
        return _legacy_C_ops.c_split(
            tensor,
            'use_calc_stream',
@@ -335,7 +335,7 @@ def _c_lookup_table(table, index, start_index=0, name=None):
    Returns:
        Tensor.
    """
-    if _non_static_mode():
+    if in_dynamic_mode():
        return _legacy_C_ops.c_embedding(
            table, index, "start_index", start_index
        )
@@ -354,7 +354,7 @@ def _c_lookup_table(table, index, start_index=0, name=None):
    return tmp


-class _Linear(layers.Layer):
+class _Linear(Layer):
    """
    Linear
    """
@@ -424,7 +424,7 @@ def _c_softmax_with_cross_entropy(
    if input_dims - 1 == label_dims:
        label = paddle.unsqueeze(label, axis=-1)

-    if _non_static_mode():
+    if in_dynamic_mode():
        softmax, loss = _legacy_C_ops.c_softmax_with_cross_entropy(
            logits, label, 'ring_id', ring_id, 'rank', rank, 'nranks', nranks
        )
@@ -458,7 +458,7 @@ def _linear(x, weight, bias=None, name=None):
    """
    Fuction Linear
    """
-    if _non_static_mode():
+    if in_dynamic_mode():
        pre_bias = _varbase_creator(dtype=x.dtype)
        _legacy_C_ops.matmul(
            x,
@@ -825,7 +825,7 @@ def split(
            supported_operations
        )
    )
-    if _non_static_mode():
+    if in_dynamic_mode():
        raise ValueError(
            "paddle.distributed.split cannot be used in dynamic "
            "graph mode, plese use ParallelEmbedding, ParallelRowLinear, "

--- a/python/paddle/distributed/fleet/layers/mpu/random.py
+++ b/python/paddle/distributed/fleet/layers/mpu/random.py
@@ -18,8 +18,9 @@ import contextlib
 from paddle import _legacy_C_ops
 from paddle.fluid import core
 from paddle.fluid.data_feeder import check_variable_and_dtype
-from paddle.fluid.framework import Variable, _non_static_mode
-from paddle.fluid.layer_helper import LayerHelper
+from paddle.static import Variable
+from paddle.framework import in_dynamic_mode
+from paddle.framework import LayerHelper

 __all__ = []

@@ -209,7 +210,7 @@ def dropout(
    )  # semantic transfer

    # dygraph using tracker, doesn't need determinate seed
-    if _non_static_mode():
+    if in_dynamic_mode():
        out, mask = _legacy_C_ops.dropout(
            x,
            'dropout_prob',

--- a/python/paddle/distributed/fleet/meta_optimizers/raw_program_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/raw_program_optimizer.py
@@ -11,8 +11,9 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and

-import paddle.fluid as fluid
-from paddle.fluid import core, unique_name
+import paddle.static as static
+from paddle.fluid import core
+from paddle.utils import unique_name
 from .meta_optimizer_base import MetaOptimizerBase
 from .common import (
    OpRole,
@@ -132,7 +133,7 @@ class RawProgramOptimizer(MetaOptimizerBase):
        self.rank = self.role_maker._worker_index()
        self.nranks = self.role_maker._worker_num()
        if startup_program is None:
-            startup_program = fluid.default_startup_program()
+            startup_program = static.default_startup_program()
        self.startup_program = startup_program

        block = loss.block

--- a/python/paddle/distributed/fleet/meta_optimizers/sharding_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/sharding_optimizer.py
@@ -13,10 +13,11 @@
 # limitations under the License.

 import os
-from paddle.fluid import unique_name, core
-import paddle.fluid as fluid
+from paddle.fluid import core
+from paddle.utils import unique_name
+from paddle.fluid.optimizer import PipelineOptimizer
 from paddle.static import default_startup_program, device_guard
-from paddle.fluid import layers
+from paddle.static import create_global_var

 from .common import OpRole, OP_ROLE_VAR_KEY, CollectiveHelper, OP_ROLE_KEY
 from .common import is_backward_op, is_optimizer_op, is_update_op
@@ -275,7 +276,7 @@ class ShardingOptimizer(MetaOptimizerBase):
            )

        if self.pp_degree > 1:
-            pp_optimizer = fluid.optimizer.PipelineOptimizer(
+            pp_optimizer = PipelineOptimizer(
                self.inner_opt, self._gradient_merge_acc_step
            )
            self._pp_optimizer = pp_optimizer
@@ -1916,7 +1917,7 @@ class ShardingOptimizer(MetaOptimizerBase):

    def _create_gm_cond(self, main_block):
        # Add const var
-        acc_step_var = layers.create_global_var(
+        acc_step_var = create_global_var(
            name="gradient_merge_acc_step",
            shape=[1],
            value=int(self._gradient_merge_acc_step),
@@ -1925,7 +1926,7 @@ class ShardingOptimizer(MetaOptimizerBase):
            force_cpu=True,
        )

-        zero_var = layers.create_global_var(
+        zero_var = create_global_var(
            name="gradient_merge_zero",
            shape=[1],
            value=int(0),
@@ -1935,7 +1936,7 @@ class ShardingOptimizer(MetaOptimizerBase):
        )

        # Add step var & cond var
-        current_step_var = layers.create_global_var(
+        current_step_var = create_global_var(
            name="gradient_merge_current_step",
            shape=[1],
            value=int(0),

--- a/python/paddle/distributed/fleet/meta_optimizers/tensor_parallel_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/tensor_parallel_optimizer.py
@@ -11,7 +11,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and

-import paddle.fluid as fluid
+import paddle.static as static
 from .meta_optimizer_base import MetaOptimizerBase
 from .common import (
    CollectiveHelper,
@@ -174,7 +174,7 @@ class TensorParallelOptimizer(MetaOptimizerBase):
        self.current_endpoint = self.endpoints[self.role_maker._worker_index()]
        self.startup_program = startup_program
        if startup_program is None:
-            self.startup_program = fluid.default_startup_program()
+            self.startup_program = static.default_startup_program()

        optimize_ops, params_grads = self.inner_opt.minimize(
            loss, self.startup_program, parameter_list, no_grad_set

--- a/python/paddle/fluid/tests/unittests/test_index_sample_op.py
+++ b/python/paddle/fluid/tests/unittests/test_index_sample_op.py
--- a/python/paddle/tensor/search.py
+++ b/python/paddle/tensor/search.py