make sharding reduce mode by default (#55529)

* make sharding reduce mode by default * Update dygraph_sharding_optimizer.py * Update hybrid_parallel_optimizer.py * Update pipeline_parallel.py

make sharding reduce mode by default (#55529)
* make sharding reduce mode by default * Update dygraph_sharding_optimizer.py * Update hybrid_parallel_optimizer.py * Update pipeline_parallel.py
9daba606 · sneaxiy · GitHub · 8d42540f · 9daba606 · 9daba606
3 changed file
--- a/python/paddle/distributed/fleet/meta_optimizers/dygraph_optimizer/dygraph_sharding_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/dygraph_optimizer/dygraph_sharding_optimizer.py
@@ -24,10 +24,8 @@ from paddle.fluid.dygraph import base as imperative_base

 from ...utils.log_util import logger

-g_shard_use_reduce = int(os.environ.get("FLAGS_shard_use_reduce", 0))
-logger.info(f"g_shard_use_reduce {g_shard_use_reduce}")
-g_shard_norm_align_dp = int(os.environ.get("FLAGS_shard_norm_align_dp", 1))
-logger.info(f"g_shard_norm_align_dp {g_shard_norm_align_dp}")
+g_shard_use_reduce = int(os.environ.get("FLAGS_shard_use_reduce", 1))
+g_shard_norm_align_dp = int(os.environ.get("FLAGS_shard_norm_align_dp", 0))

 if g_shard_norm_align_dp:
    assert (

--- a/python/paddle/distributed/fleet/meta_optimizers/dygraph_optimizer/hybrid_parallel_optimizer.py
+++ b/python/paddle/distributed/fleet/meta_optimizers/dygraph_optimizer/hybrid_parallel_optimizer.py
@@ -41,8 +41,7 @@ from ...utils.mix_precision_utils import MixPrecisionOptimizer

 __all__ = []

-g_shard_norm_align_dp = int(os.environ.get("FLAGS_shard_norm_align_dp", 1))
-logger.info(f"g_shard_norm_align_dp {g_shard_norm_align_dp}")
+g_shard_norm_align_dp = int(os.environ.get("FLAGS_shard_norm_align_dp", 0))


 class HybridParallelClipGrad:

--- a/python/paddle/distributed/fleet/meta_parallel/pipeline_parallel.py
+++ b/python/paddle/distributed/fleet/meta_parallel/pipeline_parallel.py
@@ -31,8 +31,7 @@ from .pp_utils.utils import HOOK_ACTION, FusedCommBuffer, assign_group_by_size

 __all__ = []

-g_shard_use_reduce = int(os.environ.get("FLAGS_shard_use_reduce", 0))
-logger.info(f"g_shard_use_reduce {g_shard_use_reduce}")
+g_shard_use_reduce = int(os.environ.get("FLAGS_shard_use_reduce", 1))


 # assume only the first stage and last stage need data, and data consumption are ordred;