diff --git a/python/paddle/incubate/optimizer/distributed_fused_lamb.py b/python/paddle/incubate/optimizer/distributed_fused_lamb.py
index f8e3b55aba6213658bfb730202087711e2de6ab8..60661700e13eae0a262ddaba9c7dd42187d916a0 100644
--- a/python/paddle/incubate/optimizer/distributed_fused_lamb.py
+++ b/python/paddle/incubate/optimizer/distributed_fused_lamb.py
@@ -19,7 +19,6 @@ from paddle.fluid.clip import ClipGradByGlobalNorm
 from paddle.fluid.initializer import Constant
 from paddle.fluid.layer_helper import LayerHelper
 from paddle.fluid.optimizer import Optimizer
-import paddle.distributed as dist
 from paddle.distributed.collective import new_group
 from paddle.fluid.executor import global_scope
 from paddle.fluid.framework import name_scope
@@ -288,8 +287,9 @@ class DistributedFusedLamb(Optimizer):
 
         step = self._get_or_create_step()
 
-        rank = dist.get_rank()
-        nranks = dist.get_world_size()
+        from paddle.distributed import get_rank, get_world_size
+        rank = get_rank()
+        nranks = get_world_size()
         if self._nproc_per_node is None:
             nproc_per_node = nranks
         else: