diff --git a/fluid/deep_attention_matching_net/train_and_evaluate.py b/fluid/deep_attention_matching_net/train_and_evaluate.py
index 9153051d0b13a4e60b0d037d4941deba1b66f1a8..3e46d6e1fad148ffa56245d7aa8b62e81bb98033 100644
--- a/fluid/deep_attention_matching_net/train_and_evaluate.py
+++ b/fluid/deep_attention_matching_net/train_and_evaluate.py
@@ -128,7 +128,7 @@ def train(args):
         dev_count = fluid.core.get_cuda_device_count()
     else:
         place = fluid.CPUPlace()
-        dev_count = multiprocessing.cpu_count()
+        dev_count = int(os.environ.get('CPU_NUM', multiprocessing.cpu_count()))
 
     print("device count %d" % dev_count)
 
diff --git a/fluid/deep_attention_matching_net/utils/layers.py b/fluid/deep_attention_matching_net/utils/layers.py
index e94308f775f62461ef640095a1c0a7816b739629..530c6ba5f7b617f99321342102c64a175ed1a651 100644
--- a/fluid/deep_attention_matching_net/utils/layers.py
+++ b/fluid/deep_attention_matching_net/utils/layers.py
@@ -82,7 +82,10 @@ def dot_product_attention(query,
         else:
             mask = fluid.layers.matmul(x=q_mask, y=k_mask, transpose_y=True)
             another_mask = fluid.layers.scale(
-                mask, scale=2**32 - 1, bias=-1, bias_after_scale=False)
+                mask,
+                scale=float(2**32 - 1),
+                bias=float(-1),
+                bias_after_scale=False)
             if mask_cache is not None:
                 if q_mask.name not in mask_cache:
                     mask_cache[q_mask.name] = dict()