diff --git a/modules/image/text_to_image/disco_diffusion_clip_rn101/clip/clip/utils.py b/modules/image/text_to_image/disco_diffusion_clip_rn101/clip/clip/utils.py
index 53d5c44408ab3eaf6737db13da7940a4996986d2..54345bd6aa56bdec8ade199659396c860e9ee656 100755
--- a/modules/image/text_to_image/disco_diffusion_clip_rn101/clip/clip/utils.py
+++ b/modules/image/text_to_image/disco_diffusion_clip_rn101/clip/clip/utils.py
@@ -62,7 +62,7 @@ def tokenize(texts: Union[str, List[str]], context_length: int = 77):
     for i, tokens in enumerate(all_tokens):
         if len(tokens) > context_length:
             raise RuntimeError(f"Input {texts[i]} is too long for context length {context_length}")
-        result[i, :len(tokens)] = paddle.Tensor(np.array(tokens))
+        result[i, :len(tokens)] = paddle.to_tensor(np.array(tokens), dtype='int64')
 
     return result
 
diff --git a/modules/image/text_to_image/disco_diffusion_clip_rn50/clip/clip/utils.py b/modules/image/text_to_image/disco_diffusion_clip_rn50/clip/clip/utils.py
index 97978468226879dc26f80cb74b91f5c76bc315c6..0127c7cf2486a0763a03b4718c23d3b3c2d04676 100755
--- a/modules/image/text_to_image/disco_diffusion_clip_rn50/clip/clip/utils.py
+++ b/modules/image/text_to_image/disco_diffusion_clip_rn50/clip/clip/utils.py
@@ -62,7 +62,7 @@ def tokenize(texts: Union[str, List[str]], context_length: int = 77):
     for i, tokens in enumerate(all_tokens):
         if len(tokens) > context_length:
             raise RuntimeError(f"Input {texts[i]} is too long for context length {context_length}")
-        result[i, :len(tokens)] = paddle.Tensor(np.array(tokens))
+        result[i, :len(tokens)] = paddle.to_tensor(np.array(tokens), dtype='int64')
 
     return result
 
diff --git a/modules/image/text_to_image/disco_diffusion_clip_vitb32/clip/clip/utils.py b/modules/image/text_to_image/disco_diffusion_clip_vitb32/clip/clip/utils.py
index 8ea9091428082889bf049931071f456a838e2366..ac43ecc3d7ecabe3f831aba51b1b3db4cf4558e8 100755
--- a/modules/image/text_to_image/disco_diffusion_clip_vitb32/clip/clip/utils.py
+++ b/modules/image/text_to_image/disco_diffusion_clip_vitb32/clip/clip/utils.py
@@ -62,7 +62,7 @@ def tokenize(texts: Union[str, List[str]], context_length: int = 77):
     for i, tokens in enumerate(all_tokens):
         if len(tokens) > context_length:
             raise RuntimeError(f"Input {texts[i]} is too long for context length {context_length}")
-        result[i, :len(tokens)] = paddle.Tensor(np.array(tokens))
+        result[i, :len(tokens)] = paddle.to_tensor(np.array(tokens), dtype='int64')
 
     return result
 
diff --git a/modules/image/text_to_image/disco_diffusion_cnclip_vitb16/cn_clip/clip/utils.py b/modules/image/text_to_image/disco_diffusion_cnclip_vitb16/cn_clip/clip/utils.py
index 06607c51f1f8fe87fc1c5b3dedfc01a4837077f1..02c74b2fad7005ab051b84ddabd716b879e7f0c8 100755
--- a/modules/image/text_to_image/disco_diffusion_cnclip_vitb16/cn_clip/clip/utils.py
+++ b/modules/image/text_to_image/disco_diffusion_cnclip_vitb16/cn_clip/clip/utils.py
@@ -46,7 +46,7 @@ def tokenize(texts: Union[str, List[str]], context_length: int = 64):
 
     for i, tokens in enumerate(all_tokens):
         assert len(tokens) <= context_length
-        result[i, :len(tokens)] = paddle.to_tensor(tokens)
+        result[i, :len(tokens)] = paddle.to_tensor(tokens, dtype='int64')
 
     return result
 
diff --git a/modules/image/text_to_image/disco_diffusion_ernievil_base/vit_b_16x/ernievil2/utils/utils.py b/modules/image/text_to_image/disco_diffusion_ernievil_base/vit_b_16x/ernievil2/utils/utils.py
index e603c341df05feb67899e8548f5ea27d1c3bf708..e47f3445f1f9e50d04a0283a44a3c72c001fb7b6 100755
--- a/modules/image/text_to_image/disco_diffusion_ernievil_base/vit_b_16x/ernievil2/utils/utils.py
+++ b/modules/image/text_to_image/disco_diffusion_ernievil_base/vit_b_16x/ernievil2/utils/utils.py
@@ -49,7 +49,7 @@ def tokenize(texts: Union[str, List[str]], context_length: int = 64):
 
     for i, tokens in enumerate(all_tokens):
         assert len(tokens) <= context_length
-        result[i, :len(tokens)] = paddle.to_tensor(tokens)
+        result[i, :len(tokens)] = paddle.to_tensor(tokens, dtype='int64')
 
     return result
 
diff --git a/modules/image/text_to_image/stable_diffusion/clip/clip/utils.py b/modules/image/text_to_image/stable_diffusion/clip/clip/utils.py
index b5d4171445d64bc47f3c4c8692b78e8b5bd6752d..d70c61da1baf4ba91d0a7c8070023601f8ccefb0 100755
--- a/modules/image/text_to_image/stable_diffusion/clip/clip/utils.py
+++ b/modules/image/text_to_image/stable_diffusion/clip/clip/utils.py
@@ -59,7 +59,7 @@ def tokenize(texts: Union[str, List[str]], context_length: int = 77):
     for i, tokens in enumerate(all_tokens):
         if len(tokens) > context_length:
             raise RuntimeError(f"Input {texts[i]} is too long for context length {context_length}")
-        result[i, :len(tokens)] = paddle.Tensor(np.array(tokens))
+        result[i, :len(tokens)] = paddle.to_tensor(np.array(tokens), dtype='int64')
 
     return result