Fix the unicode in tokenization (#27)

ff5dd783 · wuzewu · GitHub · d6db70bd · ff5dd783
隐藏空白更改
内联并排

Showing with 2 addition and 1 deletion

paddlehub/reader/tokenization.py paddlehub/reader/tokenization.py +2 -1

未找到文件。
--- a/paddlehub/reader/tokenization.py
+++ b/paddlehub/reader/tokenization.py
@@ -18,6 +18,7 @@ from __future__ import absolute_import
 from __future__ import division
 from __future__ import print_function

+import codecs
 import collections
 import unicodedata

@@ -70,7 +71,7 @@ def printable_text(text):
 def load_vocab(vocab_file):
    """Loads a vocabulary file into a dictionary."""
    vocab = collections.OrderedDict()
-    fin = open(vocab_file)
+    fin = codecs.open(vocab_file, "r", "UTF-8")
    for num, line in enumerate(fin):
        items = convert_to_unicode(line.strip()).split("\t")
        if len(items) > 2: