Merge pull request #170 from livc/fix

fix bug in sequence_tagging_for_ner.

Merge pull request #170 from livc/fix
fix bug in sequence_tagging_for_ner.
63fc48b0 · Cao Ying · GitHub · 63a80a32 · fb240d2f · 63fc48b0
3 changed file
--- a/sequence_tagging_for_ner/data/download.sh
+++ b/sequence_tagging_for_ner/data/download.sh
-wget http://cs224d.stanford.edu/assignment2/assignment2.zip
+if [ -f assignment2.zip ]; then
+    echo "data exist"
+else
+    wget http://cs224d.stanford.edu/assignment2/assignment2.zip
+fi

 if [ $? -eq 0  ];then
    unzip assignment2.zip

--- a/sequence_tagging_for_ner/reader.py
+++ b/sequence_tagging_for_ner/reader.py
@@ -21,7 +21,7 @@ def canonicalize_word(word, wordset=None, digits=True):
        if (wordset != None) and (word in wordset): return word
        word = canonicalize_digits(word)  # try to canonicalize numbers
    if (wordset == None) or (word in wordset): return word
-    else: return "<UNK>"  # unknown token
+    else: return "UUUNKKK"  # unknown token


 def data_reader(data_file, word_dict, label_dict):
@@ -35,7 +35,7 @@ def data_reader(data_file, word_dict, label_dict):
    """

    def reader():
-        UNK_IDX = word_dict["<UNK>"]
+        UNK_IDX = word_dict["UUUNKKK"]

        sentence = []
        labels = []

--- a/sequence_tagging_for_ner/train.py
+++ b/sequence_tagging_for_ner/train.py
@@ -106,4 +106,5 @@ if __name__ == "__main__":
        test_data_file="data/test",
        vocab_file="data/vocab.txt",
        target_file="data/target.txt",
-        emb_file="data/wordVectors.txt")
+        emb_file="data/wordVectors.txt",
+        model_save_dir="model/")