fix Readme

56db297f · zhangwenhui03 · dc737825 · 56db297f · 56db297f
显示空白变更内容
内联并排

Showing with 7 addition and 1 deletion

fluid/PaddleRec/word2vec/README.md fluid/PaddleRec/word2vec/README.md +6 -0

fluid/PaddleRec/word2vec/cluster_train.py fluid/PaddleRec/word2vec/cluster_train.py +1 -1

未找到文件。
--- a/fluid/PaddleRec/word2vec/README.md
+++ b/fluid/PaddleRec/word2vec/README.md
@@ -26,18 +26,24 @@

 ```bash
 wget http://www.statmt.org/lm-benchmark/1-billion-word-language-modeling-benchmark-r13output.tar.gz
+tar xzvf 1-billion-word-language-modeling-benchmark-r13output.tar
+mv 1-billion-word-language-modeling-benchmark-r13output/training-monolingual.tokenized.shuffled/ data/
 ```

 备用数据地址下载命令如下

 ```bash
 wget https://paddlerec.bj.bcebos.com/word2vec/1-billion-word-language-modeling-benchmark-r13output.tar
+tar xvf 1-billion-word-language-modeling-benchmark-r13output.tar
+mv 1-billion-word-language-modeling-benchmark-r13output/training-monolingual.tokenized.shuffled/ data/
 ```

 为了方便快速验证，我们也提供了经典的text8样例数据集，包含1700w个词。 下载命令如下

 ```bash
 wget https://paddlerec.bj.bcebos.com/word2vec/text.tar
+tar xvf text.tar
+mv text data/
 ```



--- a/fluid/PaddleRec/word2vec/cluster_train.py
+++ b/fluid/PaddleRec/word2vec/cluster_train.py
@@ -199,7 +199,7 @@ def GetFileList(data_path):

 def train(args):

-    if not os.path.isdir(args.model_output_dir) and args.train_id == 0:
+    if not os.path.isdir(args.model_output_dir) and args.trainer_id == 0:
        os.mkdir(args.model_output_dir)

    filelist = GetFileList(args.train_data_dir)