lexical_analysis易用性 (#2217) · Issue · PaddlePaddle / models

lexical_analysis易用性

Created by: JiaXiao243

windows环境下，在models/PaddleNLP/lexical_analysis目录下执行python run_sequence_labeling.py --train_data ./data/train.tsv --test_data ./data/test.tsv --do_train True --do_test True --do_infer False --save_model_per_batches 10000 --batch_size 100 --epoch 10 --use_gpu 0 --traindata_shuffle_buffer 200000 --word_emb_dim 768 --grnn_hidden_dim 768 对lexical_analysis模型进行训练，报错信息如下：需要将reader.py 57行sum(1 for line in open(filename, "r"))修改为 sum(1 for line in open(filename, "r"，encoding='UTF-8'))，模型可正常完成训练。linux下训练无该问题。
建议将现有默认数据名称./data/train_data、./data/test_data修改为./data/train.tsv、./data/test.tsv与下载数据名称保持一致；
建议将是否使用GPU设置：Whether or not to use GPU. -1 means CPU, else GPU id 修改为 0：使用CPU，1：使用GPU ；和其他模型use_GPU设置保持一致。
run_sequence_labeling.py中没有用到do_valid字段，需要在代码中删除该冗余字段。