Created by: lixiangchun
非常感谢百度能够提供这么多实用、好用的深度学习模型,现有个问题咨询一下。
我想通过PaddleNLP/preprocess
下提供的分词预处理脚本tokenizer.py
对医学文本进行分词,使用过程中发现该脚本依赖于预训练模型--model_path
、--word_dict_path
、--label_dict_path
和--word_rep_dict_path
等参数。
我想针对特定的医学文本数据生成上述四个参数所需要的文件,但不知从何下手。望各位给予帮助和解答,非常感谢。