医学文本分词预处理 (#3099) · Issue · PaddlePaddle / models

医学文本分词预处理

Created by: lixiangchun

非常感谢百度能够提供这么多实用、好用的深度学习模型，现有个问题咨询一下。

我想通过PaddleNLP/preprocess下提供的分词预处理脚本tokenizer.py对医学文本进行分词，使用过程中发现该脚本依赖于预训练模型--model_path、--word_dict_path、--label_dict_path和--word_rep_dict_path等参数。

我想针对特定的医学文本数据生成上述四个参数所需要的文件，但不知从何下手。望各位给予帮助和解答，非常感谢。

PaddlePaddle / models 大约 2 年 前同步成功

医学文本分词预处理

PaddlePaddle / models
大约 2 年前同步成功