预训练数据预处理-切分边界信息seg_labels如何获取
Created by: Bodhi-Tree
在ERNIE自定义数据进行预训练中,首先要对数据作预处理,生成与demo数据一样的格式,README文件中说“然后基于 tokenization.py 中的 CharTokenizer 对切分后的数据进行 token 化处理,得到明文的 token 序列及切分边界”、“其中 seg_labels 表示分词边界信息: 0表示词首、1表示非词首、-1为占位符, 其对应的词为 CLS 或者 SEP”,请问这里的切分边界信息seg_labels怎么获取?在tokenization.py文件中没有找到相应的处理函数。