预训练数据预处理-切分边界信息seg_labels如何获取 (#224) · Issue · PaddlePaddle / ERNIE

预训练数据预处理-切分边界信息seg_labels如何获取

Created by: Bodhi-Tree

在ERNIE自定义数据进行预训练中，首先要对数据作预处理，生成与demo数据一样的格式，README文件中说“然后基于 tokenization.py 中的 CharTokenizer 对切分后的数据进行 token 化处理，得到明文的 token 序列及切分边界”、“其中 seg_labels 表示分词边界信息: 0表示词首、1表示非词首、-1为占位符, 其对应的词为 CLS 或者 SEP”，请问这里的切分边界信息seg_labels怎么获取？在tokenization.py文件中没有找到相应的处理函数。

PaddlePaddle / ERNIE 大约 2 年 前同步成功

预训练数据预处理-切分边界信息seg_labels如何获取

PaddlePaddle / ERNIE
大约 2 年前同步成功