PaddlePaddle / ERNIE
大约 2 年前同步成功

代码
- 文件
- 提交
- 分支
- Tags
- 贡献者
- 分支图
- Diff
Issue 29
- 列表
- 看板
- 标记
- 里程碑
合并请求 0
Wiki 0
- Wiki
分析
- 仓库
- DevOps
项目成员
Pages

关于训练数据处理的几点疑问

Created by: MarvinLong

[tensoflow 中数据情况] tensorflow版本中, 最后的明文中不同文档间使用空行切分, 同一个文档间每句是一行.

[关于LARK的几点疑问]

不同文档间还需要按照空行切分吗? 我看demo中并没有
一个样本是一个文档还是一个段落?
sentence_type_ids 和 next_sentence_label判断条件是什么?
token_ids中1 和 2是不是表示[CLS] 和 [SEP] ?

[ 有没有哪位大佬可以提供数据处理脚本参考下, 不胜感激]