关于中文训练数据集AiShell标注文本的疑问
Created by: bolt163
看到 AiShell的 transcript标注内容, 格式是下面这个样子, 引用其中若干条,也即看到各个字/词之间是有空格分割开来的(直接粘贴文本上来效果貌似不太明显), " BAC009S0002W0122 而 对 楼市 成交 抑制 作用 最 大 的 限 购 BAC009S0002W0123 也 成为 地方 政府 的 眼中 钉 BAC009S0002W0124 自 六月 底 呼和浩特 市 率先 宣布 取消 限 购 后 BAC009S0002W0125 各地 政府 便 纷纷 跟进 BAC009S0002W0126 仅 一 个 多 月 的 时间 里 BAC009S0002W0127 除了 北京 上海 广州 深圳 四 个 一 线 城市 和 三亚 之外 BAC009S0002W0128 四十六 个 限 购 城市 当中 BAC009S0002W0129 四十一 个 已 正式 取消 或 变相 放松 了 限 购 BAC009S0002W0130 财政 金融 政策 紧随 其后 而来 BAC009S0002W0131 显示 出 了 极 强 的 威力 "
——————————————————分割线————————————————————— 现在我想用自己录制的语料来做训练,但是与语音对应的transtript标注文本内容是没有像上面那样把 字/词 用空格分割开来【如下所示】, 那么训练的时候是否会受这个的影响?
"/f001_25.wav" "嗯有时候学校的的工会也会组织一些活动" "/f001_26.wav" "那么我们就参加学酗的组织的这些旅游的团体" "/f001_26.wav" "那么我们就参加学酗的组织的这些旅游的团体" "/f001_27.wav" "一起出去玩然后走了全国很多的地方" "/f001_27.wav" "一起出去玩然后走了全国很多的地方" "/f001_28.wav" "恩我家里呢还有很多的其他的一些亲戚" "/f001_28.wav" "恩我家里呢还有很多的其他的一些亲戚" "/f001_29.wav" "呃比如说我有一个姨妈现在在株洲"
【如果标注文本需去分割这些字/词,这是太麻烦的一件事情....】,