Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • DeepSpeech
  • Issue
  • #183

D
DeepSpeech
  • 项目概览

PaddlePaddle / DeepSpeech
大约 2 年 前同步成功

通知 210
Star 8425
Fork 1598
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 245
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 3
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
D
DeepSpeech
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 245
    • Issue 245
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 3
    • 合并请求 3
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
已关闭
开放中
Opened 3月 20, 2018 by saxon_zh@saxon_zhGuest

关于中文训练数据集AiShell标注文本的疑问

Created by: bolt163

看到 AiShell的 transcript标注内容, 格式是下面这个样子, 引用其中若干条,也即看到各个字/词之间是有空格分割开来的(直接粘贴文本上来效果貌似不太明显), " BAC009S0002W0122 而 对 楼市 成交 抑制 作用 最 大 的 限 购 BAC009S0002W0123 也 成为 地方 政府 的 眼中 钉 BAC009S0002W0124 自 六月 底 呼和浩特 市 率先 宣布 取消 限 购 后 BAC009S0002W0125 各地 政府 便 纷纷 跟进 BAC009S0002W0126 仅 一 个 多 月 的 时间 里 BAC009S0002W0127 除了 北京 上海 广州 深圳 四 个 一 线 城市 和 三亚 之外 BAC009S0002W0128 四十六 个 限 购 城市 当中 BAC009S0002W0129 四十一 个 已 正式 取消 或 变相 放松 了 限 购 BAC009S0002W0130 财政 金融 政策 紧随 其后 而来 BAC009S0002W0131 显示 出 了 极 强 的 威力 "

_15215353325207

——————————————————分割线————————————————————— 现在我想用自己录制的语料来做训练,但是与语音对应的transtript标注文本内容是没有像上面那样把 字/词 用空格分割开来【如下所示】, 那么训练的时候是否会受这个的影响?

"/f001_25.wav" "嗯有时候学校的的工会也会组织一些活动" "/f001_26.wav" "那么我们就参加学酗的组织的这些旅游的团体" "/f001_26.wav" "那么我们就参加学酗的组织的这些旅游的团体" "/f001_27.wav" "一起出去玩然后走了全国很多的地方" "/f001_27.wav" "一起出去玩然后走了全国很多的地方" "/f001_28.wav" "恩我家里呢还有很多的其他的一些亲戚" "/f001_28.wav" "恩我家里呢还有很多的其他的一些亲戚" "/f001_29.wav" "呃比如说我有一个姨妈现在在株洲"

【如果标注文本需去分割这些字/词,这是太麻烦的一件事情....】,

指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/DeepSpeech#183
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7