Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
DeepSpeech
提交
f0c0462b
D
DeepSpeech
项目概览
PaddlePaddle
/
DeepSpeech
大约 2 年 前同步成功
通知
210
Star
8425
Fork
1598
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
245
列表
看板
标记
里程碑
合并请求
3
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
DeepSpeech
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
245
Issue
245
列表
看板
标记
里程碑
合并请求
3
合并请求
3
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
f0c0462b
编写于
7月 03, 2021
作者:
小湉湉
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
update README for thchs30
上级
ebbaeb07
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
41 addition
and
6 deletion
+41
-6
examples/thchs30/README.md
examples/thchs30/README.md
+41
-6
未找到文件。
examples/thchs30/README.md
浏览文件 @
f0c0462b
this is the example of MFA for thchs30 dataset
# THCHS-30 数据集强制对齐实验
cd a0 run run.sh to get start
-----
本实验对 THCHS-30 中文数据集用
[
Montreal-Forced-Aligner
](
https://montreal-forced-aligner.readthedocs.io/en/latest/index.html
)
进行强制对齐。
THCHS-30 的文本标注数据分为:
1.
汉字级别(word),该数据集用空格对词进行了划分,我们在使用时按照将不同字之间按空格划分
2.
音节级别(syllable),即汉语中的一个拼音
3.
音素级别(phone),一个拼音有多个音素组成,汉语的声母韵母可以理解为音素,不同的数据集有各自的音素标准,THCHS-30 数据集与标贝 BZNSYP 数据集的音素标准略有不同
MFA 对齐所使用的字典
数据 A11_0 文本示例如下:
MFA 字典的格式可以参考: https://montreal-forced-aligner.readthedocs.io/en/latest/dictionary.html
```
phone.lexicon 直接使用的是 THCHS-30/data_thchs30/lm_phone/lexicon.txt
绿 是 阳春 烟 景 大块 文章 的 底色 四月 的 林 峦 更是 绿 得 鲜活 秀媚 诗意 盎然↩
word.lexicon 是一个带概率的字典, 生成规则请参考 local/gen_word2phone.py
lv4 shi4 yang2 chun1 yan1 jing3 da4 kuai4 wen2 zhang1 de5 di3 se4 si4 yue4 de5 lin2 luan2 geng4 shi4 lv4 de5 xian1 huo2 xiu4 mei4 shi1 yi4 ang4 ran2↩
l v4 sh ix4 ii iang2 ch un1 ii ian1 j ing3 d a4 k uai4 uu un2 zh ang1 d e5 d i3 s e4 s iy4 vv ve4 d e5 l in2 l uan2 g eng4 sh ix4 l v4 d e5 x ian1 h uo2 x iu4 m ei4 sh ix1 ii i4 aa ang4 r an2
```
## 开始实验
---
在本项目的 根目录/tools 执行
```
make
```
下载 MFA 的可执行包(也会同时下载本项目所需的其他工具)
执行如下命令:
```
cd a0
./run.sh
```
应用程序会自动下载 THCHS-30数据集,处理成 MFA 所需的文件格式并开始训练,您可以修改
`run.sh`
中的参数
`LEXICON_NAME`
来决定您需要强制对齐的级别(word、syllable 和 phone)
## MFA 所使用的字典
---
MFA 字典的格式请参考:
[
MFA 官方文档 Dictionary format
](
https://montreal-forced-aligner.readthedocs.io/en/latest/dictionary.html
)
phone.lexicon 直接使用的是
`THCHS-30/data_thchs30/lm_phone/lexicon.txt`
word.lexicon 考虑到了中文的多音字,使用
**带概率的字典**
, 生成规则请参考
`local/gen_word2phone.py`
`syllable.lexicon`
获取自
[
DNSun/thchs30-pinyin2tone
](
https://github.com/DNSun/thchs30-pinyin2tone
)
## 对齐结果
---
我们提供了三种级别 MFA 训练好的对齐结果、模型和字典(
`syllable.lexicon`
在
`data/dict`
中,
`phone.lexicon`
和
` word.lexicon`
运行数据预处理代码后会自动从原始数据集复制或生成)
**phone 级别:**
[
phone.lexicon
](
https://paddlespeech.bj.bcebos.com/MFA/THCHS30/phone/phone.lexicon
)
、
[
对齐结果
](
https://paddlespeech.bj.bcebos.com/MFA/THCHS30/phone/thchs30_alignment.tar.gz
)
、
[
模型
](
https://paddlespeech.bj.bcebos.com/MFA/THCHS30/phone/thchs30_model.zip
)
**syllabel 级别:**
[
syllable.lexicon
](
https://paddlespeech.bj.bcebos.com/MFA/THCHS30/syllable/syllable.lexicon
)
、
[
对齐结果
](
https://paddlespeech.bj.bcebos.com/MFA/THCHS30/syllable/thchs30_alignment.tar.gz
)
、
[
模型
](
https://paddlespeech.bj.bcebos.com/MFA/THCHS30/syllable/thchs30_model.zip
)
**word 级别:**
[
word.lexicon
](
https://paddlespeech.bj.bcebos.com/MFA/THCHS30/word/word.lexicon
)
、
[
对齐结果
](
https://paddlespeech.bj.bcebos.com/MFA/THCHS30/word/thchs30_alignment.tar.gz
)
、
[
模型
](
https://paddlespeech.bj.bcebos.com/MFA/THCHS30/word/thchs30_model.zip
)
随后,您可以参考
[
MFA 官方文档 Align using pretrained models
](
https://montreal-forced-aligner.readthedocs.io/en/stable/aligning.html#align-using-pretrained-models
)
使用我们给您提供好的模型直接对自己的数据集进行强制对齐,注意,您需要使用和模型对应的 lexicon 文件,当文本是汉字时,您需要用空格把不同的
**汉字**
(而不是词语)分开
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录