Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
DeepSpeech
提交
4a1cf854
D
DeepSpeech
项目概览
PaddlePaddle
/
DeepSpeech
大约 2 年 前同步成功
通知
210
Star
8425
Fork
1598
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
245
列表
看板
标记
里程碑
合并请求
3
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
DeepSpeech
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
245
Issue
245
列表
看板
标记
里程碑
合并请求
3
合并请求
3
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
4a1cf854
编写于
5月 06, 2022
作者:
L
lym0302
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
update readme, test=doc
上级
1f00e243
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
13 addition
and
13 deletion
+13
-13
demos/speech_server/README_cn.md
demos/speech_server/README_cn.md
+1
-1
demos/streaming_tts_server/README_cn.md
demos/streaming_tts_server/README_cn.md
+12
-12
未找到文件。
demos/speech_server/README_cn.md
浏览文件 @
4a1cf854
...
@@ -22,7 +22,7 @@
...
@@ -22,7 +22,7 @@
**注意:**
如果在容器里可正常启动服务,但客户端访问 ip 不可达,可尝试将配置文件中
`host`
地址换成本地 ip 地址。
**注意:**
如果在容器里可正常启动服务,但客户端访问 ip 不可达,可尝试将配置文件中
`host`
地址换成本地 ip 地址。
ASR client 的输入
为
是一个 WAV 文件(
`.wav`
),并且采样率必须与模型的采样率相同。
ASR client 的输入是一个 WAV 文件(
`.wav`
),并且采样率必须与模型的采样率相同。
可以下载此 ASR client的示例音频:
可以下载此 ASR client的示例音频:
```
bash
```
bash
...
...
demos/streaming_tts_server/README_cn.md
浏览文件 @
4a1cf854
...
@@ -16,18 +16,18 @@
...
@@ -16,18 +16,18 @@
### 2. 准备配置文件
### 2. 准备配置文件
配置文件可参见
`conf/tts_online_application.yaml`
。
配置文件可参见
`conf/tts_online_application.yaml`
。
-
`protocol`
表示该流式TTS
服务使用的网络协议,目前支持
**http 和 websocket**
两种。
-
`protocol`
表示该流式 TTS
服务使用的网络协议,目前支持
**http 和 websocket**
两种。
-
`engine_list`
表示即将启动的服务将会包含的语音引擎,格式为
<语音任务>
_
<引擎类型>
。
-
`engine_list`
表示即将启动的服务将会包含的语音引擎,格式为
<语音任务>
_
<引擎类型>
。
-
该
demo主要介绍流式语音合成服务,因此语音任务应设置为
tts。
-
该
demo 主要介绍流式语音合成服务,因此语音任务应设置为
tts。
-
目前引擎类型支持两种形式:
**online**
表示使用python进行动态图推理的引擎;
**online-onnx**
表示使用
onnxruntime进行推理的引擎。其中,online-onnx
的推理速度更快。
-
目前引擎类型支持两种形式:
**online**
表示使用python进行动态图推理的引擎;
**online-onnx**
表示使用
onnxruntime 进行推理的引擎。其中,online-onnx
的推理速度更快。
-
流式
TTS引擎的AM
模型支持:
**fastspeech2 以及fastspeech2_cnndecoder**
; Voc 模型支持:
**hifigan, mb_melgan**
-
流式
TTS 引擎的 AM
模型支持:
**fastspeech2 以及fastspeech2_cnndecoder**
; Voc 模型支持:
**hifigan, mb_melgan**
-
流式
am推理中,每次会对一个chunk的数据进行推理以达到流式的效果。其中
`am_block`
表示chunk中的有效帧数,
`am_pad`
表示一个chunk中am_block前后各加的帧数。am_pad
的存在用于消除流式推理产生的误差,避免由流式推理对合成音频质量的影响。
-
流式
am 推理中,每次会对一个 chunk 的数据进行推理以达到流式的效果。其中
`am_block`
表示 chunk 中的有效帧数,
`am_pad`
表示一个 chunk 中 am_block 前后各加的帧数。am_pad
的存在用于消除流式推理产生的误差,避免由流式推理对合成音频质量的影响。
-
fastspeech2
不支持流式am推理,因此am_pad与am_block
对它无效
-
fastspeech2
不支持流式 am 推理,因此 am_pad 与 m_block
对它无效
-
fastspeech2_cnndecoder 支持流式推理,当
am_pad=12
时,流式推理合成音频与非流式合成音频一致
-
fastspeech2_cnndecoder 支持流式推理,当
am_pad=12
时,流式推理合成音频与非流式合成音频一致
-
流式
voc推理中,每次会对一个chunk的数据进行推理以达到流式的效果。其中
`voc_block`
表示chunk中的有效帧数,
`voc_pad`
表示一个chunk中voc_block前后各加的帧数。voc_pad
的存在用于消除流式推理产生的误差,避免由流式推理对合成音频质量的影响。
-
流式
voc 推理中,每次会对一个 chunk 的数据进行推理以达到流式的效果。其中
`voc_block`
表示chunk中的有效帧数,
`voc_pad`
表示一个 chunk 中 voc_block 前后各加的帧数。voc_pad
的存在用于消除流式推理产生的误差,避免由流式推理对合成音频质量的影响。
-
hifigan, mb_melgan 均支持流式voc 推理
-
hifigan, mb_melgan 均支持流式
voc 推理
-
当
voc模型为mb_melgan,当voc_pad=14时,流式推理合成音频与非流式合成音频一致;voc_pad最小可以设置为7,合成音频听感上没有异常,若voc_pad
小于7,合成音频听感上存在异常。
-
当
voc 模型为 mb_melgan,当 voc_pad=14 时,流式推理合成音频与非流式合成音频一致;voc_pad 最小可以设置为7,合成音频听感上没有异常,若 voc_pad
小于7,合成音频听感上存在异常。
-
当
voc模型为hifigan,当voc_pad=20时,流式推理合成音频与非流式合成音频一致;当voc_pad=14
时,合成音频听感上没有异常。
-
当
voc 模型为 hifigan,当 voc_pad=20 时,流式推理合成音频与非流式合成音频一致;当 voc_pad=14
时,合成音频听感上没有异常。
-
推理速度:mb_melgan > hifigan; 音频质量:mb_melgan < hifigan
-
推理速度:mb_melgan > hifigan; 音频质量:mb_melgan < hifigan
-
**注意:**
如果在容器里可正常启动服务,但客户端访问 ip 不可达,可尝试将配置文件中
`host`
地址换成本地 ip 地址。
-
**注意:**
如果在容器里可正常启动服务,但客户端访问 ip 不可达,可尝试将配置文件中
`host`
地址换成本地 ip 地址。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录