README_cn.md 29.7 KB
Newer Older
小湉湉's avatar
小湉湉 已提交
1

小湉湉's avatar
小湉湉 已提交
2
(简体中文|[English](./README.md))
G
grasswolfs 已提交
3 4 5 6 7 8 9
<p align="center">
  <img src="./docs/images/PaddleSpeech_logo.png" />
</p>


<p align="center">
    <a href="./LICENSE"><img src="https://img.shields.io/badge/license-Apache%202-red.svg"></a>
H
Hui Zhang 已提交
10 11
    <a href="https://github.com/PaddlePaddle/PaddleSpeech/releases"><img src="https://img.shields.io/github/v/release/PaddlePaddle/PaddleSpeech?color=ffa"></a>
    <a href="support os"><img src="https://img.shields.io/badge/os-linux%2C%20win%2C%20mac-pink.svg"></a>
G
grasswolfs 已提交
12 13 14 15 16
    <a href=""><img src="https://img.shields.io/badge/python-3.7+-aff.svg"></a>
    <a href="https://github.com/PaddlePaddle/PaddleSpeech/graphs/contributors"><img src="https://img.shields.io/github/contributors/PaddlePaddle/PaddleSpeech?color=9ea"></a>
    <a href="https://github.com/PaddlePaddle/PaddleSpeech/commits"><img src="https://img.shields.io/github/commit-activity/m/PaddlePaddle/PaddleSpeech?color=3af"></a>
    <a href="https://github.com/PaddlePaddle/PaddleSpeech/issues"><img src="https://img.shields.io/github/issues/PaddlePaddle/PaddleSpeech?color=9cc"></a>
    <a href="https://github.com/PaddlePaddle/PaddleSpeech/stargazers"><img src="https://img.shields.io/github/stars/PaddlePaddle/PaddleSpeech?color=ccf"></a>
H
Hui Zhang 已提交
17 18
    <a href="=https://pypi.org/project/paddlespeech/"><img src="https://img.shields.io/pypi/dm/PaddleSpeech"></a>
    <a href="=https://pypi.org/project/paddlespeech/"><img src="https://static.pepy.tech/badge/paddlespeech"></a>
D
DanielYang 已提交
19
    <a href="https://huggingface.co/spaces"><img src="https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue"></a>
G
grasswolfs 已提交
20
</p>
H
Hui Zhang 已提交
21
<div align="center">  
小湉湉's avatar
小湉湉 已提交
22 23
<h4>
    <a href="#快速开始"> 快速开始 </a>
D
DanielYang 已提交
24 25 26 27
  | <a href="#快速使用服务"> 快速使用服务 </a>
  | <a href="#快速使用流式服务"> 快速使用流式服务 </a>
  | <a href="#教程文档"> 教程文档 </a>
  | <a href="#模型列表"> 模型列表 </a>
小湉湉's avatar
小湉湉 已提交
28
  | <a href="https://aistudio.baidu.com/aistudio/education/group/info/25130"> AIStudio 课程 </a>
H
Hui Zhang 已提交
29 30
  | <a href="https://arxiv.org/abs/2205.12007"> 论文 </a>
  | <a href="https://gitee.com/paddlepaddle/PaddleSpeech"> Gitee 
小湉湉's avatar
小湉湉 已提交
31
</h4>
H
Hui Zhang 已提交
32 33 34 35 36
</div>


------------------------------------------------------------------------------------

G
grasswolfs 已提交
37
**PaddleSpeech** 是基于飞桨 [PaddlePaddle](https://github.com/PaddlePaddle/Paddle) 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型,一些典型的应用示例如下:
G
grasswolfs 已提交
38 39 40 41 42 43 44
##### 语音识别

<div align = "center">
<table style="width:100%">
  <thead>
    <tr>
      <th> 输入音频  </th>
小湉湉's avatar
小湉湉 已提交
45
      <th width="550"> 识别结果 </th>
G
grasswolfs 已提交
46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
    </tr>
  </thead>
  <tbody>
   <tr>
      <td align = "center">
      <a href="https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav" rel="nofollow">
            <img align="center" src="./docs/images/audio_icon.png" width="200 style="max-width: 100%;"></a><br>
      </td>
      <td >I knocked at the door on the ancient side of the building.</td>
    </tr>
    <tr>
      <td align = "center">
      <a href="https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav" rel="nofollow">
            <img align="center" src="./docs/images/audio_icon.png" width="200" style="max-width: 100%;"></a><br>
      </td>
      <td>我认为跑步最重要的就是给我带来了身体健康。</td>
    </tr>
  </tbody>
</table>

</div>

##### 语音翻译 (英译中)

<div align = "center">
<table style="width:100%">
  <thead>
    <tr>
小湉湉's avatar
小湉湉 已提交
74 75
      <th> 输入音频 </th>
      <th width="550"> 翻译结果 </th>
G
grasswolfs 已提交
76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
    </tr>
  </thead>
  <tbody>
   <tr>
      <td align = "center">
      <a href="https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav" rel="nofollow">
            <img align="center" src="./docs/images/audio_icon.png" width="200 style="max-width: 100%;"></a><br>
      </td>
      <td >我 在 这栋 建筑 的 古老 门上 敲门。</td>
    </tr>
  </tbody>
</table>

</div>

D
DanielYang 已提交
91
##### 语音合成
G
grasswolfs 已提交
92 93 94 95
<div align = "center">
<table style="width:100%">
  <thead>
    <tr>
小湉湉's avatar
小湉湉 已提交
96
      <th width="550">输入文本</th>
G
grasswolfs 已提交
97 98 99 100 101 102 103
      <th>合成音频</th>
    </tr>
  </thead>
  <tbody>
   <tr>
      <td >Life was like a box of chocolates, you never know what you're gonna get.</td>
      <td align = "center">
小湉湉's avatar
小湉湉 已提交
104
      <a href="https://paddlespeech.bj.bcebos.com/Parakeet/docs/demos/tacotron2_ljspeech_waveflow_samples_0.2/sentence_1.wav" rel="nofollow">
G
grasswolfs 已提交
105 106 107 108 109 110 111 112 113 114
            <img align="center" src="./docs/images/audio_icon.png" width="200" style="max-width: 100%;"></a><br>
      </td>
    </tr>
    <tr>
      <td >早上好,今天是2020/10/29,最低温度是-3°C。</td>
      <td align = "center">
      <a href="https://paddlespeech.bj.bcebos.com/Parakeet/docs/demos/parakeet_espnet_fs2_pwg_demo/tn_g2p/parakeet/001.wav" rel="nofollow">
            <img align="center" src="./docs/images/audio_icon.png" width="200" style="max-width: 100%;"></a><br>
      </td>
    </tr>
小湉湉's avatar
小湉湉 已提交
115 116 117 118 119 120 121
    <tr>
      <td >季姬寂,集鸡,鸡即棘鸡。棘鸡饥叽,季姬及箕稷济鸡。鸡既济,跻姬笈,季姬忌,急咭鸡,鸡急,继圾几,季姬急,即籍箕击鸡,箕疾击几伎,伎即齑,鸡叽集几基,季姬急极屐击鸡,鸡既殛,季姬激,即记《季姬击鸡记》。</td>
      <td align = "center">
      <a href="https://paddlespeech.bj.bcebos.com/Parakeet/docs/demos/jijiji.wav" rel="nofollow">
            <img align="center" src="./docs/images/audio_icon.png" width="200" style="max-width: 100%;"></a><br>
      </td>
    </tr>
G
grasswolfs 已提交
122 123 124 125 126
  </tbody>
</table>

</div>

D
DanielYang 已提交
127
更多合成音频,可以参考 [PaddleSpeech 语音合成音频示例](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html)
G
grasswolfs 已提交
128

小湉湉's avatar
小湉湉 已提交
129
##### 标点恢复
K
KP 已提交
130 131 132 133
<div align = "center">
<table style="width:100%">
  <thead>
    <tr>
小湉湉's avatar
小湉湉 已提交
134 135
      <th width="390"> 输入文本 </th>
      <th width="390"> 输出文本 </th>
K
KP 已提交
136 137 138 139 140 141 142 143 144 145 146 147
    </tr>
  </thead>
  <tbody>
   <tr>
      <td>今天的天气真不错啊你下午有空吗我想约你一起去吃饭</td>
      <td>今天的天气真不错啊!你下午有空吗?我想约你一起去吃饭。</td>
    </tr>
  </tbody>
</table>

</div>

J
Jerryuhoo 已提交
148

H
Hui Zhang 已提交
149
### 特性
150

H
Hui Zhang 已提交
151 152 153 154 155 156 157 158 159
本项目采用了易用、高效、灵活以及可扩展的实现,旨在为工业应用、学术研究提供更好的支持,实现的功能包含训练、推断以及测试模块,以及部署过程,主要包括
- 📦 **易用性**: 安装门槛低,可使用 [CLI](#quick-start) 快速开始。
- 🏆 **对标 SoTA**: 提供了高速、轻量级模型,且借鉴了最前沿的技术。
- 🏆 **流式ASR和TTS系统**:工业级的端到端流式识别、流式合成系统。
- 💯 **基于规则的中文前端**: 我们的前端包含文本正则化和字音转换(G2P)。此外,我们使用自定义语言规则来适应中文语境。
- **多种工业界以及学术界主流功能支持**:
  - 🛎️ 典型音频任务: 本工具包提供了音频任务如音频分类、语音翻译、自动语音识别、文本转语音、语音合成、声纹识别、KWS等任务的实现。
  - 🔬 主流模型及数据集: 本工具包实现了参与整条语音任务流水线的各个模块,并且采用了主流数据集如 LibriSpeech、LJSpeech、AIShell、CSMSC,详情请见 [模型列表](#model-list)
  - 🧩 级联模型应用: 作为传统语音任务的扩展,我们结合了自然语言处理、计算机视觉等任务,实现更接近实际需求的产业级应用。
G
grasswolfs 已提交
160 161


162
### 近期更新
G
grasswolfs 已提交
163

小湉湉's avatar
小湉湉 已提交
164
- 👑 2022.05.13: PaddleSpeech 发布 [PP-ASR](./docs/source/asr/PPASR_cn.md) 流式语音识别系统、[PP-TTS](./docs/source/tts/PPTTS_cn.md) 流式语音合成系统、[PP-VPR](docs/source/vpr/PPVPR_cn.md) 全链路声纹识别系统
H
Hui Zhang 已提交
165 166 167 168
- 👏🏻 2022.05.06: PaddleSpeech Streaming Server 上线! 覆盖了语音识别(标点恢复、时间戳),和语音合成。
- 👏🏻 2022.05.06: PaddleSpeech Server 上线! 覆盖了声音分类、语音识别、语音合成、声纹识别,标点恢复。
- 👏🏻 2022.03.28: PaddleSpeech CLI 覆盖声音分类、语音识别、语音翻译(英译中)、语音合成,声纹验证。
- 🤗 2021.12.14: PaddleSpeech [ASR](https://huggingface.co/spaces/KPatrick/PaddleSpeechASR) and [TTS](https://huggingface.co/spaces/KPatrick/PaddleSpeechTTS) Demos on Hugging Face Spaces are available!
G
grasswolfs 已提交
169

H
Hui Zhang 已提交
170

D
DanielYang 已提交
171
 ### 🔥 加入技术交流群获取入群福利
H
Hui Zhang 已提交
172

小湉湉's avatar
小湉湉 已提交
173
 - 3 日直播课链接: 深度解读 PP-TTS、PP-ASR、PP-VPR 三项核心语音系统关键技术
D
DanielYang 已提交
174 175 176
 - 20G 学习大礼包:视频课程、前沿论文与学习资料
  
微信扫描二维码关注公众号,点击“马上报名”填写问卷加入官方交流群,获得更高效的问题答疑,与各行各业开发者充分交流,期待您的加入。
G
grasswolfs 已提交
177 178

<div align="center">
D
DanielYang 已提交
179
<img src="https://user-images.githubusercontent.com/23690325/169763015-cbd8e28d-602c-4723-810d-dbc6da49441e.jpg"  width = "200"  />
G
grasswolfs 已提交
180 181 182 183
</div>

## 安装

J
Jackwaterveg 已提交
184 185
我们强烈建议用户在 **Linux** 环境下,*3.7* 以上版本的 *python* 上安装 PaddleSpeech。
目前为止,**Linux** 支持声音分类、语音识别、语音合成和语音翻译四种功能,**Mac OSX、 Windows** 下暂不支持语音翻译功能。 想了解具体安装细节,可以参考[安装文档](./docs/source/install_cn.md)
G
grasswolfs 已提交
186

D
DanielYang 已提交
187
<a name="快速开始"></a>
G
grasswolfs 已提交
188 189
## 快速开始

D
DanielYang 已提交
190
安装完成后,开发者可以通过命令行快速开始,改变 `--input` 可以尝试用自己的音频或文本测试。
G
grasswolfs 已提交
191 192 193 194 195

**声音分类**     
```shell
paddlespeech cls --input input.wav
```
196 197 198 199
**声纹识别**
```shell
paddlespeech vector --task spk --input input_16k.wav
```
G
grasswolfs 已提交
200 201 202 203 204 205 206 207 208 209 210 211
**语音识别**
```shell
paddlespeech asr --lang zh --input input_16k.wav
```
**语音翻译** (English to Chinese)
```shell
paddlespeech st --input input_16k.wav
```
**语音合成** 
```shell
paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav
```
小湉湉's avatar
小湉湉 已提交
212 213
- 语音合成的 web demo 已经集成进了 [Huggingface Spaces](https://huggingface.co/spaces). 请参考: [TTS Demo](https://huggingface.co/spaces/akhaliq/paddlespeech)

K
KP 已提交
214 215 216 217 218 219
**文本后处理** 
 - 标点恢复
   ```bash
   paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭
   ```

H
Hui Zhang 已提交
220 221 222
**批处理**
```
echo -e "1 欢迎光临。\n2 谢谢惠顾。" | paddlespeech tts
H
Hui Zhang 已提交
223
```
H
Hui Zhang 已提交
224 225 226 227 228 229 230

**Shell管道**
ASR + Punc:
```
paddlespeech asr --input ./zh.wav | paddlespeech text --task punc
```

小湉湉's avatar
小湉湉 已提交
231
更多命令行命令请参考 [demos](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos)
G
grasswolfs 已提交
232 233
> Note: 如果需要训练或者微调,请查看[语音识别](./docs/source/asr/quick_start.md), [语音合成](./docs/source/tts/quick_start.md)。

D
DanielYang 已提交
234
<a name="快速使用服务"></a>
L
lym0302 已提交
235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259
## 快速使用服务
安装完成后,开发者可以通过命令行快速使用服务。

**启动服务**     
```shell
paddlespeech_server start --config_file ./paddlespeech/server/conf/application.yaml
```

**访问语音识别服务**     
```shell
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav
```

**访问语音合成服务**     
```shell
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好,欢迎使用百度飞桨语音合成服务。" --output output.wav
```

**访问音频分类服务**     
```shell
paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav
```

更多服务相关的命令行使用信息,请参考 [demos](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/speech_server)

D
DanielYang 已提交
260
<a name="快速使用流式服务"></a>
H
Hui Zhang 已提交
261 262
## 快速使用流式服务

小湉湉's avatar
小湉湉 已提交
263
开发者可以尝试 [流式 ASR](./demos/streaming_asr_server/README.md)[流式 TTS](./demos/streaming_tts_server/README.md) 服务.
H
Hui Zhang 已提交
264

小湉湉's avatar
小湉湉 已提交
265
**启动流式 ASR 服务**
H
Hui Zhang 已提交
266 267 268 269 270

```
paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml
```

小湉湉's avatar
小湉湉 已提交
271
**访问流式 ASR 服务**     
H
Hui Zhang 已提交
272 273 274 275 276

```
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav
```

小湉湉's avatar
小湉湉 已提交
277
**启动流式 TTS 服务**
H
Hui Zhang 已提交
278 279 280 281 282

```
paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml
```

小湉湉's avatar
小湉湉 已提交
283
**访问流式 TTS 服务**     
H
Hui Zhang 已提交
284 285 286 287 288 289 290

```
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好,欢迎使用百度飞桨语音合成服务。" --output output.wav
```

更多信息参看: [流式 ASR](./demos/streaming_asr_server/README.md)[流式 TTS](./demos/streaming_tts_server/README.md) 

D
DanielYang 已提交
291
<a name="模型列表"></a>
G
grasswolfs 已提交
292 293 294
## 模型列表
PaddleSpeech 支持很多主流的模型,并提供了预训练模型,详情请见[模型列表](./docs/source/released_model.md)

I
iftaken 已提交
295 296
<a name="语音识别模型"></a>

小湉湉's avatar
小湉湉 已提交
297
PaddleSpeech 的 **语音转文本** 包含语音识别声学模型、语音识别语言模型和语音翻译, 详情如下:
G
grasswolfs 已提交
298 299 300 301

<table style="width:100%">
  <thead>
    <tr>
小湉湉's avatar
小湉湉 已提交
302
      <th>语音转文本模块类型</th>
G
grasswolfs 已提交
303
      <th>数据集</th>
H
Hui Zhang 已提交
304 305
      <th>模型类型</th>
      <th>脚本</th>
G
grasswolfs 已提交
306 307 308 309
    </tr>
  </thead>
  <tbody>
    <tr>
小湉湉's avatar
小湉湉 已提交
310
      <td rowspan="4">语音识别</td>
G
grasswolfs 已提交
311 312 313 314 315 316 317
      <td rowspan="2" >Aishell</td>
      <td >DeepSpeech2 RNN + Conv based Models</td>
      <td>
      <a href = "./examples/aishell/asr0">deepspeech2-aishell</a>
      </td>
    </tr>
    <tr>
D
DanielYang 已提交
318
      <td>Transformer based Attention Models </td>
G
grasswolfs 已提交
319 320 321 322 323 324
      <td>
      <a href = "./examples/aishell/asr1">u2.transformer.conformer-aishell</a>
      </td>
    </tr>
      <tr>
      <td> Librispeech</td>
D
DanielYang 已提交
325
      <td>Transformer based Attention Models </td>
G
grasswolfs 已提交
326 327 328 329 330
      <td>
      <a href = "./examples/librispeech/asr0">deepspeech2-librispeech</a> / <a href = "./examples/librispeech/asr1">transformer.conformer.u2-librispeech</a>  / <a href = "./examples/librispeech/asr2">transformer.conformer.u2-kaldi-librispeech</a>
      </td>
      </td>
    </tr>
小湉湉's avatar
小湉湉 已提交
331 332 333 334 335 336 337
    <tr>
      <td>TIMIT</td>
      <td>Unified Streaming & Non-streaming Two-pass</td>
      <td>
    <a href = "./examples/timit/asr1"> u2-timit</a>
      </td>
    </tr>
G
grasswolfs 已提交
338 339 340 341 342 343 344 345 346
  <tr>
  <td>对齐</td>
  <td>THCHS30</td>
  <td>MFA</td>
  <td>
  <a href = ".examples/thchs30/align0">mfa-thchs30</a>
  </td>
  </tr>
   <tr>
小湉湉's avatar
小湉湉 已提交
347
      <td rowspan="1">语言模型</td>
G
grasswolfs 已提交
348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369
      <td colspan = "2">Ngram 语言模型</td>
      <td>
      <a href = "./examples/other/ngram_lm">kenlm</a>
      </td>
    </tr>
    <tr>
      <td rowspan="2">语音翻译(英译中)</td> 
      <td rowspan="2">TED En-Zh</td>
      <td>Transformer + ASR MTL</td>
      <td>
      <a href = "./examples/ted_en_zh/st0">transformer-ted</a>
      </td>
  </tr>
  <tr>
      <td>FAT + Transformer + ASR MTL</td>
      <td>
      <a href = "./examples/ted_en_zh/st1">fat-st-ted</a>
      </td>
  </tr>
  </tbody>
</table>

G
grasswolfs 已提交
370
<a name="语音合成模型"></a>
I
iftaken 已提交
371

小湉湉's avatar
小湉湉 已提交
372
PaddleSpeech 的 **语音合成** 主要包含三个模块:文本前端、声学模型和声码器。声学模型和声码器模型如下:
G
grasswolfs 已提交
373 374 375 376

<table>
  <thead>
    <tr>
D
DanielYang 已提交
377
      <th> 语音合成模块类型 </th>
H
Hui Zhang 已提交
378
      <th> 模型类型 </th>
小湉湉's avatar
小湉湉 已提交
379
      <th> 数据集  </th>
H
Hui Zhang 已提交
380
      <th> 脚本  </th>
G
grasswolfs 已提交
381 382 383 384 385 386 387 388 389 390 391 392
    </tr>
  </thead>
  <tbody>
    <tr>
    <td> 文本前端</td>
    <td colspan="2"> &emsp; </td>
    <td>
    <a href = "./examples/other/tn">tn</a> / <a href = "./examples/other/g2p">g2p</a>
    </td>
    </tr>
    <tr>
      <td rowspan="4">声学模型</td>
小湉湉's avatar
小湉湉 已提交
393 394
      <td>Tacotron2</td>
      <td>LJSpeech / CSMSC</td>
G
grasswolfs 已提交
395
      <td>
小湉湉's avatar
小湉湉 已提交
396
      <a href = "./examples/ljspeech/tts0">tacotron2-ljspeech</a> / <a href = "./examples/csmsc/tts0">tacotron2-csmsc</a>
G
grasswolfs 已提交
397 398 399 400
      </td>
    </tr>
    <tr>
      <td>Transformer TTS</td>
小湉湉's avatar
小湉湉 已提交
401
      <td>LJSpeech</td>
G
grasswolfs 已提交
402 403 404 405 406 407 408 409 410 411 412 413 414
      <td>
      <a href = "./examples/ljspeech/tts1">transformer-ljspeech</a>
      </td>
    </tr>
    <tr>
      <td>SpeedySpeech</td>
      <td>CSMSC</td>
      <td >
      <a href = "./examples/csmsc/tts2">speedyspeech-csmsc</a>
      </td>
    </tr>
    <tr>
      <td>FastSpeech2</td>
小湉湉's avatar
小湉湉 已提交
415
      <td>LJSpeech / VCTK / CSMSC / AISHELL-3</td>
G
grasswolfs 已提交
416
      <td>
小湉湉's avatar
小湉湉 已提交
417
      <a href = "./examples/ljspeech/tts3">fastspeech2-ljspeech</a> / <a href = "./examples/vctk/tts3">fastspeech2-vctk</a> / <a href = "./examples/csmsc/tts3">fastspeech2-csmsc</a> / <a href = "./examples/aishell3/tts3">fastspeech2-aishell3</a>
G
grasswolfs 已提交
418 419 420
      </td>
    </tr>
   <tr>
小湉湉's avatar
小湉湉 已提交
421
      <td rowspan="6">声码器</td>
G
grasswolfs 已提交
422 423 424 425 426 427 428 429
      <td >WaveFlow</td>
      <td >LJSpeech</td>
      <td>
      <a href = "./examples/ljspeech/voc0">waveflow-ljspeech</a>
      </td>
    </tr>
    <tr>
      <td >Parallel WaveGAN</td>
小湉湉's avatar
小湉湉 已提交
430
      <td >LJSpeech / VCTK / CSMSC / AISHELL-3</td>
G
grasswolfs 已提交
431
      <td>
小湉湉's avatar
小湉湉 已提交
432
      <a href = "./examples/ljspeech/voc1">PWGAN-ljspeech</a> / <a href = "./examples/vctk/voc1">PWGAN-vctk</a> / <a href = "./examples/csmsc/voc1">PWGAN-csmsc</a> /  <a href = "./examples/aishell3/voc1">PWGAN-aishell3</a>
G
grasswolfs 已提交
433 434 435 436 437 438 439 440
      </td>
    </tr>
    <tr>
      <td >Multi Band MelGAN</td>
      <td >CSMSC</td>
      <td>
      <a href = "./examples/csmsc/voc3">Multi Band MelGAN-csmsc</a> 
      </td>
小湉湉's avatar
小湉湉 已提交
441 442 443 444 445 446 447 448 449 450
    </tr>
    <tr>
      <td >Style MelGAN</td>
      <td >CSMSC</td>
      <td>
      <a href = "./examples/csmsc/voc4">Style MelGAN-csmsc</a> 
      </td>
    </tr>
    <tr>
      <td >HiFiGAN</td>
小湉湉's avatar
小湉湉 已提交
451
      <td >LJSpeech / VCTK / CSMSC / AISHELL-3</td>
小湉湉's avatar
小湉湉 已提交
452
      <td>
小湉湉's avatar
小湉湉 已提交
453
      <a href = "./examples/ljspeech/voc5">HiFiGAN-ljspeech</a> / <a href = "./examples/vctk/voc5">HiFiGAN-vctk</a> / <a href = "./examples/csmsc/voc5">HiFiGAN-csmsc</a> / <a href = "./examples/aishell3/voc5">HiFiGAN-aishell3</a>
小湉湉's avatar
小湉湉 已提交
454
      </td>
小湉湉's avatar
小湉湉 已提交
455 456 457 458 459 460 461 462
    </tr>
    <tr>
      <td >WaveRNN</td>
      <td >CSMSC</td>
      <td>
      <a href = "./examples/csmsc/voc6">WaveRNN-csmsc</a>
      </td>
    </tr>
G
grasswolfs 已提交
463
    <tr>
D
DanielYang 已提交
464
      <td rowspan="3">声音克隆</td>
G
grasswolfs 已提交
465 466 467 468 469 470 471
      <td>GE2E</td>
      <td >Librispeech, etc.</td>
      <td>
      <a href = "./examples/other/ge2e">ge2e</a>
      </td>
    </tr>
    <tr>
小湉湉's avatar
小湉湉 已提交
472
      <td>GE2E + Tacotron2</td>
G
grasswolfs 已提交
473 474
      <td>AISHELL-3</td>
      <td>
小湉湉's avatar
小湉湉 已提交
475
      <a href = "./examples/aishell3/vc0">ge2e-tacotron2-aishell3</a>
G
grasswolfs 已提交
476 477 478 479 480 481 482 483 484
      </td>
    </tr>
    <tr>
      <td>GE2E + FastSpeech2</td>
      <td>AISHELL-3</td>
      <td>
      <a href = "./examples/aishell3/vc1">ge2e-fastspeech2-aishell3</a>
      </td>
    </tr>
小湉湉's avatar
小湉湉 已提交
485 486 487 488 489 490 491 492 493
    </tr>
     <tr>
      <td rowspan="3">端到端</td>
      <td>VITS</td>
      <td >CSMSC</td>
      <td>
      <a href = "./examples/csmsc/vits">VITS-csmsc</a>
      </td>
    </tr>
G
grasswolfs 已提交
494 495 496
  </tbody>
</table>

G
grasswolfs 已提交
497
<a name="声音分类模型"></a>
G
grasswolfs 已提交
498 499 500 501 502
**声音分类**

<table style="width:100%">
  <thead>
    <tr>
D
DanielYang 已提交
503
      <th> 任务 </th>
D
DanielYang 已提交
504
      <th> 数据集 </th>
H
Hui Zhang 已提交
505 506
      <th> 模型类型 </th>
      <th> 脚本</th>
G
grasswolfs 已提交
507 508 509 510
    </tr>
  </thead>
  <tbody>
  <tr>
D
DanielYang 已提交
511
      <td>声音分类</td>
G
grasswolfs 已提交
512 513 514 515 516 517 518 519 520
      <td>ESC-50</td>
      <td>PANN</td>
      <td>
      <a href = "./examples/esc50/cls0">pann-esc50</a>
      </td>
    </tr>
  </tbody>
</table>

521

I
iftaken 已提交
522 523
<a name="声纹识别模型"></a>

524 525 526 527 528
**声纹识别**

<table style="width:100%">
  <thead>
    <tr>
H
Hui Zhang 已提交
529 530 531 532
      <th> 任务 </th>
      <th> 数据集 </th>
      <th> 模型类型 </th>
      <th> 脚本 </th>
533 534 535 536 537 538 539 540 541 542 543 544 545 546
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>Speaker Verification</td>
      <td>VoxCeleb12</td>
      <td>ECAPA-TDNN</td>
      <td>
      <a href = "./examples/voxceleb/sv0">ecapa-tdnn-voxceleb12</a>
      </td>
    </tr>
  </tbody>
</table>

I
iftaken 已提交
547 548
<a name="标点恢复模型"></a>

小湉湉's avatar
小湉湉 已提交
549 550 551 552 553
**标点恢复**

<table style="width:100%">
  <thead>
    <tr>
小湉湉's avatar
update  
小湉湉 已提交
554 555
      <th> 任务 </th>
      <th> 数据集 </th>
H
Hui Zhang 已提交
556 557
      <th> 模型类型 </th>
      <th> 脚本 </th>
小湉湉's avatar
小湉湉 已提交
558 559 560 561 562 563 564 565 566 567 568 569 570 571
    </tr>
  </thead>
  <tbody>
  <tr>
      <td>标点恢复</td>
      <td>IWLST2012_zh</td>
      <td>Ernie Linear</td>
      <td>
      <a href = "./examples/iwslt2012/punc0">iwslt2012-punc0</a>
      </td>
    </tr>
  </tbody>
</table>

D
DanielYang 已提交
572
<a name="教程文档"></a>
G
grasswolfs 已提交
573
## 教程文档
G
grasswolfs 已提交
574

G
grasswolfs 已提交
575
对于 PaddleSpeech 的所关注的任务,以下指南有助于帮助开发者快速入门,了解语音相关核心思想。
G
grasswolfs 已提交
576

G
grasswolfs 已提交
577 578 579 580 581 582 583 584 585 586
- [下载安装](./docs/source/install_cn.md)
- [快速开始](#快速开始)
- Notebook基础教程
  - [声音分类](./docs/tutorial/cls/cls_tutorial.ipynb)
  - [语音识别](./docs/tutorial/asr/tutorial_transformer.ipynb)
  - [语音翻译](./docs/tutorial/st/st_tutorial.ipynb)
  - [声音合成](./docs/tutorial/tts/tts_tutorial.ipynb)
  - [示例Demo](./demos/README.md)
- 进阶文档  
  - [语音识别自定义训练](./docs/source/asr/quick_start.md)
G
grasswolfs 已提交
587 588 589
    - [简介](./docs/source/asr/models_introduction.md)
    - [数据准备](./docs/source/asr/data_preparation.md)
    - [Ngram 语言模型](./docs/source/asr/ngram_lm.md)
G
grasswolfs 已提交
590
  - [语音合成自定义训练](./docs/source/tts/quick_start.md)
G
grasswolfs 已提交
591 592 593
    - [简介](./docs/source/tts/models_introduction.md)
    - [进阶用法](./docs/source/tts/advanced_usage.md)
    - [中文文本前端](./docs/source/tts/zh_text_frontend.md)
G
grasswolfs 已提交
594
    - [测试语音样本](https://paddlespeech.readthedocs.io/en/latest/tts/demo.html)
I
iftaken 已提交
595 596 597
  - 声纹识别
    - [声纹识别](./demos/speaker_verification/README_cn.md)
    - [音频检索](./demos/audio_searching/README_cn.md)
G
grasswolfs 已提交
598 599
  - [声音分类](./demos/audio_tagging/README_cn.md)
  - [语音翻译](./demos/speech_translation/README_cn.md)
I
iftaken 已提交
600
  - [服务化部署](./demos/speech_server/README_cn.md)
G
grasswolfs 已提交
601
- [模型列表](#模型列表)
G
grasswolfs 已提交
602 603
  - [语音识别](#语音识别模型)
  - [语音合成](#语音合成模型)
G
grasswolfs 已提交
604
  - [声音分类](#声音分类模型)
I
iftaken 已提交
605 606
  - [声纹识别](#声纹识别模型)
  - [标点恢复](#标点恢复模型)
G
grasswolfs 已提交
607
- [技术交流群](#技术交流群)
G
grasswolfs 已提交
608
- [欢迎贡献](#欢迎贡献)
G
grasswolfs 已提交
609
- [License](#License)
G
grasswolfs 已提交
610 611


D
DanielYang 已提交
612
语音合成模块最初被称为 [Parakeet](https://github.com/PaddlePaddle/Parakeet),现在与此仓库合并。如果您对该任务的学术研究感兴趣,请参阅 [TTS 研究概述](https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/docs/source/tts#overview)。此外,[模型介绍](https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/tts/models_introduction.md) 是了解语音合成流程的一个很好的指南。
G
grasswolfs 已提交
613

H
Hui Zhang 已提交
614 615 616 617 618 619 620 621 622 623 624 625 626 627 628
## ⭐ 应用案例
- **[PaddleBoBo](https://github.com/JiehangXie/PaddleBoBo): 使用 PaddleSpeech 的语音合成模块生成虚拟人的声音。**
  
<div align="center"><a href="https://www.bilibili.com/video/BV1cL411V71o?share_source=copy_web"><img src="https://ai-studio-static-online.cdn.bcebos.com/06fd746ab32042f398fb6f33f873e6869e846fe63c214596ae37860fe8103720" / width="500px"></a></div>

- [PaddleSpeech 示例视频](https://paddlespeech.readthedocs.io/en/latest/demo_video.html)


- **[VTuberTalk](https://github.com/jerryuhoo/VTuberTalk): 使用 PaddleSpeech 的语音合成和语音识别从视频中克隆人声。**

<div align="center">
<img src="https://raw.githubusercontent.com/jerryuhoo/VTuberTalk/main/gui/gui.png"  width = "500px"  />
</div>


G
grasswolfs 已提交
629 630 631
## 引用

要引用 PaddleSpeech 进行研究,请使用以下格式进行引用。
D
DanielYang 已提交
632
```text
H
Hui Zhang 已提交
633
@inproceedings{zhang2022paddlespeech,
H
Hui Zhang 已提交
634 635 636 637 638
    title = {PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit},
    author = {Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, dianhai yu, Yanjun Ma, Liang Huang},
    booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
    year = {2022},
    publisher = {Association for Computational Linguistics},
G
grasswolfs 已提交
639
}
H
Hui Zhang 已提交
640 641 642 643 644 645 646 647 648

@inproceedings{zheng2021fused,
  title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
  author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
  booktitle={International Conference on Machine Learning},
  pages={12736--12746},
  year={2021},
  organization={PMLR}
}
G
grasswolfs 已提交
649 650
```

G
grasswolfs 已提交
651
<a name="欢迎贡献"></a>
D
DanielYang 已提交
652
## 参与 PaddleSpeech 的开发
G
grasswolfs 已提交
653

小湉湉's avatar
小湉湉 已提交
654
热烈欢迎您在 [Discussions](https://github.com/PaddlePaddle/PaddleSpeech/discussions) 中提交问题,并在 [Issues](https://github.com/PaddlePaddle/PaddleSpeech/issues) 中指出发现的 bug。此外,我们非常希望您参与到 PaddleSpeech 的开发中!
G
grasswolfs 已提交
655 656 657 658 659 660 661 662 663 664 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694

### 贡献者
<p align="center">
<a href="https://github.com/zh794390558"><img src="https://avatars.githubusercontent.com/u/3038472?v=4" width=75 height=75></a>
<a href="https://github.com/Jackwaterveg"><img src="https://avatars.githubusercontent.com/u/87408988?v=4" width=75 height=75></a>
<a href="https://github.com/yt605155624"><img src="https://avatars.githubusercontent.com/u/24568452?v=4" width=75 height=75></a>
<a href="https://github.com/kuke"><img src="https://avatars.githubusercontent.com/u/3064195?v=4" width=75 height=75></a>
<a href="https://github.com/xinghai-sun"><img src="https://avatars.githubusercontent.com/u/7038341?v=4" width=75 height=75></a>
<a href="https://github.com/pkuyym"><img src="https://avatars.githubusercontent.com/u/5782283?v=4" width=75 height=75></a>
<a href="https://github.com/KPatr1ck"><img src="https://avatars.githubusercontent.com/u/22954146?v=4" width=75 height=75></a>
<a href="https://github.com/LittleChenCc"><img src="https://avatars.githubusercontent.com/u/10339970?v=4" width=75 height=75></a>
<a href="https://github.com/745165806"><img src="https://avatars.githubusercontent.com/u/20623194?v=4" width=75 height=75></a>
<a href="https://github.com/Mingxue-Xu"><img src="https://avatars.githubusercontent.com/u/92848346?v=4" width=75 height=75></a>
<a href="https://github.com/chrisxu2016"><img src="https://avatars.githubusercontent.com/u/18379485?v=4" width=75 height=75></a>
<a href="https://github.com/lfchener"><img src="https://avatars.githubusercontent.com/u/6771821?v=4" width=75 height=75></a>
<a href="https://github.com/luotao1"><img src="https://avatars.githubusercontent.com/u/6836917?v=4" width=75 height=75></a>
<a href="https://github.com/wanghaoshuang"><img src="https://avatars.githubusercontent.com/u/7534971?v=4" width=75 height=75></a>
<a href="https://github.com/gongel"><img src="https://avatars.githubusercontent.com/u/24390500?v=4" width=75 height=75></a>
<a href="https://github.com/mmglove"><img src="https://avatars.githubusercontent.com/u/38800877?v=4" width=75 height=75></a>
<a href="https://github.com/iclementine"><img src="https://avatars.githubusercontent.com/u/16222986?v=4" width=75 height=75></a>
<a href="https://github.com/ZeyuChen"><img src="https://avatars.githubusercontent.com/u/1371212?v=4" width=75 height=75></a>
<a href="https://github.com/AK391"><img src="https://avatars.githubusercontent.com/u/81195143?v=4" width=75 height=75></a>
<a href="https://github.com/qingqing01"><img src="https://avatars.githubusercontent.com/u/7845005?v=4" width=75 height=75></a>
<a href="https://github.com/ericxk"><img src="https://avatars.githubusercontent.com/u/4719594?v=4" width=75 height=75></a>
<a href="https://github.com/kvinwang"><img src="https://avatars.githubusercontent.com/u/6442159?v=4" width=75 height=75></a>
<a href="https://github.com/jiqiren11"><img src="https://avatars.githubusercontent.com/u/82639260?v=4" width=75 height=75></a>
<a href="https://github.com/AshishKarel"><img src="https://avatars.githubusercontent.com/u/58069375?v=4" width=75 height=75></a>
<a href="https://github.com/chesterkuo"><img src="https://avatars.githubusercontent.com/u/6285069?v=4" width=75 height=75></a>
<a href="https://github.com/tensor-tang"><img src="https://avatars.githubusercontent.com/u/21351065?v=4" width=75 height=75></a>
<a href="https://github.com/hysunflower"><img src="https://avatars.githubusercontent.com/u/52739577?v=4" width=75 height=75></a>  
<a href="https://github.com/wwhu"><img src="https://avatars.githubusercontent.com/u/6081200?v=4" width=75 height=75></a>
<a href="https://github.com/lispc"><img src="https://avatars.githubusercontent.com/u/2833376?v=4" width=75 height=75></a>
<a href="https://github.com/jerryuhoo"><img src="https://avatars.githubusercontent.com/u/24245709?v=4" width=75 height=75></a>
<a href="https://github.com/harisankarh"><img src="https://avatars.githubusercontent.com/u/1307053?v=4" width=75 height=75></a>
<a href="https://github.com/Jackiexiao"><img src="https://avatars.githubusercontent.com/u/18050469?v=4" width=75 height=75></a>
<a href="https://github.com/limpidezza"><img src="https://avatars.githubusercontent.com/u/71760778?v=4" width=75 height=75></a>
</p>

## 致谢

695
- 非常感谢 [yeyupiaoling](https://github.com/yeyupiaoling)/[PPASR](https://github.com/yeyupiaoling/PPASR)/[PaddlePaddle-DeepSpeech](https://github.com/yeyupiaoling/PaddlePaddle-DeepSpeech)/[VoiceprintRecognition-PaddlePaddle](https://github.com/yeyupiaoling/VoiceprintRecognition-PaddlePaddle)/[AudioClassification-PaddlePaddle](https://github.com/yeyupiaoling/AudioClassification-PaddlePaddle) 多年来的关注和建议,以及在诸多问题上的帮助。
696
- 非常感谢 [mymagicpower](https://github.com/mymagicpower) 采用PaddleSpeech 对 ASR 的[短语音](https://github.com/mymagicpower/AIAS/tree/main/3_audio_sdks/asr_sdk)[长语音](https://github.com/mymagicpower/AIAS/tree/main/3_audio_sdks/asr_long_audio_sdk)进行 Java 实现。
697 698
- 非常感谢 [JiehangXie](https://github.com/JiehangXie)/[PaddleBoBo](https://github.com/JiehangXie/PaddleBoBo) 采用 PaddleSpeech 语音合成功能实现 Virtual Uploader(VUP)/Virtual YouTuber(VTuber) 虚拟主播。
- 非常感谢 [745165806](https://github.com/745165806)/[PaddleSpeechTask](https://github.com/745165806/PaddleSpeechTask) 贡献标点重建相关模型。
L
lizi 已提交
699
- 非常感谢 [kslz](https://github.com/kslz) 补充中文文档。
P
Phecda xu 已提交
700
- 非常感谢 [awmmmm](https://github.com/awmmmm) 提供 fastspeech2 aishell3 conformer 预训练模型。
P
Phecda xu 已提交
701
- 非常感谢 [phecda-xu](https://github.com/phecda-xu)/[PaddleDubbing](https://github.com/phecda-xu/PaddleDubbing) 基于 PaddleSpeech 的 TTS 模型搭建带 GUI 操作界面的配音工具。
J
Jerryuhoo 已提交
702
- 非常感谢 [jerryuhoo](https://github.com/jerryuhoo)/[VTuberTalk](https://github.com/jerryuhoo/VTuberTalk) 基于 PaddleSpeech 的 TTS GUI 界面和基于 ASR 制作数据集的相关代码。
小湉湉's avatar
小湉湉 已提交
703

704
- 非常感谢 [vpegasus](https://github.com/vpegasus)/[xuesebot](https://github.com/vpegasus/xuesebot) 基于 PaddleSpeech 的 ASR 与 TTS 设计的可听、说对话机器人。
C
chenkui164 已提交
705
- 非常感谢 [chenkui164](https://github.com/chenkui164)/[FastASR](https://github.com/chenkui164/FastASR) 对PaddleSpeech 的 ASR 进行 C++ 实现。
H
Hui Zhang 已提交
706

G
grasswolfs 已提交
707 708 709 710 711
此外,PaddleSpeech 依赖于许多开源存储库。有关更多信息,请参阅 [references](./docs/source/reference.md)

## License

PaddleSpeech 在 [Apache-2.0 许可](./LICENSE) 下提供。