19.9 KB
Newer Older
grasswolfs 已提交
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134
<p align="center">
  <img src="./docs/images/PaddleSpeech_logo.png" />
<div align="center">  

  <a href="#quick-start"> 快速开始 </a>
  | <a href="#documents"> 教程 </a>
  | <a href="#model-list"> 模型列表 </a>

<p align="center">
    <a href="./LICENSE"><img src=""></a>
    <a href="support os"><img src=""></a>
    <a href=""><img src=""></a>
    <a href=""><img src=""></a>
    <a href=""><img src=""></a>
    <a href=""><img src=""></a>
    <a href=""><img src=""></a>
    <a href="Hugging Face Spaces"><img src=""></a>

1.What is this repo or project? (You can reuse the repo description you used earlier because this section doesn’t have to be long.)
2.How does it work?
3.Who will use this repo or project?
4.What is the goal of this project?

**PaddleSpeech** 是基于飞桨 [PaddlePaddle]( 深度学习开源框架平台上的一个开源模型库,用于语音和音频中的各种关键任务的开发,包含大量前沿和有影响力的模型,一些典型的应用示例如下:
##### 语音识别

<div align = "center">
<table style="width:100%">
      <th> 输入音频  </th>
      <th width="550"> 识别结果  </th>
      <td align = "center">
      <a href="" rel="nofollow">
            <img align="center" src="./docs/images/audio_icon.png" width="200 style="max-width: 100%;"></a><br>
      <td >I knocked at the door on the ancient side of the building.</td>
      <td align = "center">
      <a href="" rel="nofollow">
            <img align="center" src="./docs/images/audio_icon.png" width="200" style="max-width: 100%;"></a><br>


##### 语音翻译 (英译中)

<div align = "center">
<table style="width:100%">
      <th> 输入音频  </th>
      <th width="550"> 翻译结果  </th>
      <td align = "center">
      <a href="" rel="nofollow">
            <img align="center" src="./docs/images/audio_icon.png" width="200 style="max-width: 100%;"></a><br>
      <td >我 在 这栋 建筑 的 古老 门上 敲门。</td>


##### 文本转语音
<div align = "center">
<table style="width:100%">
      <th><img width="200" height="1"> 输入文本 <img width="200" height="1"> </th>
      <td >Life was like a box of chocolates, you never know what you're gonna get.</td>
      <td align = "center">
      <a href="" rel="nofollow">
            <img align="center" src="./docs/images/audio_icon.png" width="200" style="max-width: 100%;"></a><br>
      <td >早上好,今天是2020/10/29,最低温度是-3°C。</td>
      <td align = "center">
      <a href="" rel="nofollow">
            <img align="center" src="./docs/images/audio_icon.png" width="200" style="max-width: 100%;"></a><br>


更多合成音频,可以参考 [PaddleSpeech文本转语音样本](

### 特性:

- 📦 **易用性**: 安装门槛低,可使用[CLI](#quick-start)快速开始。
- 🏆 **对标SoTA**: 提供了高速、轻量级模型,且借鉴了最前沿的技术。
- 💯 **基于规则的中文前端**: 我们的前端包含文本正则化和字音转换(G2P)。此外,我们使用自定义语言规则来适应中文语境。
- **多种工业界以及学术界主流功能支持**:
  - 🛎️ 典型音频任务: 本工具包提供了音频任务如音频分类、语音翻译、自动语音识别、文本转语音、语音合成等任务的实现。
  - 🔬 主流模型及数据集: 本工具包实现了参与整条语音任务流水线的各个模块,并且采用了主流数据集如LibriSpeech、LJSpeech、AIShell、CSMSC,详情请见 [模型列表](#model-list)
  - 🧩 级联模型应用: 作为传统语音任务的扩展,我们结合了自然与语言处理、计算机视觉等任务,实现更接近实际需求的产业级应用。

### 近期更新:

2021.12.14: We would like to have an online courses to introduce basics and research of speech, as well as code practice with `paddlespeech`. Please pay attention to our [Calendar](
DanielYang 已提交
- 🤗 2021.12.14: 我们在 Hugging Face Spaces 上的 [ASR]( 以及 [TTS]( Demos 上线啦!
grasswolfs 已提交
136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462
- 👏🏻 2021.12.10: PaddleSpeech CLI 上线!覆盖了声音分类、语音识别、语音翻译(英译中)以及语音合成。

### 交流
欢迎加入以下微信群,直接和我们 PaddleSpeech 团队进行交流!

<div align="center">
<img src="./docs/images/wechat_group.png"  width = "200"  />


## 安装

我们强烈建议我们的用户在 **Linux** 环境下,*3.7*以上版本的 *python* 来安装我们的PaddleSpeech。这种情况我们的`paddlespeech`安装只需要一条`pip`命令:
pip install paddlepaddle paddlespeech
目前为止,对于**Mac OSX、 LiNUX** 支持声音分类、语音识别、语音合成和语音翻译四种功能,**Windows** 下暂不支持语音翻译功能。 想了解更多安装细节,可以参考[安装文档](./docs/source/

## 快速开始

安装完成后,开发者可以通过命令行快速开始,改变`--input `可以尝试用自己的音频或文本测试。

paddlespeech cls --input input.wav
paddlespeech asr --lang zh --input input_16k.wav
**语音翻译** (English to Chinese)
paddlespeech st --input input_16k.wav
paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav
> Note: 如果需要训练或者微调,请查看[语音识别](./docs/source/asr/, [语音合成](./docs/source/tts/。

## 模型列表

PaddleSpeech 支持很多主流的模型,并提供了预训练模型,详情请见[模型列表](./docs/source/

**语音转文本** 包含声学模型和语言模型, 详情如下:

The current hyperlinks redirect to [Previous Parakeet](

<table style="width:100%">
      <td rowspan="3">语音识别</td>
      <td rowspan="2" >Aishell</td>
      <td >DeepSpeech2 RNN + Conv based Models</td>
      <a href = "./examples/aishell/asr0">deepspeech2-aishell</a>
      <td>基于Transformer的Attention模型 </td>
      <a href = "./examples/aishell/asr1">u2.transformer.conformer-aishell</a>
      <td> Librispeech</td>
      <td>基于Transformer的Attention模型 </td>
      <a href = "./examples/librispeech/asr0">deepspeech2-librispeech</a> / <a href = "./examples/librispeech/asr1">transformer.conformer.u2-librispeech</a>  / <a href = "./examples/librispeech/asr2">transformer.conformer.u2-kaldi-librispeech</a>
  <a href = ".examples/thchs30/align0">mfa-thchs30</a>
      <td rowspan="2">语言模型</td>
      <td colspan = "2">Ngram 语言模型</td>
      <a href = "./examples/other/ngram_lm">kenlm</a>
      <td>Unified Streaming & Non-streaming Two-pass</td>
    <a href = "./examples/timit/asr1"> u2-timit</a>
      <td rowspan="2">语音翻译(英译中)</td> 
      <td rowspan="2">TED En-Zh</td>
      <td>Transformer + ASR MTL</td>
      <a href = "./examples/ted_en_zh/st0">transformer-ted</a>
      <td>FAT + Transformer + ASR MTL</td>
      <a href = "./examples/ted_en_zh/st1">fat-st-ted</a>

PaddleSpeech 中的 **文本转语音** 主要包含三个模块:*文本前端**声学模型**声码器*。声学模型和声码器模型如下:

      <th> 文字转语音模块类型 <img width="110" height="1"> </th>
      <th>  模型种类  </th>
      <th> <img width="50" height="1"> 数据集  <img width="50" height="1"> </th>
      <th> <img width="101" height="1"> 链接 <img width="105" height="1"> </th>
    <td> 文本前端</td>
    <td colspan="2"> &emsp; </td>
    <a href = "./examples/other/tn">tn</a> / <a href = "./examples/other/g2p">g2p</a>
      <td rowspan="4">声学模型</td>
      <td >Tacotron2</td>
      <td rowspan="2" >LJSpeech</td>
      <a href = "./examples/ljspeech/tts0">tacotron2-ljspeech</a>
      <td>Transformer TTS</td>
      <a href = "./examples/ljspeech/tts1">transformer-ljspeech</a>
      <td >
      <a href = "./examples/csmsc/tts2">speedyspeech-csmsc</a>
      <td>AISHELL-3 / VCTK / LJSpeech / CSMSC</td>
      <a href = "./examples/aishell3/tts3">fastspeech2-aishell3</a> / <a href = "./examples/vctk/tts3">fastspeech2-vctk</a> / <a href = "./examples/ljspeech/tts3">fastspeech2-ljspeech</a> / <a href = "./examples/csmsc/tts3">fastspeech2-csmsc</a>
      <td rowspan="3">Vocoder</td>
      <td >WaveFlow</td>
      <td >LJSpeech</td>
      <a href = "./examples/ljspeech/voc0">waveflow-ljspeech</a>
      <td >Parallel WaveGAN</td>
      <td >LJSpeech / VCTK / CSMSC</td>
      <a href = "./examples/ljspeech/voc1">PWGAN-ljspeech</a> / <a href = "./examples/vctk/voc1">PWGAN-vctk</a> / <a href = "./examples/csmsc/voc1">PWGAN-csmsc</a>
      <td >Multi Band MelGAN</td>
      <td >CSMSC</td>
      <a href = "./examples/csmsc/voc3">Multi Band MelGAN-csmsc</a> 
      <td rowspan="3">Voice Cloning</td>
      <td >Librispeech, etc.</td>
      <a href = "./examples/other/ge2e">ge2e</a>
      <td>GE2E + Tactron2</td>
      <a href = "./examples/aishell3/vc0">ge2e-tactron2-aishell3</a>
      <td>GE2E + FastSpeech2</td>
      <a href = "./examples/aishell3/vc1">ge2e-fastspeech2-aishell3</a>


<table style="width:100%">
      <th> <img width="150" height="1">任务 <img width="150" height="1"></th>
      <th> <img width="110" height="1">数据集 <img width="110" height="1"></th>
      <th> <img width="110" height="1">模型种类 <img width="110" height="1"></th>
      <th> <img width="110" height="1">链接<img width="110" height="1"></th>

      <td>Audio Classification</td>
      <a href = "./examples/esc50/cls0">pann-esc50</a>

## 文档

[语音 SoTA]([声音 SoTA]([音乐 SoTA]( 概述了相关领域的热门学术话题。对于 PaddleSpeech 的所关注的任务,以下指南有助于掌握核心思想。

- [安装](./docs/source/
- Tutorials
  - [语音识别](./docs/source/asr/
    - [简介](./docs/source/asr/
    - [数据准备](./docs/source/asr/
    - [数据增强](./docs/source/asr/
    - [Ngram 语言模型](./docs/source/asr/
  - [语音合成](./docs/source/tts/
    - [简介](./docs/source/tts/
    - [进阶用法](./docs/source/tts/
    - [中文文本前端](./docs/source/tts/
    - [测试语音样本](
  - 声音分类
  - 语音翻译
- [模型](./docs/source/

语音合成模块最初被称为 [Parakeet](,现在与此存库合并。如果您改任务的学术研究感兴趣,请参阅[TTS 研究概述](。此外,[模型介绍]( 是了解语音合成流程的一个很好的指南。

## 引用

要引用 PaddleSpeech 进行研究,请使用以下格式进行引用。
title={PaddleSpeech, a toolkit for audio processing based on PaddlePaddle.},
author={PaddlePaddle Authors},
howpublished = {\url{}},

## 参与PaddleSpeech的开发

热烈欢迎您在[讨论]( 中提交问题,并在[问题]( 中指出发现的bug。此外,我们非常希望您愿意参与到PaddleSpeech的开发中!

### 贡献者
<p align="center">
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>  
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>
<a href=""><img src="" width=75 height=75></a>

## 致谢

- 非常感谢 [yeyupiaoling]( 多年来的关注和建议,以及在诸多问题上的帮助。
- 非常感谢 [AK391]( 在 Huggingface Spaces 上使用 Gradio 对我们的语音合成功能进行网页版演示。

此外,PaddleSpeech 依赖于许多开源存储库。有关更多信息,请参阅 [references](./docs/source/

## License

PaddleSpeech 在 [Apache-2.0 许可](./LICENSE) 下提供。