diff --git a/README.md b/README.md index b9410eecd1a9e220f62a1ee9cd0ed5f0504280c6..bcd7e4e427c860dc48edbdf4fe6af5527ba5b757 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,5 @@ +([简体中文](./README_cn.md)|English) +
@@ -11,10 +13,17 @@ ------------------------------------------------------------------------------------ -![License](https://img.shields.io/badge/license-Apache%202-red.svg) -![python version](https://img.shields.io/badge/python-3.7+-orange.svg) -![support os](https://img.shields.io/badge/os-linux-yellow.svg) -![Hugging Face Spaces](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue) + + + +**PaddleSpeech** 是基于飞桨 [PaddlePaddle](https://github.com/PaddlePaddle/Paddle) 深度学习开源框架平台上的一个开源模型库,用于语音和音频中的各种关键任务的开发,包含大量前沿和有影响力的模型,一些典型的应用示例如下: +##### 语音识别 + +
输入音频 | +识别结果 | +
---|---|
+
+ + |
+ I knocked at the door on the ancient side of the building. | +
+
+ + |
+ 我认为跑步最重要的就是给我带来了身体健康。 | +
输入音频 | +翻译结果 | +
---|---|
+
+ + |
+ 我 在 这栋 建筑 的 古老 门上 敲门。 | +
输入文本 | +合成音频 | +
---|---|
Life was like a box of chocolates, you never know what you're gonna get. | +
+
+ + |
+
早上好,今天是2020/10/29,最低温度是-3°C。 | +
+
+ + |
+
语音转文本模块种类 | +数据集 | +模型种类 | +链接 | +
---|---|---|---|
语音识别 | +Aishell | +DeepSpeech2 RNN + Conv based Models | ++ deepspeech2-aishell + | +
基于Transformer的Attention模型 | ++ u2.transformer.conformer-aishell + | +||
Librispeech | +基于Transformer的Attention模型 | ++ deepspeech2-librispeech / transformer.conformer.u2-librispeech / transformer.conformer.u2-kaldi-librispeech + | + +|
对齐 | +THCHS30 | +MFA | ++ mfa-thchs30 + | +
语言模型 | +Ngram 语言模型 | ++ kenlm + | +|
TIMIT | +Unified Streaming & Non-streaming Two-pass | ++ u2-timit + | +|
语音翻译(英译中) | +TED En-Zh | +Transformer + ASR MTL | ++ transformer-ted + | +
FAT + Transformer + ASR MTL | ++ fat-st-ted + | +
语音合成模块类型 | +模型种类 | +数据集 | +链接 | +
---|---|---|---|
文本前端 | ++ | + tn / g2p + | +|
声学模型 | +Tacotron2 | +LJSpeech | ++ tacotron2-ljspeech + | +
Transformer TTS | ++ transformer-ljspeech + | +||
SpeedySpeech | +CSMSC | ++ speedyspeech-csmsc + | +|
FastSpeech2 | +AISHELL-3 / VCTK / LJSpeech / CSMSC | ++ fastspeech2-aishell3 / fastspeech2-vctk / fastspeech2-ljspeech / fastspeech2-csmsc + | +|
声码器 | +WaveFlow | +LJSpeech | ++ waveflow-ljspeech + | +
Parallel WaveGAN | +LJSpeech / VCTK / CSMSC | ++ PWGAN-ljspeech / PWGAN-vctk / PWGAN-csmsc + | +|
Multi Band MelGAN | +CSMSC | ++ Multi Band MelGAN-csmsc + | +|
声音克隆 | +GE2E | +Librispeech, etc. | ++ ge2e + | +
GE2E + Tactron2 | +AISHELL-3 | ++ ge2e-tactron2-aishell3 + | +|
GE2E + FastSpeech2 | +AISHELL-3 | ++ ge2e-fastspeech2-aishell3 + | +
任务 | +数据集 | +模型种类 | +链接 | +
---|---|---|---|
声音分类 | +ESC-50 | +PANN | ++ pann-esc50 + | +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ +## 致谢 + +- 非常感谢 [yeyupiaoling](https://github.com/yeyupiaoling) 多年来的关注和建议,以及在诸多问题上的帮助。 +- 非常感谢 [AK391](https://github.com/AK391) 在 Huggingface Spaces 上使用 Gradio 对我们的语音合成功能进行网页版演示。 + +此外,PaddleSpeech 依赖于许多开源存储库。有关更多信息,请参阅 [references](./docs/source/reference.md)。 + +## License + +PaddleSpeech 在 [Apache-2.0 许可](./LICENSE) 下提供。