diff --git a/README.md b/README.md index 3d1859f1f09b6cca8d5cee2914e7f6edb807f8fc..122704d2d081b4dac2fce328523fbbf94c5087f8 100644 --- a/README.md +++ b/README.md @@ -558,9 +558,9 @@ PaddleSpeech supports a series of most popular models. They are summarized in [r FastSpeech2 - LJSpeech / VCTK / CSMSC / AISHELL-3 + LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH_EN - fastspeech2-ljspeech / fastspeech2-vctk / fastspeech2-csmsc / fastspeech2-aishell3 + fastspeech2-ljspeech / fastspeech2-vctk / fastspeech2-csmsc / fastspeech2-aishell3 / fastspeech2-zh_en diff --git a/README_cn.md b/README_cn.md index e18823151f6b0094fe15134ec8ba03aeb9079f3b..ca42e71f6ef27c74dc9575cd3e5b5210750423c1 100644 --- a/README_cn.md +++ b/README_cn.md @@ -196,13 +196,13 @@ + python >= 3.7 + linux(推荐), mac, windows -PaddleSpeech依赖于paddlepaddle,安装可以参考[paddlepaddle官网](https://www.paddlepaddle.org.cn/),根据自己机器的情况进行选择。这里给出cpu版本示例,其它版本大家可以根据自己机器的情况进行安装。 +PaddleSpeech 依赖于 paddlepaddle,安装可以参考[ paddlepaddle 官网](https://www.paddlepaddle.org.cn/),根据自己机器的情况进行选择。这里给出 cpu 版本示例,其它版本大家可以根据自己机器的情况进行安装。 ```shell pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple ``` -PaddleSpeech快速安装方式有两种,一种是pip安装,一种是源码编译(推荐)。 +PaddleSpeech 快速安装方式有两种,一种是 pip 安装,一种是源码编译(推荐)。 ### pip 安装 ```shell @@ -223,9 +223,9 @@ pip install . ## 快速开始 -安装完成后,开发者可以通过命令行或者Python快速开始,命令行模式下改变 `--input` 可以尝试用自己的音频或文本测试,支持16k wav格式音频。 +安装完成后,开发者可以通过命令行或者 Python 快速开始,命令行模式下改变 `--input` 可以尝试用自己的音频或文本测试,支持 16k wav 格式音频。 -你也可以在`aistudio`中快速体验 👉🏻[一键预测,快速上手Speech开发任务](https://aistudio.baidu.com/aistudio/projectdetail/4353348?sUid=2470186&shared=1&ts=1660878142250)。 +你也可以在 `aistudio` 中快速体验 👉🏻[一键预测,快速上手 Speech 开发任务](https://aistudio.baidu.com/aistudio/projectdetail/4353348?sUid=2470186&shared=1&ts=1660878142250)。 测试音频示例下载 ```shell @@ -281,7 +281,7 @@ Python API 一键预测
 适配多场景的开放领域声音分类工具 -基于AudioSet数据集527个类别的声音分类模型 +基于 AudioSet 数据集 527 个类别的声音分类模型 命令行一键体验 @@ -350,7 +350,7 @@ Python API 一键预测
 端到端英译中语音翻译工具 -使用预编译的kaldi相关工具,只支持在Ubuntu系统中体验 +使用预编译的 kaldi 相关工具,只支持在 Ubuntu 系统中体验 命令行一键体验 @@ -370,12 +370,11 @@ python API 一键预测
- ## 快速使用服务 安装完成后,开发者可以通过命令行一键启动语音识别,语音合成,音频分类等多种服务。 -你可以在 AI Studio 中快速体验:[SpeechServer一键部署](https://aistudio.baidu.com/aistudio/projectdetail/4354592?sUid=2470186&shared=1&ts=1660878208266) +你可以在 AI Studio 中快速体验:[SpeechServer 一键部署](https://aistudio.baidu.com/aistudio/projectdetail/4354592?sUid=2470186&shared=1&ts=1660878208266) **启动服务** ```shell @@ -554,9 +553,9 @@ PaddleSpeech 的 **语音合成** 主要包含三个模块:文本前端、声 FastSpeech2 - LJSpeech / VCTK / CSMSC / AISHELL-3 + LJSpeech / VCTK / CSMSC / AISHELL-3 / ZH_EN - fastspeech2-ljspeech / fastspeech2-vctk / fastspeech2-csmsc / fastspeech2-aishell3 + fastspeech2-ljspeech / fastspeech2-vctk / fastspeech2-csmsc / fastspeech2-aishell3 / fastspeech2-zh_en diff --git a/demos/text_to_speech/README.md b/demos/text_to_speech/README.md index 389847a129b8d10787679c4442b8a1999ca044c5..3288ecf2f07ddeb028a83b2f33b1f13a62975928 100644 --- a/demos/text_to_speech/README.md +++ b/demos/text_to_speech/README.md @@ -45,7 +45,19 @@ The input of this demo should be a text of the specific language that can be pas You can change `spk_id` here. ```bash paddlespeech tts --am fastspeech2_vctk --voc pwgan_vctk --input "hello, boys" --lang en --spk_id 0 - ``` + ``` + - Chinese English Mixed, multi-speaker + You can change `spk_id` here. + ```bash + # The `am` must be `fastspeech2_mix`! + # The `lang` must be `mix`! + # The voc must be chinese datasets' voc now! + # spk 174 is csmcc, spk 175 is ljspeech + paddlespeech tts --am fastspeech2_mix --voc hifigan_csmsc --lang mix --input "热烈欢迎您在 Discussions 中提交问题,并在 Issues 中指出发现的 bug。此外,我们非常希望您参与到 Paddle Speech 的开发中!" --spk_id 174 --output mix_spk174.wav + paddlespeech tts --am fastspeech2_mix --voc hifigan_aishell3 --lang mix --input "热烈欢迎您在 Discussions 中提交问题,并在 Issues 中指出发现的 bug。此外,我们非常希望您参与到 Paddle Speech 的开发中!" --spk_id 174 --output mix_spk174_aishell3.wav + paddlespeech tts --am fastspeech2_mix --voc pwgan_csmsc --lang mix --input "我们的声学模型使用了 Fast Speech Two, 声码器使用了 Parallel Wave GAN and Hifi GAN." --spk_id 175 --output mix_spk175_pwgan.wav + paddlespeech tts --am fastspeech2_mix --voc hifigan_csmsc --lang mix --input "我们的声学模型使用了 Fast Speech Two, 声码器使用了 Parallel Wave GAN and Hifi GAN." --spk_id 175 --output mix_spk175.wav + ``` Usage: ```bash @@ -110,19 +122,29 @@ The input of this demo should be a text of the specific language that can be pas Here is a list of pretrained models released by PaddleSpeech that can be used by command and python API: - Acoustic model - | Model | Language + | Model | Language | | :--- | :---: | - | speedyspeech_csmsc| zh - | fastspeech2_csmsc| zh - | fastspeech2_aishell3| zh - | fastspeech2_ljspeech| en - | fastspeech2_vctk| en + | speedyspeech_csmsc | zh | + | fastspeech2_csmsc | zh | + | fastspeech2_ljspeech | en | + | fastspeech2_aishell3 | zh | + | fastspeech2_vctk | en | + | fastspeech2_cnndecoder_csmsc | zh | + | fastspeech2_mix | mix | + | tacotron2_csmsc | zh | + | tacotron2_ljspeech | en | - Vocoder - | Model | Language + | Model | Language | | :--- | :---: | - | pwgan_csmsc| zh - | pwgan_aishell3| zh - | pwgan_ljspeech| en - | pwgan_vctk| en - | mb_melgan_csmsc| zh + | pwgan_csmsc | zh | + | pwgan_ljspeech | en | + | pwgan_aishell3 | zh | + | pwgan_vctk | en | + | mb_melgan_csmsc | zh | + | style_melgan_csmsc | zh | + | hifigan_csmsc | zh | + | hifigan_ljspeech | en | + | hifigan_aishell3 | zh | + | hifigan_vctk | en | + | wavernn_csmsc | zh | diff --git a/demos/text_to_speech/README_cn.md b/demos/text_to_speech/README_cn.md index f967d3d4da47647037ac7a035b3c0ca930762691..ec5eb5ae92d421c6fb3790e9df9ddd9480ae9026 100644 --- a/demos/text_to_speech/README_cn.md +++ b/demos/text_to_speech/README_cn.md @@ -34,7 +34,7 @@ ``` - 中文, 多说话人 - 你可以改变 `spk_id` 。 + 你可以改变 `spk_id`。 ```bash paddlespeech tts --am fastspeech2_aishell3 --voc pwgan_aishell3 --input "你好,欢迎使用百度飞桨深度学习框架!" --spk_id 0 ``` @@ -45,10 +45,23 @@ ``` - 英文,多说话人 - 你可以改变 `spk_id` 。 + 你可以改变 `spk_id`。 ```bash paddlespeech tts --am fastspeech2_vctk --voc pwgan_vctk --input "hello, boys" --lang en --spk_id 0 ``` + - 中英文混合,多说话人 + 你可以改变 `spk_id`。 + ```bash + # The `am` must be `fastspeech2_mix`! + # The `lang` must be `mix`! + # The voc must be chinese datasets' voc now! + # spk 174 is csmcc, spk 175 is ljspeech + paddlespeech tts --am fastspeech2_mix --voc hifigan_csmsc --lang mix --input "热烈欢迎您在 Discussions 中提交问题,并在 Issues 中指出发现的 bug。此外,我们非常希望您参与到 Paddle Speech 的开发中!" --spk_id 174 --output mix_spk174.wav + paddlespeech tts --am fastspeech2_mix --voc hifigan_aishell3 --lang mix --input "热烈欢迎您在 Discussions 中提交问题,并在 Issues 中指出发现的 bug。此外,我们非常希望您参与到 Paddle Speech 的开发中!" --spk_id 174 --output mix_spk174_aishell3.wav + paddlespeech tts --am fastspeech2_mix --voc pwgan_csmsc --lang mix --input "我们的声学模型使用了 Fast Speech Two, 声码器使用了 Parallel Wave GAN and Hifi GAN." --spk_id 175 --output mix_spk175_pwgan.wav + paddlespeech tts --am fastspeech2_mix --voc hifigan_csmsc --lang mix --input "我们的声学模型使用了 Fast Speech Two, 声码器使用了 Parallel Wave GAN and Hifi GAN." --spk_id 175 --output mix_spk175.wav + ``` + 使用方法: ```bash @@ -112,19 +125,29 @@ 以下是 PaddleSpeech 提供的可以被命令行和 python API 使用的预训练模型列表: - 声学模型 - | 模型 | 语言 + | 模型 | 语言 | | :--- | :---: | - | speedyspeech_csmsc| zh - | fastspeech2_csmsc| zh - | fastspeech2_aishell3| zh - | fastspeech2_ljspeech| en - | fastspeech2_vctk| en + | speedyspeech_csmsc | zh | + | fastspeech2_csmsc | zh | + | fastspeech2_ljspeech | en | + | fastspeech2_aishell3 | zh | + | fastspeech2_vctk | en | + | fastspeech2_cnndecoder_csmsc | zh | + | fastspeech2_mix | mix | + | tacotron2_csmsc | zh | + | tacotron2_ljspeech | en | - 声码器 - | 模型 | 语言 + | 模型 | 语言 | | :--- | :---: | - | pwgan_csmsc| zh - | pwgan_aishell3| zh - | pwgan_ljspeech| en - | pwgan_vctk| en - | mb_melgan_csmsc| zh + | pwgan_csmsc | zh | + | pwgan_ljspeech | en | + | pwgan_aishell3 | zh | + | pwgan_vctk | en | + | mb_melgan_csmsc | zh | + | style_melgan_csmsc | zh | + | hifigan_csmsc | zh | + | hifigan_ljspeech | en | + | hifigan_aishell3 | zh | + | hifigan_vctk | en | + | wavernn_csmsc | zh |