benchmark_cn.md 1.5 KB
Newer Older
小湉湉's avatar
小湉湉 已提交
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
## 1. 训练 Benchmark

### 1.1 软硬件环境

* FastSpeech2 模型训练过程中使用 2 GPUs,每 GPU batch size为 64 进行训练。
* HiFiGAN 模型训练过程中使用 1 GPU,每 GPU batch size为 16 进行训练。
* python 版本: 3.7.0
* paddle 版本: v2.4.0rc0
* 机器: 8x Tesla V100-SXM2-32GB, 24 core Intel(R) Xeon(R) Gold 6148, 100Gbps RDMA network


### 1.2 数据集

| 语言 | 数据集 |音频信息 | 描述 |
| -------- | -------- | -------- | -------- |
| 中文 | [CSMSC](https://www.data-baker.com/open_source.html) | 48KHz, 16bit | 单说话人,女声,约12小时,具有高音频质量 |
| 中文 | [AISHELL-3](http://www.aishelltech.com/aishell_3) | 44.1kHz,16bit | 多说话人(218人),约85小时,音频质量不一致(有的说话人音频质量较高)|
| 英文 | [LJSpeech-1.1](https://keithito.com/LJ-Speech-Dataset/) | 22050Hz, 16bit | 单说话人,女声,约24小时,具有高音频质量|
| 英文 | [VCTK](https://datashare.ed.ac.uk/handle/10283/3443) | 48kHz, 16bit | 多说话人(110人),约44小时,音频质量不一致(有的说话人音频质量较高)|

### 1.3 指标

|模型名称 | 模型简介 | 模型体积 | ips |
|---|---|---|---|
|fastspeech2_mix |语音合成声学模型|388MB|135 sequences/sec|
|hifigan_csmsc|语音合成声码器|873MB|30 sequences/sec|

## 2. 推理 Benchmark

参考 [TTS-Benchmark](https://github.com/PaddlePaddle/PaddleSpeech/wiki/TTS-Benchmark)

## 3. 相关使用说明