README_cn.md 11.9 KB
Newer Older
F
Feiyu Chan 已提交
1 2
# Deep Voice 3 with Paddle Fluid

3
[English](README.md)
F
Feiyu Chan 已提交
4 5 6 7 8 9 10 11 12

Paddle 实现的 Deepvoice3,一个基于卷积神经网络的语音合成 (Text to Speech) 模型。本实现基于 [Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning](https://arxiv.org/abs/1710.07654)

本 Deepvoice3 实现使用 Paddle 动态图模式,这对于灵活的网络结构更为方便。

## 安装

### 安装 paddlepaddle 框架

13
为了更快的训练速度和更好的支持,我们推荐使用最新的 Paddle 开发版。用户也可以最新编译的开发版 whl 包,也可以选择从源码编译 Paddle。
F
Feiyu Chan 已提交
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65

1. 下载最新编译的开发版 whl 包。可以从  [**多版本 wheel 包列表-dev**](https://www.paddlepaddle.org.cn/documentation/docs/zh/beginners_guide/install/Tables.html#whl-dev) 页面中选择合适的版本。

2. 从源码编译 Paddle. 参考[**从源码编译**](https://www.paddlepaddle.org.cn/documentation/docs/zh/beginners_guide/install/compile/fromsource.html) 页面。注意,如果你需要使用多卡训练,那么编译前需要设置选项 `-DWITH_DISTRIBUTE=ON`

### 其他依赖

使用 pip 安装其他依赖。

```bash
pip install -r requirements.txt
```

另外需要下载 nltk 的两个库,因为使用了 `punkt` 对文本进行 tokenization,并且使用了 `cmudict` 来将文本转为音位。

```python
import nltk
nltk.download("punkt")
nltk.download("cmudict")
```

## 模型结构

![DeepVoice3 模型结构](./_images/model_architecture.png)

模型包含 encoder, decoder, converter 几个部分,对于 multispeaker 数据集,还有一个 speaker embedding。其中 encoder 和 decoder 构成 seq2seq 部分,converter 构成 postnet 部分。

## 项目结构

```text
├── audio.py                        # 用于处理处理音频的函数
├── compute_timestamp_ratio.py      # 计算 position rate 的脚本
├── conversion                      # 用于转换 pytorch 实现的参数
├── requirements.txt                # 项目依赖
├── hparams.py                      # DeepVoice3 运行超参数配置类的定义
├── hparam_tf                       # 超参数相关
├── ljspeech.py                     # ljspeech 数据集预处理
├── preprocess.py                   # 通用预处理脚本
├── presets                         # 预设超参数配置
├── deepvoice3_paddle               # DeepVoice3 模型实现的主要文件
├── eval_model.py                   # 模型测评相关函数
├── synthesis.py                    # 用于语音合成的脚本
├── train_model.py                  # 模型训练相关函数
└── train.py                        # 用于模型训练的脚本
```

## 使用方法

根据所使用的模型配置和数据集的不同,有不少超参数需要进行调节。我们提供已知结果较好的超参数设置,详见 `presets` 文件夹。目前我们只提供 LJSpeech 的预设配置 (`deepvoice3_ljspeech.json`)。后续将提供更多模型和数据集的预设配置。

`preprocess.py``train.py``synthesis.py` 都接受 `--preset` 参数。为了保持一致性,最好在数据预处理,模型训练和语音合成时使用相同的预设配置。

66
可以通过 `--hparams` 参数来覆盖预设的超参数配置,参数格式是逗号分隔的键值对 `${key}=${value}`,例如 `--hparams="batch_size=8, nepochs=500"`
F
Feiyu Chan 已提交
67

68
部分参数只和训练有关,如 `batch_size`, `checkpoint_interval`, 用户在训练时可以使用不同的值。但部分参数和数据预处理相关,如 `num_mels``ref_level_db`, 这些参数在数据预处理和训练时候应该保持一致。
F
Feiyu Chan 已提交
69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89

关于超参数设置更多细节可以参考 `hparams.py` ,其中定义了 hparams。超参数的优先级序列是:通过命令行参数 `--hparams` 传入的参数优先级高于通过 `--preset` 参数传入的 json 配置文件,高于 `hparams.py` 中的定义。

### 数据集

下载并解压 [LJSpeech](https://keithito.com/LJ-Speech-Dataset/) 数据集。

```bash
wget https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2
tar xjvf LJSpeech-1.1.tar.bz2
```

使用 `preprocess.py`进行预处理。

```bash
python preprocess.py \
    --preset=${preset_json_path} \
    --hparams="hyper parameters you want to overwrite" \
    ${name} ${in_dir} ${out_dir}
```

90
目前 `${name}$` 只支持 `ljspeech`。未来将会支持更多数据集。
F
Feiyu Chan 已提交
91

92
假设你使用 `presers/deepvoice3_ljspeech.json` 作为处理 LJSpeech 的预设配置文件,并且解压后的数据集位于  `./data/LJSpeech-1.1`, 那么使用如下的命令进行数据预处理。
F
Feiyu Chan 已提交
93 94 95 96

```bash
python preprocess.py \
    --preset=presets/deepvoice3_ljspeech.json \
97
    ljspeech ./data/LJSpeech-1.1/ ./data/ljspeech
F
Feiyu Chan 已提交
98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
```

数据处理完成后,你会在 `./data/ljspeech` 看到提取的特征,包含如下文件。

1. `train.txt`,包含文本和对应的音频特征的文件名。
2. `ljspeech-mel-*.npy`,包含 mel 频谱。
3. `ljspeech-spec-*.npy`,包含线性频谱。

### 使用 GPU 单卡训练

在单个 GPU 上训练整个模型的使用方法如下。

```bash
export CUDA_VISIBLE_DEVICES=0
python train.py --data-root=${data-root} --use-gpu \
    --preset=${preset_json_path} \
    --hparams="parameters you may want to override"
```

用于可以通过 `python train.py --help` 查看 `train.py` 的详细使用方法。

#### 加载保存的模型

121 122 123
我们提供了使用默认的配置文件训练的模型 [dv3.single_frame](https://paddlespeech.bj.bcebos.com/Parakeet/dv3.single_frame.tar.gz) 供用户下载。使用 `tar xzvf dv3.single_frame.tar.gz` 解压下载的文件,会得到 `config.json`, `model.pdparams` and `README.md`。其中 `config.json` 是模型训练时使用的配置文件,`model.pdparams` 是参数文件,`README.md` 是模型的简要说明。

用户可以通过 `--checkpoint` 参数加载保存的模型并恢复训练(注意:只需要传基础文件名,不需要扩展名,例如需要加载 `model.pdparams` 那么,只需要使用 `--checkpoint=model`)。如果同一个文件夹内有一个和参数文件基础文件名相同,而后缀为 `.pdopt` 的文件,(如 `model.pdopt`,即优化器文件),那么该文件也会被自动加载。如果你想要重置优化器的状态,在训练脚本加入 `--reset-optimizer` 参数。
F
Feiyu Chan 已提交
124 125 126 127 128

#### 训练模型的一部分

用户可以通过 `--train-seq2seq-only` 或者 `--train-postnet-only` 来实现固定模型的其他部分,只训练需要训练的部分。但当只训练模型的一部分时,其他的部分需要从保存的模型中加载。

129
当只训练模型的 `seq2seq` 部分或者 `postnet` 部分时,需要使用 `--checkpoint` 加载整个模型并保持相同的配置。注意,当只训练 `postnet` 的时候,需要保证配置中的`use_decoder_state_for_postnet_input=false`,因为在这种情况下,postnet 使用真实的 mel 频谱作为输入。注意,`use_decoder_state_for_postnet_input` 的默认值是 `True`
F
Feiyu Chan 已提交
130 131 132 133 134 135 136 137 138

示例:

```bash
export CUDA_VISIBLE_DEVICES=0
python train.py --data-root=${data-root} --use-gpu \
    --preset=${preset_json_path} \
    --hparams="parameters you may want to override" \
    --train-seq2seq-only \
139
    --output=${directory_to_save_results}
F
Feiyu Chan 已提交
140 141 142 143
```

### 使用 GPU 多卡训练

144
本模型支持使用多个 GPU 通过数据并行的方式训练。方法是使用 `paddle.distributed.launch` 模块来启动 `train.py`
F
Feiyu Chan 已提交
145 146 147 148 149

```bash
python -m paddle.distributed.launch \
    --started_port ${port_of_the_first_worker} \
    --selected_gpus ${logical_gpu_ids_to_choose} \
150
    --log_dir ${path_to_write_log} \
F
Feiyu Chan 已提交
151 152 153 154 155 156 157 158 159 160 161 162
    training_script ...
```

paddle.distributed.launch 通过多进程的方式进行并行训练。`--selected_gpus` 指的是选择的 GPU 的逻辑序号,`started_port` 指的是 0 号显卡的使用的端口号,`--log_dir` 是日志保存的目录,每个进程的输出会在这个文件夹中保存为单独的文件。再在后面接上需要启动的脚本文件及其参数即可。这部分和单卡训练的脚本一致,但是需要传入 `--use-data-paralle` 以使用数据并行训练。示例命令如下。

```bash
export CUDA_VISIBLE_DEVICES=2,3,4,5    # The IDs of visible physical devices
python -m paddle.distributed.launch \
    --selected_gpus=0,1,2,3 --log_dir ${multi_gpu_log_dir} \
    train.py --data-root=${data-root} \
    --use-gpu --use-data-parallel \
    --preset=${preset_json_path} \
163 164
    --hparams="parameters you may want to override" \
    --output=${directory_to_save_results}
F
Feiyu Chan 已提交
165 166 167 168
```

上述的示例中,设置了 `2, 3, 4, 5` 号显卡为可见的 GPU。然后 `--selected_gpus=0,1,2,3` 选择的是 GPU 的逻辑序号,分别对应于  `2, 3, 4, 5` 号卡。

169
模型 (模型参数保存为`*.pdparams` 文件,优化器被保存为 `*.pdopt` 文件)保存在 `${directory_to_save_results}/checkpoints` 文件夹中。多层平均的注意力机制对齐结果被保存为 `.png` 图片,默认保存在 `${directory_to_save_results}/checkpoints/alignment_ave` 中。每一层的注意力机制对齐结果默认被保存在 `${directory_to_save_results}/checkpoints/alignment_layer{attention_layer_num}`文件夹中。默认每 10000 步保存一次用于查看。
F
Feiyu Chan 已提交
170

171
对 6 个给定的句子的语音合成结果保存在 `${directory_to_save_results}/checkpoints/eval` 中,包含多层平均平均的注意力机制对齐结果,这被保存为名为  `step{step_num}_text{text_id}_single_alignment.png` 的图片;以及合成的音频文件,保存为名为 `step{step_num}_text{text_id}_single_predicted.wav` 的音频。
F
Feiyu Chan 已提交
172 173 174 175


### 使用 Tensorboard 查看训练

176
Tensorboard 训练日志被保存在 `${directory_to_save_results}/log/` 文件夹,可以通过 tensorboard 查看。使用方法如下。
F
Feiyu Chan 已提交
177 178 179 180 181 182 183 184 185 186

```bash
tensorboard --logdir=${log_dir} --host=$HOSTNAME --port=8888
```

### 从保存的模型合成语音

给定一组文本,使用  `synthesis.py` 从一个训练好的模型来合成语音,使用方法如下。

```bash
187
python synthesis.py --use-gpu --preset=${preset_json_path} \
F
Feiyu Chan 已提交
188
    --hparams="parameters you may want to override" \
189
      ${checkpoint} ${text_list_file} ${dst_dir}
F
Feiyu Chan 已提交
190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205
```

示例文本文件如下:

```text
Generative adversarial network or variational auto-encoder.
Once upon a time there was a dear little girl who was loved by every one who looked at her, but most of all by her grandmother, and there was nothing that she would not have given to the child.
A text-to-speech synthesis system typically consists of multiple stages, such as a text analysis frontend, an acoustic model and an audio synthesis module.
```

合成的结果包含注意力机制对齐结果和音频文件,保存于 `${dst_dir}`

### 计算 position rate

根据 [Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning](https://arxiv.org/abs/1710.07654), 对于不同的数据集,会有不同的 position rate. 有两个不同的 position rate,一个用于 query 一个用于 key, 这在论文中称为 $\omega_1$ 和 $\omega_2$ ,在预设配置文件中的名字分别为 `query_position_rate``key_position_rate`

206
比如 LJSpeech 数据集的 `query_position_rate``key_position_rate` 分别为 `1.0``1.385`。固定 `query_position_rate` 为 1.0,`key_position_rate` 可以使用 `compute_timestamp_ratio.py` 计算,命令如下,其中 `${data_root}` 是预处理后的数据集路径。
F
Feiyu Chan 已提交
207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224

```bash
python compute_timestamp_ratio.py --preset=${preset_json_path} \
    --hparams="parameters you may want to override" ${data_root}
```

可以得到如下的结果。

```text
100%|██████████████████████████████████████████████████████████| 13047/13047 [00:12<00:00, 1058.19it/s]
1345587 1863884.0 1.3851828235558161
```

然后在预设配置文件中设置 `key_position_rate=1.385` 以及 `query_position_rate=1.0`

## 致谢

本实现包含及改写了 r9y9's 的 [deepvoice3_pytorch](https://github.com/r9y9/deepvoice3_pytorch) 中的部分文件,在此表示感谢。