diff --git a/ernie-sat/.meta/framework.png b/ernie-sat/.meta/framework.png index 7c51a91658c79c0e082b921e19b361c59da690e3..c315bc5f32e27954ef1606abd515a4f77d299b21 100644 Binary files a/ernie-sat/.meta/framework.png and b/ernie-sat/.meta/framework.png differ diff --git a/ernie-sat/README.md b/ernie-sat/README.md index 27d6e90028e420d3ff98990f9267d0620dcb267b..8b919362319a2fe335ca9720e649b5833a196d96 100644 --- a/ernie-sat/README.md +++ b/ernie-sat/README.md @@ -2,8 +2,8 @@ ERNIE-SAT是可以同时处理中英文的跨语言的语音-语言跨模态大 ## 模型框架 ERNIE-SAT中我们提出了两项创新: -在预训练过程中将中英双语对应的音素作为输入,实现了跨语言、个性化的软音素映射; -采用语言和语音的联合掩码学习实现了语言和语音的对齐: +- 在预训练过程中将中英双语对应的音素作为输入,实现了跨语言、个性化的软音素映射; +- 采用语言和语音的联合掩码学习实现了语言和语音的对齐: ![framework](.meta/framework.png) @@ -49,7 +49,7 @@ unzip fastspeech2_nosil_ljspeech_ckpt_0.5.zip ### 4.推理 我们目前只开源了语音编辑、个性化语音合成、跨语言语音合成的推理代码,后续会逐步开源。 -注:当前采用的声码器版本与[模型训练时版本](https://github.com/kan-bayashi/ParallelWaveGAN)在英文上存在差异,您可使用模型训练时版本作为您的声码器,模型将在后续更新中升级。 +注:当前采用的声码器版本与[模型训练时版本](https://github.com/kan-bayashi/ParallelWaveGAN)在英文上存在差异,您可使用模型训练时版本作为您的声码器,模型将在后续更新中升级。 我们提供特定音频文件, 以及其对应的文本、音素相关文件: - prompt_wav: 提供的音频文件