Merge pull request #1516 from jerryuhoo/fix_speedyspeech

[TTS] fix Speedyspeech multi-speaker inference, test=tts

Merge pull request #1516 from jerryuhoo/fix_speedyspeech
[TTS] fix Speedyspeech multi-speaker inference, test=tts
dc1dc045 · 小湉湉 · GitHub · a19c721f · c116a3a9 · dc1dc045
Showing with 5 addition and 5 deletion

paddlespeech/t2s/exps/synthesize_e2e.py paddlespeech/t2s/exps/synthesize_e2e.py +4 -4

paddlespeech/t2s/models/speedyspeech/speedyspeech.py paddlespeech/t2s/models/speedyspeech/speedyspeech.py +1 -1

未找到文件。
--- a/paddlespeech/t2s/exps/synthesize_e2e.py
+++ b/paddlespeech/t2s/exps/synthesize_e2e.py
@@ -194,10 +194,10 @@ def evaluate(args):
                am_inference = jit.to_static(
                    am_inference,
                    input_spec=[
-                        InputSpec([-1], dtype=paddle.int64),  # text
-                        InputSpec([-1], dtype=paddle.int64),  # tone
-                        None,  # duration
-                        InputSpec([-1], dtype=paddle.int64)  # spk_id
+                        InputSpec([-1], dtype=paddle.int64), # text
+                        InputSpec([-1], dtype=paddle.int64), # tone
+                        InputSpec([1], dtype=paddle.int64),  # spk_id
+                        None                                 # duration
                    ])
            else:
                am_inference = jit.to_static(

--- a/paddlespeech/t2s/models/speedyspeech/speedyspeech.py
+++ b/paddlespeech/t2s/models/speedyspeech/speedyspeech.py
@@ -247,7 +247,7 @@ class SpeedySpeechInference(nn.Layer):
        self.normalizer = normalizer
        self.acoustic_model = speedyspeech_model

-    def forward(self, phones, tones, durations=None, spk_id=None):
+    def forward(self, phones, tones, spk_id=None, durations=None):
        normalized_mel = self.acoustic_model.inference(
            phones, tones, durations=durations, spk_id=spk_id)
        logmel = self.normalizer.inverse(normalized_mel)