update several scripts to support mfcc

724ef185 · Yibing Liu · ee5abbe3 · 724ef185 · 724ef185 · 724ef185
隐藏空白更改
内联并排

Showing with 23 addition and 0 deletion

README.md README.md +2 -0

evaluate.py evaluate.py +7 -0

infer.py infer.py +7 -0

tune.py tune.py +7 -0

未找到文件。
--- a/README.md
+++ b/README.md
@@ -44,6 +44,8 @@ python compute_mean_std.py
 python compute_mean_std.py --specgram_type mfcc
 ```
+and specify the ```specgram_type``` to ```mfcc``` in each step, including training, inference etc.
 More help for arguments:
 ```

--- a/evaluate.py
+++ b/evaluate.py
@@ -86,6 +86,12 @@ parser.add_argument(
    default=500,
    type=int,
    help="Width for beam search decoding. (default: %(default)d)")
+parser.add_argument(
+    "--specgram_type",
+    default='linear',
+    type=str,
+    help="Feature type of audio data: 'linear' (power spectrum)"
+    " or 'mfcc'. (default: %(default)s)")
 parser.add_argument(
    "--decode_manifest_path",
    default='datasets/manifest.test',
@@ -111,6 +117,7 @@ def evaluate():
        vocab_filepath=args.vocab_filepath,
        mean_std_filepath=args.mean_std_filepath,
        augmentation_config='{}',
+        specgram_type=args.specgram_type,
        num_threads=args.num_threads_data)
    # create network config

--- a/infer.py
+++ b/infer.py
@@ -51,6 +51,12 @@ parser.add_argument(
    default=multiprocessing.cpu_count(),
    type=int,
    help="Number of cpu processes for beam search. (default: %(default)s)")
+parser.add_argument(
+    "--specgram_type",
+    default='linear',
+    type=str,
+    help="Feature type of audio data: 'linear' (power spectrum)"
+    " or 'mfcc'. (default: %(default)s)")
 parser.add_argument(
    "--mean_std_filepath",
    default='mean_std.npz',
@@ -118,6 +124,7 @@ def infer():
        vocab_filepath=args.vocab_filepath,
        mean_std_filepath=args.mean_std_filepath,
        augmentation_config='{}',
+        specgram_type=args.specgram_type,
        num_threads=args.num_threads_data)
    # create network config

--- a/tune.py
+++ b/tune.py
@@ -50,6 +50,12 @@ parser.add_argument(
    default=multiprocessing.cpu_count(),
    type=int,
    help="Number of cpu processes for beam search. (default: %(default)s)")
+parser.add_argument(
+    "--specgram_type",
+    default='linear',
+    type=str,
+    help="Feature type of audio data: 'linear' (power spectrum)"
+    " or 'mfcc'. (default: %(default)s)")
 parser.add_argument(
    "--mean_std_filepath",
    default='mean_std.npz',
@@ -133,6 +139,7 @@ def tune():
        vocab_filepath=args.vocab_filepath,
        mean_std_filepath=args.mean_std_filepath,
        augmentation_config='{}',
+        specgram_type=args.specgram_type,
        num_threads=args.num_threads_data)
    # create network config