训练自己的模型识别问题
Created by: gangyahaidao
大家好,最近自己训练了一个模型,训练数据相关说明: 1.GPU型号:GeForce GTX 1070
2.训练文件6500个,每个文件都是1到3秒钟,wav格式8000hz
3.基于音频文件对应的文本使用kenlm自己生成了一个语言模型
4.然后进行训练,训练参数如下:
CUDA_VISIBLE_DEVICES=0 \ python -u train.py \ --batch_size=32 \ --trainer_count=1 \ --num_passes=50 \ --num_proc_data=16 \ --num_conv_layers=2 \ --num_rnn_layers=3 \ --rnn_layer_size=1024 \ --num_iter_print=100 \ --learning_rate=5e-4 \ --max_duration=27.0 \ --min_duration=0.0 \ --test_off=False \ --use_sortagrad=True \ --use_gru=False \ --use_gpu=True \ --is_local=True \ --share_rnn_weights=False \ --train_manifest='data/mywavs/manifest' \ --dev_manifest='data/mywavs/manifest' \ --mean_std_path='data/mywavs/mean_std.npz' \ --vocab_path='data/mywavs/vocab.txt' \ --output_model_dir='./checkpoints/mywavs' \ --augment_conf_path='conf/augmentation.config' \ --specgram_type='linear' \ --shuffle_method='batch_shuffle_clipped'
其中--num_passes只有50,50次之后得到的结果cerr差不多是十几
5.然后我将训练的模型进行实时识别,但是不管我输入的语音是什么识别的结果一直都是同一句话,或者是没有结果,想问一下这种情况是什么原因引起的呢? 是需要增加数据量? 还是需要增加训练次数?还是调参数呢?
顺便介绍一下我的应用场景,我不是追求那种大而全的语音识别,我进行训练的数据只有两种,一种是用户各种肯定意向的回答,另一种是各种否定的回答,所以文件相对都比较短,前期是先用6500条进行基本的尝试看看效果