训练自己的模型识别问题 (#275) · Issue · PaddlePaddle / DeepSpeech

训练自己的模型识别问题

Created by: gangyahaidao

大家好，最近自己训练了一个模型，训练数据相关说明： 1.GPU型号：GeForce GTX 1070

2.训练文件6500个，每个文件都是1到3秒钟，wav格式8000hz

3.基于音频文件对应的文本使用kenlm自己生成了一个语言模型

4.然后进行训练，训练参数如下： CUDA_VISIBLE_DEVICES=0 \ python -u train.py \ --batch_size=32 \ --trainer_count=1 \ --num_passes=50 \ --num_proc_data=16 \ --num_conv_layers=2 \ --num_rnn_layers=3 \ --rnn_layer_size=1024 \ --num_iter_print=100 \ --learning_rate=5e-4 \ --max_duration=27.0 \ --min_duration=0.0 \ --test_off=False \ --use_sortagrad=True \ --use_gru=False \ --use_gpu=True \ --is_local=True \ --share_rnn_weights=False \ --train_manifest='data/mywavs/manifest' \ --dev_manifest='data/mywavs/manifest' \ --mean_std_path='data/mywavs/mean_std.npz' \ --vocab_path='data/mywavs/vocab.txt' \ --output_model_dir='./checkpoints/mywavs' \ --augment_conf_path='conf/augmentation.config' \ --specgram_type='linear' \ --shuffle_method='batch_shuffle_clipped' 其中--num_passes只有50，50次之后得到的结果cerr差不多是十几

5.然后我将训练的模型进行实时识别，但是不管我输入的语音是什么识别的结果一直都是同一句话，或者是没有结果，想问一下这种情况是什么原因引起的呢？是需要增加数据量？还是需要增加训练次数？还是调参数呢？

顺便介绍一下我的应用场景，我不是追求那种大而全的语音识别，我进行训练的数据只有两种，一种是用户各种肯定意向的回答，另一种是各种否定的回答，所以文件相对都比较短，前期是先用6500条进行基本的尝试看看效果

PaddlePaddle / DeepSpeech 1 年多 前同步成功

训练自己的模型识别问题

PaddlePaddle / DeepSpeech
1 年多前同步成功