训练集与测试集的音频时长需要严格相似?
Created by: luweishuang
我使用自己的数据集微调 baidu_cn1.2k中文模型, 训练音频是16k的采样率,训练集共7676个音频,平均时长为 3.01秒。测试集大小为56个,平均时长为 4.86秒。原始baidu_cn1.2k模型在该测试集上的 Final error rate [cer] (56/56) = 0.148315, 微调过后模型在同样测试集上的表现为: groundtruth label: 他希望大家团结一致努力工作在新的一年里取得更大成绩 predict label: 他是在家工作在一年期存款 Current error rate [cer] = 18.000000 Error rate [cer] (10/56) = 0.857143
groundtruth label: 排在马路边的真假音像制品宣传牌引得过往行人驻足浏览 predict label: 还在里边在今天工信息提前做 Current error rate [cer] = 23.000000 Error rate [cer] (11/56) = 0.862963
groundtruth label: 据行家估计时下在欧美流行的苏格兰呢计有三十余种之多 predict label: 今天在这里的人有多 Current error rate [cer] = 21.000000 Final error rate [cer] (30/56) = 0.86101 错误率显著上升且可以发现识别的文字结果变短了。是由于训练测试集数据集的音频时长不一致造成的吗?