PaddleNLP/PaddleDialogue/dialogue_general_understanding 的 DSTC2 数据building有问题
Created by: huey0528
测试dstc2数据的时候发现,bash run.sh dstc2 predict 的时候会报错 - data format error。
原因在于你们在build DSTC2 的数据的时候build_dstc2_dataset.py 文件的line 109 和 110 fw.write(u"%s\n" % out.encode('utf8')) fw_asr.write(u"%s\n" % out_asr.encode('utf8')) 把数据的length合并成1了。读出来的时候也只有一个。。
解决办法可以把 .encode('utf8') 提前。 out = "%s\t%s\1%s\t%s" % (session_id.encode('utf8'), mach.encode('utf8'), user.encode('utf8'), labels_ids) user_asr = log_turn['input']['live']['asr-hyps'][0]['asr-hyp'].strip() out_asr = "%s\t%s\1%s\t%s" % (session_id.encode('utf8'), mach.encode('utf8'), user_asr.encode('utf8'), labels_ids) fw.write(u"%s\n" % out) fw_asr.write(u"%s\n" % out_asr)
我是这么处理的,可以避开这个错误。