PaddleNLP/PaddleDialogue/dialogue_general_understanding 的 DSTC2 数据building有问题 (#4189) · Issue · PaddlePaddle / models

PaddleNLP/PaddleDialogue/dialogue_general_understanding 的 DSTC2 数据building有问题

Created by: huey0528

测试dstc2数据的时候发现，bash run.sh dstc2 predict 的时候会报错 - data format error。

原因在于你们在build DSTC2 的数据的时候build_dstc2_dataset.py 文件的line 109 和 110 fw.write(u"%s\n" % out.encode('utf8')) fw_asr.write(u"%s\n" % out_asr.encode('utf8')) 把数据的length合并成1了。读出来的时候也只有一个。。

解决办法可以把 .encode('utf8') 提前。 out = "%s\t%s\1%s\t%s" % (session_id.encode('utf8'), mach.encode('utf8'), user.encode('utf8'), labels_ids) user_asr = log_turn['input']['live']['asr-hyps'][0]['asr-hyp'].strip() out_asr = "%s\t%s\1%s\t%s" % (session_id.encode('utf8'), mach.encode('utf8'), user_asr.encode('utf8'), labels_ids) fw.write(u"%s\n" % out) fw_asr.write(u"%s\n" % out_asr)

我是这么处理的，可以避开这个错误。

PaddlePaddle / models 大约 2 年 前同步成功

PaddleNLP/PaddleDialogue/dialogue_general_understanding 的 DSTC2 数据building有问题

PaddlePaddle / models
大约 2 年前同步成功