ERNIE-GAN迁移学习,无法读取自制数据集
Created by: herb711
在进行迁移学习时,使用官网的 NLPCC2016问答数据集 ,可以正常进行迁移学习
但是使用同样格式的自制数据集,进行训练时,就会报错。(特别强调,自制数据集已经调整到用txt打开后从肉眼上看,和官网数据集一模一样)
对比过自制数据集和# NLPCC2016问答数据集 的格式和区别。感觉没有不同。
将 # NLPCC2016问答数据集 重新读入,再写成文件,也会报错。
当然,这个不是ERNIE-GAN本身的问题。但是格式一致的文件。为什么,读取的时候,会有区别呢?希望帮忙答复。
这是读写数据的代码(将NLPCC2016里的数据读出来,一点不改,然后写到新的文件里面去)
def readdata(myfile, data_name):
with open(data_name, 'w', encoding='utf-8') as fw:
with open(myfile, 'r', encoding='utf-8') as f:
line = f.readline()
print(line)
while line:
fw.writelines(line)
line = f.readline()
这是自制数据集时的程序(也是用过直接读取文件的方法,但是也是不行)
import json, random
import codecs
def makedata_zhongyi(json_dir, data_name):
with open(json_dir, 'r', encoding='UTF-8') as f:
train_datas = json.load(f)
with codecs.open(data_name, 'w', "utf-8") as f:
for data in train_datas:
for text in data['annotations']:
Q = text['Q'].replace('\n', '')
A = text['A'].replace('\n', '')
rows = '1' +'\t'+ Q +'\t'+ A +'\n'
f.writelines(rows.replace(' ', ''))