Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • ERNIE
  • Issue
  • #576

E
ERNIE
  • 项目概览

PaddlePaddle / ERNIE
接近 2 年 前同步成功

通知 113
Star 5997
Fork 1271
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 29
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 0
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
E
ERNIE
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 29
    • Issue 29
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 0
    • 合并请求 0
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
已关闭
开放中
Opened 9月 27, 2020 by saxon_zh@saxon_zhGuest

ERNIE-GAN迁移学习,无法读取自制数据集

Created by: herb711

在进行迁移学习时,使用官网的 NLPCC2016问答数据集 ,可以正常进行迁移学习

但是使用同样格式的自制数据集,进行训练时,就会报错。(特别强调,自制数据集已经调整到用txt打开后从肉眼上看,和官网数据集一模一样)

对比过自制数据集和# NLPCC2016问答数据集 的格式和区别。感觉没有不同。

将 # NLPCC2016问答数据集 重新读入,再写成文件,也会报错。

当然,这个不是ERNIE-GAN本身的问题。但是格式一致的文件。为什么,读取的时候,会有区别呢?希望帮忙答复。

这是读写数据的代码(将NLPCC2016里的数据读出来,一点不改,然后写到新的文件里面去)

def readdata(myfile, data_name):
    with open(data_name, 'w', encoding='utf-8') as fw:
        with open(myfile, 'r', encoding='utf-8') as f:
            line = f.readline()
            print(line)
            while line:
                fw.writelines(line)
                line = f.readline()

这是自制数据集时的程序(也是用过直接读取文件的方法,但是也是不行)

import json, random
import codecs

def makedata_zhongyi(json_dir, data_name):
    with open(json_dir, 'r', encoding='UTF-8') as f:
        train_datas = json.load(f)

        with codecs.open(data_name, 'w', "utf-8") as f:
            for data in train_datas:
                for text in data['annotations']:
                    Q = text['Q'].replace('\n', '')
                    A = text['A'].replace('\n', '')         
                    rows = '1' +'\t'+ Q +'\t'+ A +'\n'
                    f.writelines(rows.replace(' ', ''))
指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/ERNIE#576
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7