Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • Paddle
  • Issue
  • #875

P
Paddle
  • 项目概览

PaddlePaddle / Paddle
大约 2 年 前同步成功

通知 2325
Star 20933
Fork 5424
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 1423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
P
Paddle
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 1,423
    • Issue 1,423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
    • 合并请求 543
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
You need to sign in or sign up before continuing.
已关闭
开放中
Opened 12月 14, 2016 by saxon_zh@saxon_zhGuest

demo的数据封装

Created by: beckett1124

需求

Paddle目前提供了很多demo,且各demo运行时需要从原生网站下载其数据,并进行复杂的预处理过程,整个过程会耗费大量时间。

所以我们需要数据封装接口,采用import数据源的方式(如\:import paddle.data.amazon.review.GetJSON)来简化获取训练所需数据的时间;但是如果你习惯自己处理原生数据,我们依然提供原生数据接口来满足你的需求。

整体思路

数据封装接口的目的是提供数据。不论是原生数据,还是预处理数据都通过import方式导入各模型进行训练;考虑到某些模型的预处理后的数据量依然很大,或有时就仅仅想训练相对较小的网络模型,没必要考虑全量数据,自动配置数据量大小必然更符合不同需求。整个接口初步设想如下:

  • 开关来控制数据来源
    • 导入数据接口时,带有开关(如:src_from = True,来自预处理源;否则,来自原生数据源)
  • 预处理数据部分添加配置train和test的数据量的大小
  • 原生数据部分的数据下载数据模块化
    • 开关(src_from = False)和<模型,数据源>对完成相关数据的下载
  • 原生数据的预处理部分保持原状,通过<模型,预处理过程>对完成数据的预处理
  • 在paddle的train的配置文件中修改数据源的导入方式

整个过程在tensorflow的mnist模型已有人实现,借鉴此思想,实现paddle的各demo数据接口的通用化。

#导入数据,放在/tmp/data目录下
mnist=input_data.read_data_sets("/tmp/data",one_hot=True)

#获取少量数据
Xtr,Ytr = mnist.train.next_batch(5000)
Xte,Yte = mnist.test.next_batch(200)
指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/Paddle#875
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7