Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • Paddle
  • Issue
  • #17694

P
Paddle
  • 项目概览

PaddlePaddle / Paddle
大约 2 年 前同步成功

通知 2325
Star 20933
Fork 5424
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 1423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
P
Paddle
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 1,423
    • Issue 1,423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
    • 合并请求 543
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
已关闭
开放中
Opened 5月 28, 2019 by saxon_zh@saxon_zhGuest

py-reader如何处理读取数据失败的情况

Created by: zzchust

在imagnet-classification的demo中,如遇到数据读取失败,该如何处理?

fluid中可能处理方法: 在reader_cv2.py中进行process_image操作时,使用try-except的方式,若读取数据失败,则使用全0填充image,使用-1填充label。 在设置cross-entropy 损失函数忽略标签为-1的数据。

缺陷:如果损失函数不支持忽略指定标签该如何处理呢?

在pytorch中可能的处理方式: 1)在model forward之前,可以对标签为-1的数据进行滤除,pytorch的model可以支持动态的batchsize (a. 不知道paddle是否支持每个batchsize数据大小不一致的情况; b. paddle的py-reader是否有方式显示的滤除标签为-1的数据) 2)在model forward之后,loss计算之前,对标签为-1的数据进行滤除。 3)在dataloader中,设置读取失败的数据返回为空,然后自定义collect-function即可,此时每个batch的大小可能不同。

目前生产环境的数据量大、数据格式各式各样、存储于集群的数据经常性损坏,如何方便的处理读取数据失败的情况,对提供使用体验特别重要。希望能帮忙答疑解惑。

指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/Paddle#17694
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7