PaddlePaddle / Paddle
大约 2 年前同步成功

代码
- 文件
- 提交
- 分支
- Tags
- 贡献者
- 分支图
- Diff
Issue 1423
- 列表
- 看板
- 标记
- 里程碑
合并请求 543
Wiki 0
- Wiki
分析
- 仓库
- DevOps
项目成员
Pages

数据量过大（60T），如何优化数据读取时间

Created by: bit-pku-zdf

为使您的问题得到快速解决，在建立Issues前，请您先通过如下方式搜索是否有相似问题:【搜索issue关键字】【使用labels筛选】【官方文档】

如果您没有查询到相似问题，为快速解决您的提问，建立issue时请提供如下细节信息：

标题：简洁、精准概括您的问题，例如“Insufficient Memory xxx" ”
版本、环境信息： 1）PaddlePaddle版本：1.6 2）CPU：公司的mpi集群，具体型号不了 3）GPU：无gpu 4）系统环境：公司的mpi集群环境
训练信息 1）20个节点，每个节点100g内存 2）无显存

我们在用 dg.MultiSlotStringDataGenerator 和dataset来读数据，数据量比较大（几十T）整个训练速度满足不了现在的需求，想问下，这个数据读取速度怎么优化下？细节相关同学可以在hi上联系（zhangdanfeng）

Thank you for contributing to PaddlePaddle.