数据量过大(60T),如何优化数据读取时间
Created by: bit-pku-zdf
为使您的问题得到快速解决,在建立Issues前,请您先通过如下方式搜索是否有相似问题:【搜索issue关键字】【使用labels筛选】【官方文档】
如果您没有查询到相似问题,为快速解决您的提问,建立issue时请提供如下细节信息:
- 标题:简洁、精准概括您的问题,例如“Insufficient Memory xxx" ”
- 版本、环境信息: 1)PaddlePaddle版本:1.6 2)CPU:公司的mpi集群,具体型号不了 3)GPU:无gpu 4)系统环境:公司的mpi集群环境
- 训练信息 1)20个节点,每个节点100g内存 2)无显存
我们在用 dg.MultiSlotStringDataGenerator 和dataset来读数据,数据量比较大(几十T)整个训练速度满足不了现在的需求,想问下,这个数据读取速度怎么优化下? 细节相关同学可以在hi上联系(zhangdanfeng)
Thank you for contributing to PaddlePaddle.