关于动态图模型保存问题
Created by: Yuuuuuuuuuuuuuuuuuummy
环境: python3.6 paddlepaddle-gpu v1.8.3
Q1: 当多卡训练的时候,例如单机4卡 为什么每个epoch会保存4个模型。 Q2:在多卡训练的时候,保存模型的步骤会随机出现错误, 保存模型用fluid.dygraph.save_dygraph(model.state_dict(), 'path'), 会随机出现pickle.dump的问题, 报MEMORY ERROR, 我看在paddle实现过程中是用pickle.dump()保存模型,网上有人说是因为数据太大了?可是每一代都保存 有时候训练到40多epoch会报错,有时候一上来就报错, 是为什么呢?希望得到解释。