Adam使用fleet.distributed_optimizer后损失完全没有下降,不使用时损失正常下降
Created by: yangzhifeng-stat
paddle fluid 1.6版本,我的代码使用了fleet的pserver训练方式,在MPI中运行,没有在paddlecloud中运行。提前将所有数据文件平均分给50个节点。训练的时候使用了fleet.distributed_optimizer的Adam优化器,但是每个batch损失不下降。我尝试过调整学习率(1.0~1e-4)、batch_size和gradient clip(10 ~ 0.01),但是都没有效果。但是,当我不使用fleet.distributed_optimizer,直接用Adam优化时,每个batch损失下降。 所以,我应当怎样调整我的模型,还是fleet.distributed_optimizer这个方法有问题呢。