Adam使用fleet.distributed_optimizer后损失完全没有下降，不使用时损失正常下降 (#20940) · Issue · PaddlePaddle / Paddle

Adam使用fleet.distributed_optimizer后损失完全没有下降，不使用时损失正常下降

Created by: yangzhifeng-stat

paddle fluid 1.6版本，我的代码使用了fleet的pserver训练方式，在MPI中运行，没有在paddlecloud中运行。提前将所有数据文件平均分给50个节点。训练的时候使用了fleet.distributed_optimizer的Adam优化器，但是每个batch损失不下降。我尝试过调整学习率（1.0~1e-4）、batch_size和gradient clip(10 ~ 0.01)，但是都没有效果。但是，当我不使用fleet.distributed_optimizer，直接用Adam优化时，每个batch损失下降。所以，我应当怎样调整我的模型，还是fleet.distributed_optimizer这个方法有问题呢。

PaddlePaddle / Paddle 1 年多 前同步成功

Adam使用fleet.distributed_optimizer后损失完全没有下降，不使用时损失正常下降

PaddlePaddle / Paddle
1 年多前同步成功