fleet transpiler模式 mpi分布式训练ctr模型 embedding极易出现梯度爆炸
Created by: maosengshulei
1)PaddlePaddle版本:paddle 1.6.1
- 训练信息 1 )多机,cpu
- 问题描述:数据使用criteo challenge 的数据集,mpi训练,使用fleet transpiler分布式训练,使用的data_reader 是paddle官方models里paddleRec的DCN的reader代码。mpi训练报错: Pserver log报错日志:Error Message Summary: Tue Dec 31 14:58:11 2019[1,0]:---------------------- Tue Dec 31 14:58:11 2019[1,0]:PaddleCheckError: Operator adam output Tensor C3_C7_moment2_0 contains Inf at [/paddle/paddle/fluid/framework/operator.cc:843] Train log报错日志:PaddleCheckError: internal error in RPCClient at [/paddle/paddle/fluid/operators/distributed/parameter_prefetch.cc:129] Tue Dec 31 14:58:15 2019[1,2]: [operator < distributed_lookup_table > error] 任务的mpi链接 本地训练正常,提到mpi训练几个batch后就报错了。之前使用业务线的数据集训练ctr模型频繁出现embedding梯度爆炸。之前也提过问题,链接