clip操作导致分布式训练失败
Created by: hutuxian
在使用fluid.DistributeTranspiler配置的分布式场景下,添加如下梯度clip:
fluid.clip.set_gradient_clip(clip=fluid.clip.GradientClipByGlobalNorm(clip_norm=5.0))
会导致训练失败。
其中ps端报错:
trainer端报错:
GetRPC name:[atten_fc1.b_0], ep:[127.0.0.1:6000], status:[-1] meets grpc error, error_code:14 error_message:Socket closed error_details: