Created by: WeiyueSu
在使用Fleet训练具有超大embedding的任务时,is_sparse=True,使用了transpiler的distribution,在保存模型阶段经常出现rpc错误,并且部分pserver端会挂掉,请问是什么原因?