wutai01 MPI的paddle v1 训练时save model出现的问题?
Created by: guozhizou
I0727 09:40:11.928058 8975 TrainerInternal.cpp:165] Batch=145700 samples=18649600 AvgCost=0 CurrentCost=0 Eval: CurrentEval:
- 训练全程中,cost都是0这个问题出现了有段时间了;
- 在wutai01的MPI V1训练的模型,因为网络中用到cosine计算两个生成向量的相似度
cos_sim(a=user_dim, b=view_dim, scale=1)
,当把成功训练结束的model在本地做test计算的时候,出现生成的那两个向量都是0向量(训练的数据也测试了,情况一样),导致做cosine时失败。而模型在训练的时候计算相似度都是正常,只能推断是不是集群在save模型的时候的bug。(此外,这个网络在local模式下一切都是正常的,且在前段时间在MPI上也是正常的)
MPI任务的链接:http://10.87.137.36:8920/fileview.html?path=/home/disk1/normandy/maybach/40968/