训练skip-gram, embedding的不同加权计算方式训练速度差异巨大
Created by: Lizhengo
在paddle cloud上多机训练skip-gram时,不同的embedding加权计算方式速度差异很大。例如直接input_emb = input_emb + c2w_emb, 速度大概稳定是180s 一轮,如果input_emb =( input_emb + c2w_emb)/ 2,速度一下变为90s一轮,如果是input_emb =0.5 * input_emb + 0.5 * c2w_emb, 速度又变为140s一轮。 按理说这种乘除法计算速度应该不会有这么大差异的,另外我试了几次都是这样,不是不稳定的问题