训练skip-gram, embedding的不同加权计算方式训练速度差异巨大 (#20986) · Issue · PaddlePaddle / Paddle

训练skip-gram, embedding的不同加权计算方式训练速度差异巨大

Created by: Lizhengo

在paddle cloud上多机训练skip-gram时，不同的embedding加权计算方式速度差异很大。例如直接input_emb = input_emb + c2w_emb, 速度大概稳定是180s 一轮，如果input_emb =（ input_emb + c2w_emb）/ 2，速度一下变为90s一轮，如果是input_emb =0.5 * input_emb + 0.5 * c2w_emb, 速度又变为140s一轮。按理说这种乘除法计算速度应该不会有这么大差异的，另外我试了几次都是这样，不是不稳定的问题

PaddlePaddle / Paddle 大约 2 年 前同步成功

训练skip-gram, embedding的不同加权计算方式训练速度差异巨大

PaddlePaddle / Paddle
大约 2 年前同步成功