Created by: Mrhs121
在深度学习训练过程中,计算梯度采用BP算法,其特点是后面层的梯度先被计算,而前面层的梯度慢于前面层,Paddle中的梯度同步是逐层同步还是全部backward之后再整体同步呢?