Created by: guru4elephant
ICML 2020 paper AdaScale SGD: A User-Friendly Algorithm for Distributed Training
在分布式训练场景下,多机多卡同步训练时总batch通常会比较大,并且随着节点数的变化,如果不精细的调整学习率会影响最终的收敛效果,ICML 2020提出的AdaScale SGD针对这个问题有很好的解法,Paddle需要提供给用户一个开箱即用的配置