PaddlePaddle / Paddle
大约 2 年前同步成功

代码
- 文件
- 提交
- 分支
- Tags
- 贡献者
- 分支图
- Diff
Issue 1423
- 列表
- 看板
- 标记
- 里程碑
合并请求 543
Wiki 0
- Wiki
分析
- 仓库
- DevOps
项目成员
Pages

实现AdaScale SGD

Created by: guru4elephant

ICML 2020 paper AdaScale SGD: A User-Friendly Algorithm for Distributed Training

在分布式训练场景下，多机多卡同步训练时总batch通常会比较大，并且随着节点数的变化，如果不精细的调整学习率会影响最终的收敛效果，ICML 2020提出的AdaScale SGD针对这个问题有很好的解法，Paddle需要提供给用户一个开箱即用的配置