Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • Paddle
  • 合并请求
  • !25625

P
Paddle
  • 项目概览

PaddlePaddle / Paddle
接近 2 年 前同步成功

通知 2323
Star 20933
Fork 5424
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 1423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
P
Paddle
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 1,423
    • Issue 1,423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
    • 合并请求 543
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板

【paddle.fleet】add gradient Merge Optimizer !25625

  • Report abuse
!25625 已合并 7月 20, 2020 由 saxon_zh@saxon_zh 创建
#<User:0x00007ff7c8b69f78>
  • 概览 8
  • 提交 7
  • 变更 2

Created by: mapingshuo

PR types

New features

PR changes

APIs

Describe

在分布式训练中,经常遇到显存或者内存不足的情况,这通常有三种原因:

  • 中间层输出占据的显存超出了内存/显存大小
  • 参数过大(比如CPU的embedding)
  • 输入Var过大(比如视频输入)

GradientMerge(梯度累加) 策略的做法,是将大Batch的输入改成小Batch,分别进行“前向+反向”网络计算梯度;最后将梯度做累加。

In the distributed training, we often encounter insufficient memory problem. There are usually 3 reasons:

  • The memory occupied by the middle layer output exceeds the memory size
  • The parameter is too large (such as CPU embedding)
  • Input Var is too large (such as input)

The GradientMerge (gradient accumulation) strategy is to split the input of a large batch to a small batch, it performs a "forward + backward" network to calculate the gradient for each small batch; finally, the gradient is accumulated and the parameter is updated by specific optimize algorithm

指派人
分配到
审核者
Request review from
无
里程碑
无
分配里程碑
工时统计
标识: paddlepaddle/Paddle!25625
Source branch: github/fork/mapingshuo/gradient_merge
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7