Created by: daizh
请问现在paddle是否有办法能实现gradient accumulation呢? 有很多任务需要开比较大的batch, 有gradient accumulation能解决很多训练效率以及资源需求的问题~