Created by: Yuuuuuuuuuuuuuuuuuummy
1.开启同步bn只需要sync_batch_norm=True就可以了是么
2.builder.strategy Allreduce和reduce的区别在于allreduce每个卡独自更新参数 reduce会将梯度均匀分配? 怎么感觉反了呢。
3.clear_gradients()有两个 optimizer 和model都有这个功能,动态图里应该怎么使用呢?
文档有一些内容过于简单了感觉,希望能出个多卡训练的官方demo 希望能得到解答! thx!!