前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
Created by: geniusSDNexplorer
使用单卡训练,batchsize128 100batch约1分钟; 使用5卡训练, 100batch约 3分钟; 使用8卡训练 100batch约8分钟。 经排查,不是io拖慢训练速度 使用timeline工具检查耗时,发现是多卡通信占用时间长 如下图所示:
麻烦看一下图中各个步骤的时间是否正常,多卡耗时严重上升的问题究竟出在哪里 可视化之后可以看到每段训练中间都有巨大的时间空隙 如果需要timeline文件 可以单hi