Created by: wq343580510
求问为什么我pretrain的额时候gpu利用率一会是20-30,一会儿是90%多 最后平均下来只有50%左右,是因为在生成数据mask的时候阻塞了吗?batch_size in_token(4096)