Created by: houj04
想提升训练的性能,包括gpu利用率提升和训练时间的缩短。 用了profile工具,打出来的部分信息长这样,不知道是用法不对,还是由于网络比较小(MobileNet)导致的? Computation time Total: 2.02751e+06 Ratio: 26.7407% Framework overhead Total: 5.55461e+06 Ratio: 73.2593% 此外特地看了GpuMemcpySync的比例很少。 整体的问题是,不知道如何下手。已经用了厂内的某种流式读数据的reader。