Created by: GaoWei8
当使用MKL计算的矩阵的尺寸是128的倍数时,内存存取的时间会大大增加。 优化方案是内存尺寸为128的倍数时,做尺寸加4的padding。内存调用的时间会减少。 Intel MKL内存调用分析
预测模型ERNIE padding优化前后性能对比:
线程数 | 优化前 | 优化后 | 提升 |
---|---|---|---|
单线程 | 276.253 ms | 251.464ms | 8.97% |
20线程 | 52.1854ms | 29.9978ms | 42.52% |
经过测试,需要同时对FC计算中的W和X同时做Padding,才有较好的性能提升。
线程数 | 优化前 | 只padding w 不padding x | 只padding x 不padding w |
---|---|---|---|
20线程 | 52.1854ms | 53.2533ms | 50.9526ms |