Add fc padding to improve mkl GEMM's performance when N and K are multiple of 128. (!20972) · 合并请求 · PaddlePaddle / Paddle

Add fc padding to improve mkl GEMM's performance when N and K are multiple of 128. !20972

Created by: GaoWei8

当使用MKL计算的矩阵的尺寸是128的倍数时，内存存取的时间会大大增加。优化方案是内存尺寸为128的倍数时，做尺寸加4的padding。内存调用的时间会减少。 Intel MKL内存调用分析

预测模型ERNIE padding优化前后性能对比：

线程数	优化前	优化后	提升
单线程	276.253 ms	251.464ms	8.97%
20线程	52.1854ms	29.9978ms	42.52%

经过测试，需要同时对FC计算中的W和X同时做Padding，才有较好的性能提升。

线程数	优化前	只padding w 不padding x	只padding x 不padding w
20线程	52.1854ms	53.2533ms	50.9526ms