Created by: wangshankun
逻辑容易拆分的layer如pooling_layer,relu_layer,roi_pooling_layer,im2col,多线程比较简单; 看到gemm也没有使用多线程,其实可以考虑把openblas的sgemm nn和nt移植过来的,也不算复杂; 特定micro_kernel可以考虑纯汇编的unroll