Created by: jiweibo
【描述】 mul cuda kernel中使用了context中的shared blas来计算矩阵乘法,这么做会导致cuda流之间的diff
【修复】 mul cuda kernel使用backends/cuda/gemm来做矩阵乘法,能保证模型运行的流的一致性