Created by: shiyazhou121
版本:Fluid 1.2 问题:自己实现self-attention + CRF的模型,但性能比BiLstm+CRF低很多。哪些地方可以做优化?我发现一维序列的长度对性能影响特别大,是因为scale_dot_product时矩阵相乘耗时吗?怎么优化这部分。。