PaddlePaddle / Paddle
大约 2 年前同步成功

self-attention性能优化问题

Created by: shiyazhou121

版本：Fluid 1.2 问题：自己实现self-attention + CRF的模型，但性能比BiLstm+CRF低很多。哪些地方可以做优化？我发现一维序列的长度对性能影响特别大，是因为scale_dot_product时矩阵相乘耗时吗？怎么优化这部分。。