Transfer MultiHeadAttention's matmul to v2 op (#36222)

* promote to v2 * alter

Transfer MultiHeadAttention's matmul to v2 op (#36222)
* promote to v2 * alter
65494051 · liu zhengxi · GitHub · 37f43ebc · 65494051
显示空白变更内容
内联并排

Showing with 2 addition and 3 deletion

python/paddle/nn/layer/transformer.py python/paddle/nn/layer/transformer.py +2 -3

未找到文件。
--- a/python/paddle/nn/layer/transformer.py
+++ b/python/paddle/nn/layer/transformer.py
@@ -402,9 +402,8 @@ class MultiHeadAttention(Layer):
            q, k, v, cache = self._prepare_qkv(query, key, value, cache)
        # scale dot product attention
-        # TODO(guosheng): use tensor.matmul, however it doesn't support `alpha`
+        product = paddle.matmul(
-        product = layers.matmul(
+            x=q * (self.head_dim**-0.5), y=k, transpose_y=True)
-            x=q, y=k, transpose_y=True, alpha=self.head_dim**-0.5)
        if attn_mask is not None:
            # Support bool or int mask
            attn_mask = _convert_attention_mask(attn_mask, product.dtype)