Created by: shiyazhou121
在同一个batch里,为了统一长度对短序列加入pad=0。经过scale后补位的部分变成-10000,比如mask矩阵如下
[[0 0 -10000]
[0 0 -10000]
[-10000 -10000 -10000]]
在self-attention时,是将q*k后的矩阵加上mask矩阵,经过softmax后,mask[0][2]后mask[1][2]等于0,实现了掩码功能,但第三行是[0.3333, 0.3333, 0.3333],再乘v后,第三行不为0。
如果是多层mul_heads_attention的话,掩码貌似失去了功能。