如何理解batch中序列的mask实现 (#180) · Issue · PaddlePaddle / ERNIE

如何理解batch中序列的mask实现

Created by: shiyazhou121

在同一个batch里，为了统一长度对短序列加入pad=0。经过scale后补位的部分变成-10000，比如mask矩阵如下 [[0 0 -10000] [0 0 -10000] [-10000 -10000 -10000]] 在self-attention时，是将q*k后的矩阵加上mask矩阵，经过softmax后，mask[0][2]后mask[1][2]等于0，实现了掩码功能，但第三行是[0.3333, 0.3333, 0.3333]，再乘v后，第三行不为0。如果是多层mul_heads_attention的话，掩码貌似失去了功能。

PaddlePaddle / ERNIE 大约 2 年 前同步成功

如何理解batch中序列的mask实现

PaddlePaddle / ERNIE
大约 2 年前同步成功