对paddleNLP中的transformer翻译模型有疑问,期待解答。
Created by: AnShengqiang
模型:paddleNLP中的transformer翻译模型。 疑问:其中的decoder实现,在Attention is all you need论文中提到,有一个masked multi-head attention,但在本仓库的实现中,没有看到明显的mask操作,这里不太明白,请问这里的mask是怎么实现的? 相关代码: https://github.com/PaddlePaddle/models/blob/eee28b3e52ad190fecc3afef35705e00512bfd1c/PaddleNLP/PaddleMT/transformer/transformer.py#L414