Created by: wanghaoshuang
Add transformer distillation
- 验证蒸馏任务中卷积结构与Transformer结构的diff BERT-base预训练模型作为teacher, 随机初始化的BERT-base模型作为student,在MNLI任务上蒸馏。观察该实验是否比卷积结构的蒸馏效果好。
Loss由三部分组成:
- 最后一层的prediction layer产出的概率分布向量组成softlabel crossentropy loss
- 中间每层的hidden vector组成mse loss
- student原有分类loss