PaddlePaddle / PaddleSlim
大约 1 年前同步成功

51

代码
- 文件
- 提交
- 分支
- Tags
- 贡献者
- 分支图
- Diff
Issue 53
- 列表
- 看板
- 标记
- 里程碑
合并请求 16
Wiki 0
- Wiki
分析
- 仓库
- DevOps
项目成员
Pages

Add transformer distillation !355

Created by: wanghaoshuang

Add transformer distillation

验证蒸馏任务中卷积结构与Transformer结构的diff BERT-base预训练模型作为teacher, 随机初始化的BERT-base模型作为student，在MNLI任务上蒸馏。观察该实验是否比卷积结构的蒸馏效果好。

Loss由三部分组成：

最后一层的prediction layer产出的概率分布向量组成softlabel crossentropy loss
中间每层的hidden vector组成mse loss
student原有分类loss