Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • PaddleSlim
  • 合并请求
  • !355

P
PaddleSlim
  • 项目概览

PaddlePaddle / PaddleSlim
大约 2 年 前同步成功

通知 51
Star 1434
Fork 344
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 53
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 16
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
P
PaddleSlim
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 53
    • Issue 53
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 16
    • 合并请求 16
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板

Add transformer distillation !355

  • Report abuse
!355 开放中 6月 18, 2020 由 saxon_zh@saxon_zh 创建
#<User:0x00007f7e1f40aa70>
  • 概览 0
  • 提交 3
  • 变更 13

Created by: wanghaoshuang

Add transformer distillation

  • 验证蒸馏任务中卷积结构与Transformer结构的diff BERT-base预训练模型作为teacher, 随机初始化的BERT-base模型作为student,在MNLI任务上蒸馏。观察该实验是否比卷积结构的蒸馏效果好。

Loss由三部分组成:

  1. 最后一层的prediction layer产出的概率分布向量组成softlabel crossentropy loss
  2. 中间每层的hidden vector组成mse loss
  3. student原有分类loss
指派人
分配到
审核者
Request review from
无
里程碑
无
分配里程碑
工时统计
标识: paddlepaddle/PaddleSlim!355
Source branch: github/fork/wanghaoshuang/bert
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7