* 改进loss计算方法。分类loss计算最常用的方法就是cross entropy loss,我们经过实验发现,在使用soft label进行训练时,相对于cross entropy loss,KL div loss对模型性能提升几乎无帮助,但是使用具有对称特特性的JS div loss时,在多个蒸馏任务上相比cross entropy loss均有0.2%左右的收益,SSLD中也基于JS div loss展开实验。
* SSLD方案简单,对标签数据几乎无依赖,也便于后续开发。
## 2.2 数据选择
* SSLD蒸馏方案的一大特色就是无需使用图像的真值标签,因此可以任意扩展数据集的大小,考虑到计算资源的限制,我们在这里仅基于ImageNet22k数据集对蒸馏任务的训练集进行扩充。在SSLD蒸馏任务中,我们使用了`Top-k per class`的数据采样方案[3]。具体步骤如下。