slanted triangular learning rate和warm up + linear decay在原理上和实验结果上都是相似的,Discriminative fine-tuning和Gradual unfreezing微调策略在使用中,应当注意它们会降低模型的拟合能力,可以适当提高训练的轮数。
slanted triangular learning rate和warm up + linear decay在原理上和实验结果上都是相似的,Discriminative fine-tuning和Gradual unfreezing微调策略在使用中,应当注意它们会降低模型的拟合能力,可以适当提高训练的轮数。