AdamWeightDecayStrategy学习率问题
Created by: TyrionZK
文本分类中使用paddlehub对bert二次训练时,使用了AdamWeightDecayStrategy,参数如下: warmup_proportion 0.2 weight_decay 0.01 learning_rate 2e-5, 问题:我发现每当新的一个epoch开始的时候,数据震荡很大,导致后面几个epoch没法对数据继续进行提高。我怀疑AdamWeightDecayStrategy是不是针对每个epoch调整学习率,导致每个epoch开始都会经历学习率增大,然后减小的呢? 哪位大佬能给解释一下吗,谢谢。