Created by: geekhch
在微调ernie的过程中,需要使用weight_decay。但传统Adam被证实与L2正则不兼容,请问paddle中的L2Decay是否能在Adam中使用,这里的Adam优化器是经过修正的吗?