新优化器讨论:Group-Sparsity-Regularized FTRL (G-FTRL)
Created by: leesusu
我们这边初步的需求是:
FTRL的稀疏性是作用在模型的每个权重上的,粒度较细,对于embedding,每一行特征是一个整体,所以希望产生的稀疏解能作用在一整行上。
为此我们调研了近期facebook的论文: 《Feature Selection for Facebook Feed Ranking System via a Group-Sparsity-Regularized Training Algorithm》
图1、2是论文里的想法,对于nn模型的w,按行或者按列稀疏化,图3是我们这边的拓展,对于embedding,也可以按行进行稀疏化。
因此,我们希望实现G-FTRL优化器,并希望能得到PaddlePaddle社区的宝贵建议。如果可行,我这边会负责跟进编码并提交pr,感谢。