opt reward model

3859a713 · u010280923 · ddbbe006 · 3859a713
显示空白变更内容
内联并排

Showing with 2 addition and 3 deletion

src/rlhf/reward.py src/rlhf/reward.py +2 -3

未找到文件。
--- a/src/rlhf/reward.py
+++ b/src/rlhf/reward.py
@@ -119,11 +119,10 @@ class RewardModel(pl.LightningModule):
            state=None,
            extra_embed=extra_embed,
            rm_train=True
-        )
+        )[:, -1, :]
        # 所有的 token 向量求平均，并输入到打分模块进行打分
-        pooled = masked_mean(last_token_embeds, mask, dim = 1)
+        reward = self.pred_reward(last_token_embeds)
-        reward = self.pred_reward(pooled)
        return reward