opt reward model

68662e23 · u010280923 · f7516c41 · 68662e23
隐藏空白更改
内联并排

Showing with 4 addition and 2 deletion

src/rlhf/reward.py src/rlhf/reward.py +4 -2

未找到文件。
--- a/src/rlhf/reward.py
+++ b/src/rlhf/reward.py
@@ -181,8 +181,10 @@ class RewardModel(pl.LightningModule):
        return reward
    def forward(self, x_p, x_a, m_p, m_a):
-        prefer_reward = self.single_forward(x_p, prompt_mask=m_p)
+        with torch.enable_grad():
-        alter_reward = self.single_forward(x_a, prompt_mask=m_a)
+            prefer_reward = self.single_forward(x_p, prompt_mask=m_p)
+        with torch.no_grad():
+            alter_reward = self.single_forward(x_a, prompt_mask=m_a)
        return prefer_reward, alter_reward