opt ppo model

9463b004 · u010280923 · cf2bc522 · 9463b004
隐藏空白更改
内联并排

Showing with 6 addition and 2 deletion

src/rlhf/ppo.py src/rlhf/ppo.py +6 -2

未找到文件。
--- a/src/rlhf/ppo.py
+++ b/src/rlhf/ppo.py
@@ -323,8 +323,10 @@ class RLHF(pl.LightningModule):
    def generate(
        self,
        max_seq_len,
+        *args,
        prompt,
-        num_samples = 4  # sample 4 per prompt and select the one with highest reward
+        num_samples = 4,  # sample 4 per prompt and select the one with highest reward
+        **kwargs
    ):
        ''' 未参与训练，仅推理时使用
        '''
@@ -342,8 +344,10 @@ class RLHF(pl.LightningModule):
            _
        ) = self.actor_critic.generate(
            prompt,
+            *args,
            max_seq_len = max_seq_len,
-            return_values = False
+            return_values = False,
+            **kwargs
        )

        rewards = self.reward_model(