opt ppo model

8aabd2fc · u010280923 · 9463b004 · 8aabd2fc
显示空白变更内容
内联并排

Showing with 2 addition and 7 deletion

src/rlhf/ppo.py src/rlhf/ppo.py +2 -7

未找到文件。
--- a/src/rlhf/ppo.py
+++ b/src/rlhf/ppo.py
@@ -323,10 +323,8 @@ class RLHF(pl.LightningModule):
    def generate(
        self,
        max_seq_len,
-        *args,
        prompt,
-        num_samples = 4,  # sample 4 per prompt and select the one with highest reward
+        num_samples = 4  # sample 4 per prompt and select the one with highest reward
-        **kwargs
    ):
        ''' 未参与训练，仅推理时使用
        '''
@@ -344,10 +342,8 @@ class RLHF(pl.LightningModule):
            _
        ) = self.actor_critic.generate(
            prompt,
-            *args,
            max_seq_len = max_seq_len,
-            return_values = False,
+            return_values = False
-            **kwargs
        )
        rewards = self.reward_model(
@@ -468,7 +464,6 @@ class RLHF(pl.LightningModule):
            rearrange(state, 'n -> 1 n'),
            max_seq_len = self.args.ctx_len,
            eos_token = eos_token,
-            temperature = temperature,
            return_values = True
        )
        action_logits = shift(action_logits, shift = 1, dim = -2) # need to shift along sequence dimension by 1, since actions start from the last prompt (state) token