opt reward model

dfeee746 · u010280923 · 06865f46 · dfeee746 · dfeee746
隐藏空白更改
内联并排

Showing with 5 addition and 2 deletion

src/rlhf/reward.py src/rlhf/reward.py +1 -1

train_rm.py train_rm.py +4 -1

未找到文件。
--- a/src/rlhf/reward.py
+++ b/src/rlhf/reward.py
@@ -68,7 +68,7 @@ class RewardModel(pl.LightningModule):

        # reward 得分计算
        self.pred_reward = nn.Sequential(
-            nn.Linear(dim, 1),
+            nn.Linear(dim, 1, bias=False),
            Rearrange('... 1 -> ...')   # 降维
        )


--- a/train_rm.py
+++ b/train_rm.py
@@ -240,7 +240,10 @@ if __name__ == "__main__":
    rm_model = RewardModel(args)

    # 训练
-    trainer = Trainer.from_argparse_args()
+    trainer = Trainer.from_argparse_args(
+        args,
+        callbacks=[train_callback(args)],
+    )

    if trainer.global_rank == 0:
        for n in rm_model.state_dict():