opt reward model

06865f46 · u010280923 · 3c80d013 · 06865f46 · 06865f46
隐藏空白更改
内联并排

Showing with 1 addition and 6 deletion

src/rlhf/reward.py src/rlhf/reward.py +1 -5

train_rm.py train_rm.py +0 -1

未找到文件。
--- a/src/rlhf/reward.py
+++ b/src/rlhf/reward.py
@@ -31,11 +31,7 @@ def loss_function(prefer_reward, alter_reward):
 @beartype
 class RewardModel(pl.LightningModule):
-    def __init__(
+    def __init__(self, args):
-        self,
-        args,
-        rwkv: RWKV
-    ):
        super().__init__()
        # 加载 RWKV 模型

--- a/train_rm.py
+++ b/train_rm.py
@@ -230,7 +230,6 @@ if __name__ == "__main__":
    from src.trainer import train_callback
    from src.rlhf.reward import RewardModel
-    from src.model import RWKV
    from src.dataset import RMDataset
    # 读入训练数据