opt ppo model

01d9b9c6 · u010280923 · 8aabd2fc · 01d9b9c6
显示空白变更内容
内联并排

Showing with 7 addition and 1 deletion

src/dataset.py src/dataset.py +7 -1

未找到文件。
--- a/src/dataset.py
+++ b/src/dataset.py
@@ -356,12 +356,18 @@ def load_prompt_data_4_ppo(args):
    ]  # [vocab, vocab] for Pile model
    tokenizer = TOKENIZER(WORD_NAME)
+    ctx_len = args.ctx_len
+    req_len = ctx_len
    pf = pd.read_csv(args.data_file)
    for index, row in pf.iterrows():
        prompt = row["prompt"]
+        prompt_idx = tokenizer.tokenizer.encode(prompt)
+        prompt_idx = prompt_idx[: req_len]
+        prompt_idx = prompt_idx + [0] * (req_len - len(prompt_idx))
        prompt_token_ids.append(
-            torch.tensor(tokenizer.tokenizer.encode(prompt), dtype=torch.long))
+            torch.tensor(prompt_idx, dtype=torch.long))
    return prompt_token_ids