CSDN 技术社区 / ai / chatCSDN

README.md

ChatCSDN

ChatCSDN基于RWKV1.5B基模型源码来源于：https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v4neo
主要是在RWKV提供的1.5B参数的基础之上，使用CSDN的问答数据和博客数据进行增量预训练，经过指令微调，得到拥有IT行业知识体系的大语言模型。
原始模型参数地址：https://huggingface.co/BlinkDL/rwkv-4-pile-1b5
微调后的模型参数地址：https://huggingface.co/zxm2023/ChatCSDN
介绍博客地址：https://blog.csdn.net/zxm2015/article/details/130227450
人类反馈强化学习 (RLHF) 博客：https://blog.csdn.net/u010280923/article/details/130283628

硬件需求

训练时采用的机器配置：
内存：256G
显卡：Nvidia Quadro RTX 6000 24G
但是实际上是用不完的，推理4G显存，训练10G显存足够。同时推理也是支持CPU的，只是速度较慢。

快速开始

1、安装依赖 pip install -m requirements.txt
2、下载模型参数
3、修改chat.py，将model_path修改为下载好的模型地址替换
args.MODEL_NAME = 'model_path'
4、运行python chat.py

预处理数据

使用项目 https://github.com/EleutherAI/gpt-neox 提供的数据转换工具将.jsonl文件转换为.bin和.idx文件，目前已经将代码全部移植过来，放在tools文件夹中。词典使用的是20B_tokenizer.json。 jsonl文件格式示例：

{"meta": {"ID": 101}, "text": "This is the first document."}
{"meta": {"ID": 102}, "text": "Hello\nWorld"}
{"meta": {"ID": 103}, "text": "1+1=2\n1+2=3\n2+2=4"}

使用clean_data.py中的clean_ask_data和clean_blog_data方法可以将从odps中拉取的数据转换成jsonl文件。进入tools文件夹下使用如下命令进行转换：

python preprocess_data.py \
            --input ../data/data.txt \
            --output-prefix ../data/blog \
            --vocab ../20B_tokenizer.json \
            --dataset-impl mmap \
            --tokenizer-type HFTokenizer \
            --append-eod

python preprocess_data.py \
            --input ../data/ask.json \
            --output-prefix ../data/ask \
            --vocab ../20B_tokenizer.json \
            --dataset-impl mmap \
            --tokenizer-type HFTokenizer \
            --append-eod

预训练示例

python train.py  --load_model "RWKV-4-Pile-1B5-EngChn-test4-20230115.pth" --wandb "" --proj_dir "out" \
--data_file "data/blog_text_document" --data_type "binidx" --vocab_size 50277 \
--ctx_len 1024 --epoch_steps 200 --epoch_count 1000 --epoch_begin 0 --epoch_save 10 \
--micro_bsz 8 --n_layer 24 --n_embd 2048 --pre_ffn 0 --head_qk 0 \
--lr_init 1e-5 --lr_final 1e-5 --warmup_steps 0 --beta1 0.9 --beta2 0.999 --adam_eps 1e-8 \
--accelerator gpu --devices 1 --precision bf16 --strategy deepspeed_stage_2_offload --grad_cp 1

接入Instruction Tuning

使用指令数据集进行监督训练，精调语言模型，指令数据可以看成是问答对，训练时对答案部分进行loss计算。这部分数据来源于BELLE（https://github.com/LianjiaTech/BELLE）开源的数据集。

python train_sft.py  --load_model "out/rwkv-790.pth" --wandb "" --proj_dir "out_sft" \
--data_file "data/prompts.csv" --data_type "utf-8" --vocab_size 50277 \
--ctx_len 1024 --epoch_steps 200 --epoch_count 1000 --epoch_begin 0 --epoch_save 20 \
--micro_bsz 8 --n_layer 24 --n_embd 2048 --pre_ffn 0 --head_qk 0 \
--lr_init 1e-5 --lr_final 1e-5 --warmup_steps 0 --beta1 0.9 --beta2 0.999 --adam_eps 1e-8 \
--accelerator gpu --devices 1 --precision bf16 --strategy deepspeed_stage_2_offload --grad_cp 1 \
--my_qa_mask 1

TODO

Reward Model

python train_rm.py  --load_sft_model "./out_sft/rwkv-190.pth" --wandb "" --proj_dir "out_rm" \
--data_file "data/rm_mock_data.csv" --data_type "utf-8" --vocab_size 50277 \
--ctx_len 1024 --epoch_steps 200 --epoch_count 1000 --epoch_begin 0 --epoch_save 2 \
--micro_bsz 2 --n_layer 24 --n_embd 2048 --pre_ffn 0 --head_qk 0 \
--lr_init 1e-5 --lr_final 1e-5 --warmup_steps 0 --beta1 0.9 --beta2 0.999 --adam_eps 1e-8 \
--accelerator gpu --devices 1 --precision bf16 --strategy deepspeed_stage_2_offload --grad_cp 1 \
--my_qa_mask 1

PPO Model (Reinforcement learning from Human Feedback)

python train_ppo.py  --load_sft_model "./out_sft/rwkv-190.pth" --load_rm_model "./out_rm/rm-2.pth" --wandb "" \
--proj_dir "out_rlhf" \
--data_file "data/rm_mock_data.csv" --data_type "utf-8" --vocab_size 50277 \
--ctx_len 1024 --epoch_steps 200 --epoch_count 1000 --epoch_begin 0 --epoch_save 2 \
--micro_bsz 2 --n_layer 24 --n_embd 2048 --pre_ffn 0 --head_qk 0 \
--lr_init 1e-5 --lr_final 1e-5 --warmup_steps 0 --beta1 0.9 --beta2 0.999 --adam_eps 1e-8 \
--accelerator gpu --devices 1 --precision bf16 --strategy deepspeed_stage_2_offload --grad_cp 1 \
--my_qa_mask 1

协议

本仓库的代码依照 Apache-2.0 协议开源，模型参数同样需要遵循相应的开源协议。模型受限于参数量和训练数据，可能会产生与事实相违背/有危害性的答案，因此本项目仅供学习研究使用。

项目简介

当前项目暂无项目简介

Apache License 2.0
文件大小 1.8 MB
仓库大小 1.8 MB

发行版本

当前项目没有发行版本

贡献者 4

CSDN-Ada助手 @community_717

幻灰龙 @huanhuilong

每日一练社区 @community_300

u010280923 @u010280923

开发语言

Python 96.2 %
C++ 3.2 %
Cuda 0.6 %
C 0.0 %