diff --git a/README.md b/README.md index 7972017d9dad1591b603bddfb3202cc5e644b162..57cd884026b50608e72805e727dd6e92620a744a 100644 --- a/README.md +++ b/README.md @@ -1,12 +1,27 @@ ## ChatCSDN ChatCSDN基于RWKV1.5B基模型 -源码来源于:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v4neo -主要是在RWKV提供的1.5B参数的基础之上,使用CSDN的问答数据和博客数据进行增量预训练,经过指令微调,得到拥有IT行业知识体系的大语言模型。 -原始模型参数地址:https://huggingface.co/BlinkDL/rwkv-4-pile-1b5 -微调后的模型参数地址:https://huggingface.co/zxm2023/ChatCSDN +源码来源于:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v4neo +主要是在RWKV提供的1.5B参数的基础之上,使用CSDN的问答数据和博客数据进行增量预训练,经过指令微调,得到拥有IT行业知识体系的大语言模型。 +原始模型参数地址:https://huggingface.co/BlinkDL/rwkv-4-pile-1b5 +微调后的模型参数地址:https://huggingface.co/zxm2023/ChatCSDN 介绍博客地址:https://blog.csdn.net/zxm2015/article/details/130227450 +## 硬件需求 +训练时采用的机器配置: +内存:256G +显卡:Nvidia Quadro RTX 6000 24G +但是实际上是用不完的,推理4G显存,训练10G显存足够。同时推理也是支持CPU的,只是速度较慢。 + +## 快速开始 +1、安装依赖 +pip install -m requirements.txt +2、[下载模型参数](https://huggingface.co/zxm2023/ChatCSDN) +3、修改chat.py,将model_path修改为下载好的模型地址替换 +args.MODEL_NAME = 'model_path' +4、运行python chat.py + + ## 预处理数据 使用项目 https://github.com/EleutherAI/gpt-neox 提供的数据转换工具将.jsonl文件转换为.bin和.idx文件,目前已经将代码全部移植过来,放在tools文件夹中。词典使用的是20B_tokenizer.json。 jsonl文件格式示例: @@ -91,5 +106,8 @@ python train_ppo.py --load_sft_model "./out_sft/rwkv-190.pth" --load_rm_model " --my_qa_mask 1 ``` +### 协议 +本仓库的代码依照 [Apache-2.0](LICENSE) 协议开源,模型参数同样需要遵循相应的开源协议。 +模型受限于参数量和训练数据,可能会产生与事实相违背/有危害性的答案,因此本项目仅供学习研究使用。