add quick start

066d5029 · CSDN-Ada助手 · 8d3bb64e · 066d5029
隐藏空白更改
内联并排

Showing with 22 addition and 4 deletion

README.md README.md +22 -4

未找到文件。
--- a/README.md
+++ b/README.md

 ## ChatCSDN
 ChatCSDN基于RWKV1.5B基模型
-源码来源于：https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v4neo
-主要是在RWKV提供的1.5B参数的基础之上，使用CSDN的问答数据和博客数据进行增量预训练，经过指令微调，得到拥有IT行业知识体系的大语言模型。
-原始模型参数地址：https://huggingface.co/BlinkDL/rwkv-4-pile-1b5
-微调后的模型参数地址：https://huggingface.co/zxm2023/ChatCSDN
+源码来源于：https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v4neo  
+主要是在RWKV提供的1.5B参数的基础之上，使用CSDN的问答数据和博客数据进行增量预训练，经过指令微调，得到拥有IT行业知识体系的大语言模型。   
+原始模型参数地址：https://huggingface.co/BlinkDL/rwkv-4-pile-1b5   
+微调后的模型参数地址：https://huggingface.co/zxm2023/ChatCSDN   
 介绍博客地址：https://blog.csdn.net/zxm2015/article/details/130227450

+## 硬件需求
+训练时采用的机器配置：  
+内存：256G  
+显卡：Nvidia Quadro RTX 6000 24G   
+但是实际上是用不完的，推理4G显存，训练10G显存足够。同时推理也是支持CPU的，只是速度较慢。
+
+## 快速开始
+1、安装依赖
+pip install -m requirements.txt   
+2、[下载模型参数](https://huggingface.co/zxm2023/ChatCSDN)   
+3、修改chat.py，将model_path修改为下载好的模型地址替换   
+args.MODEL_NAME = 'model_path'   
+4、运行python chat.py
+
+
 ## 预处理数据
 使用项目 https://github.com/EleutherAI/gpt-neox 提供的数据转换工具将.jsonl文件转换为.bin和.idx文件，目前已经将代码全部移植过来，放在tools文件夹中。词典使用的是20B_tokenizer.json。
 jsonl文件格式示例：
@@ -91,5 +106,8 @@ python train_ppo.py  --load_sft_model "./out_sft/rwkv-190.pth" --load_rm_model "
 --my_qa_mask 1
 ```

+### 协议
+本仓库的代码依照 [Apache-2.0](LICENSE) 协议开源，模型参数同样需要遵循相应的开源协议。
+模型受限于参数量和训练数据，可能会产生与事实相违背/有危害性的答案，因此本项目仅供学习研究使用。