提交 066d5029 编写于 作者: CSDN-Ada助手's avatar CSDN-Ada助手

add quick start

上级 8d3bb64e
## ChatCSDN
ChatCSDN基于RWKV1.5B基模型
源码来源于:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v4neo
主要是在RWKV提供的1.5B参数的基础之上,使用CSDN的问答数据和博客数据进行增量预训练,经过指令微调,得到拥有IT行业知识体系的大语言模型。
原始模型参数地址:https://huggingface.co/BlinkDL/rwkv-4-pile-1b5
微调后的模型参数地址:https://huggingface.co/zxm2023/ChatCSDN
源码来源于:https://github.com/BlinkDL/RWKV-LM/tree/main/RWKV-v4neo
主要是在RWKV提供的1.5B参数的基础之上,使用CSDN的问答数据和博客数据进行增量预训练,经过指令微调,得到拥有IT行业知识体系的大语言模型。
原始模型参数地址:https://huggingface.co/BlinkDL/rwkv-4-pile-1b5
微调后的模型参数地址:https://huggingface.co/zxm2023/ChatCSDN
介绍博客地址:https://blog.csdn.net/zxm2015/article/details/130227450
## 硬件需求
训练时采用的机器配置:
内存:256G
显卡:Nvidia Quadro RTX 6000 24G
但是实际上是用不完的,推理4G显存,训练10G显存足够。同时推理也是支持CPU的,只是速度较慢。
## 快速开始
1、安装依赖
pip install -m requirements.txt
2、[下载模型参数](https://huggingface.co/zxm2023/ChatCSDN)
3、修改chat.py,将model_path修改为下载好的模型地址替换
args.MODEL_NAME = 'model_path'
4、运行python chat.py
## 预处理数据
使用项目 https://github.com/EleutherAI/gpt-neox 提供的数据转换工具将.jsonl文件转换为.bin和.idx文件,目前已经将代码全部移植过来,放在tools文件夹中。词典使用的是20B_tokenizer.json。
jsonl文件格式示例:
......@@ -91,5 +106,8 @@ python train_ppo.py --load_sft_model "./out_sft/rwkv-190.pth" --load_rm_model "
--my_qa_mask 1
```
### 协议
本仓库的代码依照 [Apache-2.0](LICENSE) 协议开源,模型参数同样需要遵循相应的开源协议。
模型受限于参数量和训练数据,可能会产生与事实相违背/有危害性的答案,因此本项目仅供学习研究使用。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册