python train.py --load_model "RWKV-4-Pile-1B5-EngChn-test4-20230115.pth" --wandb "" --proj_dir "out" \ --data_file "data/ask_text_document" --data_type "binidx" --vocab_size 50277 \ --ctx_len 1024 --epoch_steps 200 --epoch_count 1000 --epoch_begin 0 --epoch_save 10 \ --micro_bsz 8 --n_layer 24 --n_embd 2048 --pre_ffn 0 --head_qk 0 \ --lr_init 1e-5 --lr_final 1e-5 --warmup_steps 0 --beta1 0.9 --beta2 0.999 --adam_eps 1e-8 \ --accelerator gpu --devices 1 --precision bf16 --strategy deepspeed_stage_2_offload --grad_cp 1 python preprocess_data.py \ --input ../data/data.txt \ --output-prefix ../data/blog \ --vocab ../20B_tokenizer.json \ --dataset-impl mmap \ --tokenizer-type HFTokenizer \ --append-eod python preprocess_data.py \ --input ../data/ask.json \ --output-prefix ../data/ask \ --vocab ../20B_tokenizer.json \ --dataset-impl mmap \ --tokenizer-type HFTokenizer \ --append-eod