diff --git a/README.md b/README.md
index a3f87f0a7b1e91d3005dc60836f294ebe27f18c4..7c158de517aee94f3e4e46aaa7596ff6202186fe 100644
--- a/README.md
+++ b/README.md
@@ -24,9 +24,7 @@
1. 斯坦福大学的评测:AlpacaEval Logo Leaderboard
2.
3.
-4. https://github.com/the-crypt-keeper/can-ai-code
-5. https://github.com/THUDM/CodeGeeX/tree/main/codegeex/benchmark
-6. https://github.com/openai/human-eval
+4.
## HumanEval-X
@@ -66,10 +64,30 @@ example_test: 提示中出现的公开测例,用于评测。
4、目前适配了java、python、cpp、js和go等五种语言。
+## 运行命令
+
+下面是一个使用chatgpt来生成python语言测试数据的样例:
+python generate_humaneval_x.py --input_path ../eval_set/humaneval-x
+ --language_type python
+ --model_name chatgpt
+ --output_prefix ../output/humaneval
+
+评估样例:
+python evaluate_humaneval_x.py --language_type python
+ --input_folder ../output
+ --tmp_dir ../output/tmp/
+ --n_workers 3
+ --timeout 500.0
+ --problem_folder ../eval_set/humaneval-x/
+ --out_dir ../output/
+ --k [1, 10, 100]
+ --test_groundtruth False
+ --example_test False
+ --model_name chatgpt
## 测试结果
-受限于模型推理速度,目前测试了pass@1指标。
+受限于模型推理速度,目前只测试了pass@1指标。
| | python | java | cpp | js | go |
|-------------|--------|--------|--------|--------|---------|
@@ -81,6 +99,6 @@ example_test: 提示中出现的公开测例,用于评测。
## TODO
-1、测试更多开源模型,例如百川,llama2,rwkv。
-2、测试模型的pass@10和pass@100指标。
-3、代码翻译类任务还没有适配,同时也需要构造相关的数据。
+1、测试更多开源模型,例如百川,llama2,rwkv。
+2、测试模型的pass@10和pass@100指标。
+3、代码翻译类任务还没有适配,同时也需要构造相关的数据。