Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
CSDN 技术社区
llm-coding-eval
提交
a554db77
L
llm-coding-eval
项目概览
CSDN 技术社区
/
llm-coding-eval
通知
19
Star
3
Fork
1
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
1
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
L
llm-coding-eval
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
1
合并请求
1
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
a554db77
编写于
7月 25, 2023
作者:
CSDN-Ada助手
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
add readme
上级
d1158e1a
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
25 addition
and
7 deletion
+25
-7
README.md
README.md
+25
-7
未找到文件。
README.md
浏览文件 @
a554db77
...
...
@@ -24,9 +24,7 @@
1.
斯坦福大学的评测:AlpacaEval Logo Leaderboard
<https://tatsu-lab.github.io/alpaca_eval/>
2.
<https://github.com/the-crypt-keeper/can-ai-code>
3.
<https://github.com/THUDM/CodeGeeX/tree/main/codegeex/benchmark>
4.
https://github.com/the-crypt-keeper/can-ai-code
5.
https://github.com/THUDM/CodeGeeX/tree/main/codegeex/benchmark
6.
https://github.com/openai/human-eval
4.
<https://github.com/openai/human-eval>
## HumanEval-X
...
...
@@ -66,10 +64,30 @@ example_test: 提示中出现的公开测例,用于评测。
4、目前适配了java、python、cpp、js和go等五种语言。
## 运行命令
下面是一个使用chatgpt来生成python语言测试数据的样例:
python generate_humaneval_x.py --input_path ../eval_set/humaneval-x
--language_type python
--model_name chatgpt
--output_prefix ../output/humaneval
评估样例:
python evaluate_humaneval_x.py --language_type python
--input_folder ../output
--tmp_dir ../output/tmp/
--n_workers 3
--timeout 500.0
--problem_folder ../eval_set/humaneval-x/
--out_dir ../output/
--k [1, 10, 100]
--test_groundtruth False
--example_test False
--model_name chatgpt
## 测试结果
受限于模型推理速度,目前测试了pass@1指标。
受限于模型推理速度,目前
只
测试了pass@1指标。
| | python | java | cpp | js | go |
|-------------|--------|--------|--------|--------|---------|
...
...
@@ -81,6 +99,6 @@ example_test: 提示中出现的公开测例,用于评测。
## TODO
1、测试更多开源模型,例如百川,llama2,rwkv。
2、测试模型的pass@10和pass@100指标。
3、代码翻译类任务还没有适配,同时也需要构造相关的数据。
1、测试更多开源模型,例如百川,llama2,rwkv。
2、测试模型的pass@10和pass@100指标。
3、代码翻译类任务还没有适配,同时也需要构造相关的数据。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录