README.md 802 字节
Newer Older
幻灰龙's avatar
幻灰龙 已提交
1 2
# llm-coding-eval

F
feilong 已提交
3 4 5 6 7 8 9 10 11
大模型写代码能力评测

## 目录说明

* backup/
  * 最早版本的评测,测试例子来自真实的用户查询
  * 评测体系来自基本的分类
* eval_set/
  * 体系化设计的评测用例
F
add doc  
feilong 已提交
12 13 14 15
    * 从简单到复杂的编程粒度设计
  * 代码补全能力评测集
    * eval_set/humanval-x
      * 来自:<https://github.com/THUDM/CodeGeeX/blob/main/codegeex/benchmark/README_zh.md>
F
feilong 已提交
16 17 18 19 20 21 22 23 24
* llm_set/
  * 大模型配置列表,配置每一种大模型的元数据
* src/
  * 评测源代码
* mian.py 程序入口

## 同类评测项目

1. 斯坦福大学的评测:AlpacaEval Logo Leaderboard <https://tatsu-lab.github.io/alpaca_eval/>
F
add doc  
feilong 已提交
25 26
2. <https://github.com/the-crypt-keeper/can-ai-code>
3. <https://github.com/THUDM/CodeGeeX/tree/main/codegeex/benchmark>