# llm-coding-eval
大模型写代码能力评测 ## 目录说明 * backup/ * 最早版本的评测,测试例子来自真实的用户查询 * 评测体系来自基本的分类 * eval_set/ * 体系化设计的评测用例
* 从简单到复杂的编程粒度设计 * 代码补全能力评测集 * eval_set/humanval-x * 来自:<https://github.com/THUDM/CodeGeeX/blob/main/codegeex/benchmark/README_zh.md>
* llm_set/ * 大模型配置列表,配置每一种大模型的元数据 * src/ * 评测源代码 * mian.py 程序入口 ## 同类评测项目 1. 斯坦福大学的评测:AlpacaEval Logo Leaderboard <https://tatsu-lab.github.io/alpaca_eval/>
2. <https://github.com/the-crypt-keeper/can-ai-code> 3. <https://github.com/THUDM/CodeGeeX/tree/main/codegeex/benchmark>