README.md

# llm-coding-eval

大模型写代码能力评测

## 目录说明

* backup/
  * 最早版本的评测，测试例子来自真实的用户查询
  * 评测体系来自基本的分类
* eval_set/
  * 体系化设计的评测用例
  * 从简单到复杂的编程粒度设计
* llm_set/
  * 大模型配置列表，配置每一种大模型的元数据
* src/
  * 评测源代码
* mian.py 程序入口

## 同类评测项目

1. 斯坦福大学的评测：AlpacaEval Logo Leaderboard <https://tatsu-lab.github.io/alpaca_eval/>