提交 656cf5f7 编写于 作者: Miykael_xxm's avatar Miykael_xxm 🚴

add commit sum by author_email per repo

上级 220d4a7b
......@@ -13,7 +13,7 @@
* `data/` 目录下是各种中间输入数据目录
* `ranks/` 目录下是榜单数据输出目录
* `src/` 是数据获取和榜单计算源代码目录,其中榜单计算代码是:`src/main.py`
* `src/` 是数据获取和榜单计算源代码目录,其中榜单计算代码是:`src/tasks/ranks.py`
## 项目配置和运行
......@@ -40,7 +40,13 @@
# 开源指数计算
**注释**:实际的计算规则以[src/main.py](src/main.py)里的计算逻辑为准
## 计算方法1
计算方法 1 是通过对项目各个数据因子进行加权计算得出的一个排名结果,具体的计算规则可参考[src/tasks/ranks.py](src/tasks/ranks.py)
方法 1 的结算结果详见 `ranks` 目录中的数据
## 计算方法 2
1. 项目的受欢迎指数 P,指标包括:项目总 Star 数(S)、项目总 Fork 数(F)、项目总 Issue 数(I)
- P = S * 0.5 + F * 0.3 + I * 0.2
......@@ -49,7 +55,9 @@
3. 项目的一段时间范围内的趋势,包括:
- 受欢迎指数变化趋势,以月为单位,最近 12个月项目的平均受欢迎指数的变化趋势 b(正的趋势>1 ,减弱的趋势 <1)
- 活跃指数变化趋势,以月为单位,最近 12个月项目的平均活跃指数变化趋势 d (正的趋势 >1 ,减弱的趋势 <1 )
4. 开源项目指数 = P * b + A * d
4. 开源项目指数 = P * ATAN(b) + A * ATAN(d)
方法 2 的计算结果详见 [`data/csdn/gitcode_project_rank_top1000.csv`](data/csdn/gitcode_project_rank_top1000.csv)
# 贡献者排行
......@@ -57,13 +65,6 @@
基于仓库的 commit 汇总数据 & `RepoType-OSChina.xlsx` 开源项目分类情况,找到不同项目的开发者排行,然后根据 GitHub 用户信息得到不同项目的开发者排行
## 数据处理问题点
- [ ] 项目类型分类(国际主流开源项目/中国发起的国际开源项目/中国活跃项目)
- 设想:通过项目的贡献者国家分布数据来判断
- 数据提供方: PingCAP
- [ ] 指数的解释
## 数据介绍
> 补充说明:
......@@ -76,6 +77,7 @@
- `data/CSDN/CSDN 指数.xlsx` : 开源项目关键词在 CSDN 内容社区的指数变化趋势,以月为单位;该数据主要用于计算项目排行榜
- `data/CSDN/repo-commit-rank.csv` :开源项目的提交排行榜(按邮箱);该数据用于爬虫抓取全部提交用户的 GitHub 用户信息
- `data/CSDN/repository_commit_events_20200930_analysis_new-demo.csv` : 全部 5000 + 开源项目的 commit 提交记录按项目/按邮箱的汇总表,完整数据会导入到数据仓库中;该数据用于计算 Top 项目的用户贡献排行(个人用户&公司用户)
- `data/CSDN/commit_analysis.csv` : 全部 5000 + 开源项目最近24个月 `2020-10-1 ~ 2022-09-30` 的基于全部 commit 历史记录 汇总的 author_email 提交次数记录
### PingCAP 数据
......
此差异已折叠。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册