Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
CSDN 技术社区
1024 Report
提交
656cf5f7
1
1024 Report
项目概览
CSDN 技术社区
/
1024 Report
通知
84
Star
6
Fork
1
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
1
1024 Report
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
656cf5f7
编写于
10月 14, 2022
作者:
Miykael_xxm
🚴
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
add commit sum by author_email per repo
上级
220d4a7b
变更
2
展开全部
隐藏空白更改
内联
并排
Showing
2 changed file
with
270120 addition
and
10 deletion
+270120
-10
README.md
README.md
+12
-10
data/CSDN/commit_analysis.csv
data/CSDN/commit_analysis.csv
+270108
-0
未找到文件。
README.md
浏览文件 @
656cf5f7
...
...
@@ -13,7 +13,7 @@
*
`data/`
目录下是各种中间输入数据目录
*
`ranks/`
目录下是榜单数据输出目录
*
`src/`
是数据获取和榜单计算源代码目录,其中榜单计算代码是:
`src/
main
.py`
*
`src/`
是数据获取和榜单计算源代码目录,其中榜单计算代码是:
`src/
tasks/ranks
.py`
## 项目配置和运行
...
...
@@ -40,7 +40,13 @@
# 开源指数计算
**注释**
:实际的计算规则以
[
src/main.py
](
src/main.py
)
里的计算逻辑为准
## 计算方法1
计算方法 1 是通过对项目各个数据因子进行加权计算得出的一个排名结果,具体的计算规则可参考
[
src/tasks/ranks.py
](
src/tasks/ranks.py
)
方法 1 的结算结果详见
`ranks`
目录中的数据
## 计算方法 2
1.
项目的受欢迎指数 P,指标包括:项目总 Star 数(S)、项目总 Fork 数(F)、项目总 Issue 数(I)
-
P = S
* 0.5 + F *
0.3 + I
*
0.2
...
...
@@ -49,7 +55,9 @@
3.
项目的一段时间范围内的趋势,包括:
-
受欢迎指数变化趋势,以月为单位,最近 12个月项目的平均受欢迎指数的变化趋势 b(正的趋势>1 ,减弱的趋势 <1)
-
活跃指数变化趋势,以月为单位,最近 12个月项目的平均活跃指数变化趋势 d (正的趋势 >1 ,减弱的趋势 <1 )
4.
开源项目指数 = P
* b + A *
d
4.
开源项目指数 = P
* ATAN(b) + A *
ATAN(d)
方法 2 的计算结果详见
[
`data/csdn/gitcode_project_rank_top1000.csv`
](
data/csdn/gitcode_project_rank_top1000.csv
)
# 贡献者排行
...
...
@@ -57,13 +65,6 @@
基于仓库的 commit 汇总数据 &
`RepoType-OSChina.xlsx`
开源项目分类情况,找到不同项目的开发者排行,然后根据 GitHub 用户信息得到不同项目的开发者排行
## 数据处理问题点
-
[ ] 项目类型分类(国际主流开源项目/中国发起的国际开源项目/中国活跃项目)
-
设想:通过项目的贡献者国家分布数据来判断
-
数据提供方: PingCAP
-
[ ] 指数的解释
## 数据介绍
> 补充说明:
...
...
@@ -76,6 +77,7 @@
-
`data/CSDN/CSDN 指数.xlsx`
: 开源项目关键词在 CSDN 内容社区的指数变化趋势,以月为单位;该数据主要用于计算项目排行榜
-
`data/CSDN/repo-commit-rank.csv`
:开源项目的提交排行榜(按邮箱);该数据用于爬虫抓取全部提交用户的 GitHub 用户信息
-
`data/CSDN/repository_commit_events_20200930_analysis_new-demo.csv`
: 全部 5000 + 开源项目的 commit 提交记录按项目/按邮箱的汇总表,完整数据会导入到数据仓库中;该数据用于计算 Top 项目的用户贡献排行(个人用户&公司用户)
-
`data/CSDN/commit_analysis.csv`
: 全部 5000 + 开源项目最近24个月
`2020-10-1 ~ 2022-09-30`
的基于全部 commit 历史记录 汇总的 author_email 提交次数记录
### PingCAP 数据
...
...
data/CSDN/commit_analysis.csv
0 → 100644
浏览文件 @
656cf5f7
此差异已折叠。
点击以展开。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录