Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
秋水仙。。。素
Python-100-Days
提交
0d013796
P
Python-100-Days
项目概览
秋水仙。。。素
/
Python-100-Days
与 Fork 源项目一致
从无法访问的项目Fork
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Python-100-Days
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
0d013796
编写于
12月 24, 2020
作者:
J
jackfrued
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
更新了数据分析部分的内容
上级
a7b48eb8
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
19 addition
and
8 deletion
+19
-8
Day66-70/66.数据分析概述.md
Day66-70/66.数据分析概述.md
+19
-8
未找到文件。
Day66-70/66.数据分析概述.md
浏览文件 @
0d013796
...
...
@@ -24,14 +24,25 @@
### 数据分析的流程
一个完整的数据分析流程应该包含以下几个方面,当然因为行业和工作内容的不同会略有差异
。
我们提到数分析这个词很多时候可能指的都是
**狭义的数据分析**
,这类数据分析主要目标就是生成可视化报表并通过这些报表来洞察业务中的问题。
**广义的数据分析**
还包含了数据挖掘的部分,不仅要通过数据实现对业务的监控和分析,还要利用机器学习算法,找出隐藏在数据背后的知识,并利用这些知识为将来的决策提供支撑。简单的说,
**一个完整的数据分析应该包括基本的数据分析和深入的数据挖掘两个部分**
。
1.
确定目标(输入):理解业务,确定要解决的问题
2.
收集数据(数据库、电子表格、三方接口、网络爬虫、开放数据集、……)
3.
数据清洗(数据清洗、数据变换、特征工程、……)
4.
探索数据(分组、聚合、拼接、运算、可视化、……)
5.
模型迭代(选择模型、应用算法、模型调优、……)
6.
模型部署(输出):模型落地,改进业务,A/B测试,报告撰写
基本的数据分析工作一般包含以下几个方面的内容,当然因为行业和工作内容的不同会略有差异。
1.
确定目标(输入):理解业务,确定指标口径
2.
获取数据:数据库、电子表格、三方接口、网络爬虫、开放数据集、……
3.
清洗数据:缺失值处理、异常值处理、格式化处理、数据变换、归一化、离散化、……
4.
探索数据:运算、统计、分组、聚合、可视化(趋势、变化、分布等)、……
5.
数据报告(输出):数据发布,工作成果总结汇报
6.
分析洞察(后续):数据监控、发现趋势、洞察异常、……
深入的数据挖掘工作应该包含一下几个方面的内容,当然因为行业和工作内容的不同会略有差异。
1.
确定目标(输入):理解业务,明确挖掘目标
2.
数据准备:数据采集、数据描述、数据探索、质量判定、……
3.
数据加工:提取数据、清洗数据、数据变换、归一化、离散化、特殊编码、降维、特征选择、……
4.
数据建模:模型比较、模型选择、算法应用、……
5.
模型评估:交叉检验、参数调优、结果评价、……
6.
模型部署(输出):模型落地,业务改进,运营监控、报告撰写
### 数据分析相关库
...
...
@@ -234,7 +245,7 @@ Notebook是基于网页的用于交互计算的应用程序,可以用于代码
- **分位数**:将一个随机变量的概率分布范围分为几个具有相同概率的连续区间,比如最常见的中位数(二分位数,median),就是将数据集划分为数量相等的上下两个部分。除此之外,常见的分位数还有四分位数(quartile)、百分位数(percentile)等。
- 中位数:
${Q}_{\frac{1}{2}}(x)=\begin{cases} x_{\frac{n+1}{2}}, \quad &n \ is \ odd \\ (x_{\frac{n}{2}}+x_{{\frac{n}{2}}+1})/2, \quad &n \ is \ even\end{cases}$
- 中位数:
当数据量$n$是奇数时,${Q}=x_{\frac{n+1}{2}}$,当数据量$n$是偶数时,$Q=(x_{\frac{n}{2}} + x_{{\frac{n}{2}}+1}) / 2$。
- 四分位数:
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录