diff --git "a/Day66-70/66.\346\225\260\346\215\256\345\210\206\346\236\220\346\246\202\350\277\260.md" "b/Day66-70/66.\346\225\260\346\215\256\345\210\206\346\236\220\346\246\202\350\277\260.md" index a7f8d5f0c58a1dcf8e9327a77c3d1f396169b15b..0ab0330f8788d0de3234c75e9827e686509f14fb 100644 --- "a/Day66-70/66.\346\225\260\346\215\256\345\210\206\346\236\220\346\246\202\350\277\260.md" +++ "b/Day66-70/66.\346\225\260\346\215\256\345\210\206\346\236\220\346\246\202\350\277\260.md" @@ -24,14 +24,25 @@ ### 数据分析的流程 -一个完整的数据分析流程应该包含以下几个方面,当然因为行业和工作内容的不同会略有差异。 +我们提到数分析这个词很多时候可能指的都是**狭义的数据分析**,这类数据分析主要目标就是生成可视化报表并通过这些报表来洞察业务中的问题。**广义的数据分析**还包含了数据挖掘的部分,不仅要通过数据实现对业务的监控和分析,还要利用机器学习算法,找出隐藏在数据背后的知识,并利用这些知识为将来的决策提供支撑。简单的说,**一个完整的数据分析应该包括基本的数据分析和深入的数据挖掘两个部分**。 -1. 确定目标(输入):理解业务,确定要解决的问题 -2. 收集数据(数据库、电子表格、三方接口、网络爬虫、开放数据集、……) -3. 数据清洗(数据清洗、数据变换、特征工程、……) -4. 探索数据(分组、聚合、拼接、运算、可视化、……) -5. 模型迭代(选择模型、应用算法、模型调优、……) -6. 模型部署(输出):模型落地,改进业务,A/B测试,报告撰写 +基本的数据分析工作一般包含以下几个方面的内容,当然因为行业和工作内容的不同会略有差异。 + +1. 确定目标(输入):理解业务,确定指标口径 +2. 获取数据:数据库、电子表格、三方接口、网络爬虫、开放数据集、…… +3. 清洗数据:缺失值处理、异常值处理、格式化处理、数据变换、归一化、离散化、…… +4. 探索数据:运算、统计、分组、聚合、可视化(趋势、变化、分布等)、…… +5. 数据报告(输出):数据发布,工作成果总结汇报 +6. 分析洞察(后续):数据监控、发现趋势、洞察异常、…… + +深入的数据挖掘工作应该包含一下几个方面的内容,当然因为行业和工作内容的不同会略有差异。 + +1. 确定目标(输入):理解业务,明确挖掘目标 +2. 数据准备:数据采集、数据描述、数据探索、质量判定、…… +3. 数据加工:提取数据、清洗数据、数据变换、归一化、离散化、特殊编码、降维、特征选择、…… +4. 数据建模:模型比较、模型选择、算法应用、…… +5. 模型评估:交叉检验、参数调优、结果评价、…… +6. 模型部署(输出):模型落地,业务改进,运营监控、报告撰写 ### 数据分析相关库 @@ -234,7 +245,7 @@ Notebook是基于网页的用于交互计算的应用程序,可以用于代码 - **分位数**:将一个随机变量的概率分布范围分为几个具有相同概率的连续区间,比如最常见的中位数(二分位数,median),就是将数据集划分为数量相等的上下两个部分。除此之外,常见的分位数还有四分位数(quartile)、百分位数(percentile)等。 - - 中位数:${Q}_{\frac{1}{2}}(x)=\begin{cases} x_{\frac{n+1}{2}}, \quad &n \ is \ odd \\ (x_{\frac{n}{2}}+x_{{\frac{n}{2}}+1})/2, \quad &n \ is \ even\end{cases}$ + - 中位数:当数据量$n$是奇数时,${Q}=x_{\frac{n+1}{2}}$,当数据量$n$是偶数时,$Q=(x_{\frac{n}{2}} + x_{{\frac{n}{2}}+1}) / 2$。 - 四分位数: