Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
haomaomaohu
Python-100-Days
提交
eb590f8c
P
Python-100-Days
项目概览
haomaomaohu
/
Python-100-Days
与 Fork 源项目一致
从无法访问的项目Fork
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Python-100-Days
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
eb590f8c
编写于
6月 19, 2022
作者:
骆昊的技术专栏
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
更新了第77天的文档
上级
778bfbbf
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
6 addition
and
6 deletion
+6
-6
Day66-80/77.概率统计基础.md
Day66-80/77.概率统计基础.md
+6
-6
未找到文件。
Day66-80/77.概率统计基础.md
浏览文件 @
eb590f8c
...
...
@@ -32,7 +32,7 @@
我们经常会使用以下几个指标来描述一组数据的集中趋势:
1.
均值 - 均值代表某个数据集的整体水平,我们经常提到的客单价、平均访问时长、平均配送时长等指标都是均值。均值是对数据进行概括的一个强有力的方法,将大量的数据浓缩成了一个数据。均值的缺点是容易受极值的影响,可以使用加权平均值或去尾平均值来消除极值的影响;对于正数可以用几何平均值来替代算术平均值。
-
算术平均值:$$
\b
ar{x}
=
\f
rac{
\s
um_{i=1}^{n}x_{i}}{n}=
\f
rac{x_{1}+x_{2}+
\c
dots +x_{n}}{n}$$,例如计算最近30天日均DAU、日均新增访客等,都可以使用算术平均值。
-
算术平均值:$$
\b
ar{x}
=
\f
rac{
\s
um_{i=1}^{n} {x_{i}}} {n} =
\f
rac{x_{1}+x_{2}+
\c
dots +x_{n}}{n}$$,例如计算最近30天日均DAU、日均新增访客等,都可以使用算术平均值。
-
几何平均值:$$
\l
eft(
\p
rod_{i=1}^{n}x_{i}
\r
ight)^{
\f
rac{1}{n}}={
\s
qrt[{n}]{x_{1}x_{2}
\c
dots x_{n}}}$$,例如计算不同渠道的平均转化率、不同客群的平均留存率、不同品类的平均付费率等,就可以使用几何平均值。
2.
中位数 - 将数据按照升序或降序排列后位于中间的数,它描述了数据的中等水平。中位数的计算分两种情况:
-
当数据体量$n$为奇数时,中位数是位于$
\f
rac{n + 1}{2}$位置的元素。
...
...
@@ -82,14 +82,14 @@ A组的均值会大幅度提升,但中位数和众数却没有变化。
> **提示**:箱线图。
4.
方差:将每个值与均值的偏差进行平方,然后除以总数据量得到的值。简单来说就是表示数据与期望值的偏离程度。方差越大,就意味着数据越不稳定、波动越剧烈,因此代表着数据整体比较分散,呈现出离散的趋势;而方差越小,意味着数据越稳定、波动越平滑,因此代表着数据整体比较集中。简单的总结一下,
-
总体方差:$$
\s
igma^2 =
\f
rac {
\s
um_{i=1}^{N}
(X_i -
\m
u)^2
} {N} $$。
-
样本方差:$$ S^2 =
\f
rac {
\s
um_{i=1}^{N}
(X_i -
\b
ar{X})^2
} {N-1} $$。
-
总体方差:$$
\s
igma^2 =
\f
rac {
\s
um_{i=1}^{N}
{(X_i -
\m
u)^2}
} {N} $$。
-
样本方差:$$ S^2 =
\f
rac {
\s
um_{i=1}^{N}
{(X_i -
\b
ar{X})^2}
} {N-1} $$。
> **说明**:Excel 中,计算总体方差和样本方差的函数分别是`VAR.P`和`VAR.S`。
5.
标准差:将方差进行平方根运算后的结果,与方差一样都是表示数据与期望值的偏离程度。
-
总体标准差:$$
\s
igma =
\s
qrt{
\f
rac{
\s
um_{i=1}^{N}
(X_i -
\m
u)^2}{N}} $$。
-
样本标准差:$$ S =
\s
qrt{
\f
rac{
\s
um_{i=1}^{N}
(X_i -
\b
ar{X})^2}{N-1}} $$。
-
总体标准差:$$
\s
igma =
\s
qrt{
\f
rac{
\s
um_{i=1}^{N}
{(X_i -
\m
u)^2}} {N}} $$
-
样本标准差:$$ S =
\s
qrt{
\f
rac{
\s
um_{i=1}^{N}
{(X_i -
\b
ar{X})^2}} {N-1}} $$
> **说明**:Excel 中,计算标准差的函数分别是`STDEV.P`和`STDEV.S`。
...
...
@@ -210,7 +210,7 @@ $$
1.
伯努利分布(
*Bernoulli distribution*
):又名
**两点分布**
或者
**0-1分布**
,是一个离散型概率分布。若伯努利试验成功,则随机变量取值为1。若伯努利试验失败,则随机变量取值为0。记其成功概率为$ p (0
\l
e p
\l
e 1) $,失败概率为$ q=1-p $,则概率质量函数为:
$$
{f(x)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p&{\mbox{if }}x=1,\\q\ &{\mbox{if }}x=0.\\\end{matrix}}\right.}
$$
$$
f(x)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p&{\mbox{if }}x=1,\\q\ &{\mbox{if }}x=0.\\\end{matrix}}\right.
$$
2.
二项分布(
*Binomial distribution*
):$n$个独立的是/非试验中成功次数的离散概率分布,其中每次试验的成功概率为$p$。一般地,如果随机变量$X$服从参数为$ n $和$ p $的二项分布,记为$ X
\s
im B(n,p) $。$ n $次试验中正好得到$ k $次成功的概率由概率质量函数给出,
$$ P(X=k) = C_k^np^k(1-p)^{n-k} $$
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录