更新了第77天的文档

eb590f8c · 骆昊的技术专栏 · 778bfbbf · eb590f8c
隐藏空白更改
内联并排

Showing with 6 addition and 6 deletion

Day66-80/77.概率统计基础.md Day66-80/77.概率统计基础.md +6 -6

未找到文件。
--- a/Day66-80/77.概率统计基础.md
+++ b/Day66-80/77.概率统计基础.md
@@ -32,7 +32,7 @@
 我们经常会使用以下几个指标来描述一组数据的集中趋势：

 1. 均值 - 均值代表某个数据集的整体水平，我们经常提到的客单价、平均访问时长、平均配送时长等指标都是均值。均值是对数据进行概括的一个强有力的方法，将大量的数据浓缩成了一个数据。均值的缺点是容易受极值的影响，可以使用加权平均值或去尾平均值来消除极值的影响；对于正数可以用几何平均值来替代算术平均值。
-    - 算术平均值：$$\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}=\frac{x_{1}+x_{2}+\cdots +x_{n}}{n}$$，例如计算最近30天日均DAU、日均新增访客等，都可以使用算术平均值。
+    - 算术平均值：$$\bar{x} = \frac{\sum_{i=1}^{n} {x_{i}}} {n} = \frac{x_{1}+x_{2}+\cdots +x_{n}}{n}$$，例如计算最近30天日均DAU、日均新增访客等，都可以使用算术平均值。
    - 几何平均值：$$\left(\prod_{i=1}^{n}x_{i}\right)^{\frac{1}{n}}={\sqrt[{n}]{x_{1}x_{2} \cdots x_{n}}}$$，例如计算不同渠道的平均转化率、不同客群的平均留存率、不同品类的平均付费率等，就可以使用几何平均值。
 2. 中位数 - 将数据按照升序或降序排列后位于中间的数，它描述了数据的中等水平。中位数的计算分两种情况：
    - 当数据体量$n$为奇数时，中位数是位于$\frac{n + 1}{2}$位置的元素。
@@ -82,14 +82,14 @@ A组的均值会大幅度提升，但中位数和众数却没有变化。
    > **提示**：箱线图。

 4. 方差：将每个值与均值的偏差进行平方，然后除以总数据量得到的值。简单来说就是表示数据与期望值的偏离程度。方差越大，就意味着数据越不稳定、波动越剧烈，因此代表着数据整体比较分散，呈现出离散的趋势；而方差越小，意味着数据越稳定、波动越平滑，因此代表着数据整体比较集中。简单的总结一下，
-    - 总体方差：$$ \sigma^2 = \frac {\sum_{i=1}^{N}(X_i - \mu)^2} {N} $$。
-    - 样本方差：$$ S^2 = \frac {\sum_{i=1}^{N}(X_i - \bar{X})^2} {N-1} $$。
+    - 总体方差：$$ \sigma^2 = \frac {\sum_{i=1}^{N} {(X_i - \mu)^2}} {N} $$。
+    - 样本方差：$$ S^2 = \frac {\sum_{i=1}^{N} {(X_i - \bar{X})^2}} {N-1} $$。

    > **说明**：Excel 中，计算总体方差和样本方差的函数分别是`VAR.P`和`VAR.S`。

 5. 标准差：将方差进行平方根运算后的结果，与方差一样都是表示数据与期望值的偏离程度。
-    - 总体标准差：$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \mu)^2}{N}} $$。
-    - 样本标准差：$$ S = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \bar{X})^2}{N-1}} $$。
+    - 总体标准差：$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N} {(X_i - \mu)^2}} {N}} $$
+    - 样本标准差：$$ S = \sqrt{\frac{\sum_{i=1}^{N} {(X_i - \bar{X})^2}} {N-1}} $$

    > **说明**：Excel 中，计算标准差的函数分别是`STDEV.P`和`STDEV.S`。

@@ -210,7 +210,7 @@ $$

 1. 伯努利分布（*Bernoulli distribution*）：又名**两点分布**或者**0-1分布**，是一个离散型概率分布。若伯努利试验成功，则随机变量取值为1。若伯努利试验失败，则随机变量取值为0。记其成功概率为$ p (0 \le p \le 1) $，失败概率为$ q=1-p $，则概率质量函数为：

-    $$ {f(x)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p&{\mbox{if }}x=1,\\q\ &{\mbox{if }}x=0.\\\end{matrix}}\right.} $$
+    $$ f(x)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p&{\mbox{if }}x=1,\\q\ &{\mbox{if }}x=0.\\\end{matrix}}\right. $$

 2. 二项分布（*Binomial distribution*）：$n$个独立的是/非试验中成功次数的离散概率分布，其中每次试验的成功概率为$p$。一般地，如果随机变量$X$服从参数为$ n $和$ p $的二项分布，记为$ X\sim B(n,p) $。$ n $次试验中正好得到$ k $次成功的概率由概率质量函数给出，
    $$ P(X=k) = C_k^np^k(1-p)^{n-k} $$