更新了数据分析部分的文档

84fe683c · jackfrued · ed49ed9a · 84fe683c
隐藏空白更改
内联并排

Showing with 4 addition and 4 deletion

Day66-70/66.数据分析概述.md Day66-70/66.数据分析概述.md +4 -4

未找到文件。
--- a/Day66-70/66.数据分析概述.md
+++ b/Day66-70/66.数据分析概述.md
@@ -228,7 +228,7 @@ Notebook是基于网页的用于交互计算的应用程序，可以用于代码

    - **分位数**：将一个随机变量的概率分布范围分为几个具有相同概率的连续区间，比如最常见的中位数（二分位数，median），就是将数据集划分为数量相等的上下两个部分。除此之外，常见的分位数还有四分位数（quartile）、百分位数（percentile）等。

-        - 中位数：${Q}_{\frac{1}{2}}(x)=\{\begin{matrix} x_{\frac{n+1}{2}} &{n \mbox{ is odd}} \\ (x_{\frac{n}{2}}+x_{{\frac{n}{2}}+1})/2 &{n \mbox{ is even}}\end{matrix}$
+        - 中位数：${Q}_{\frac{1}{2}}(x)=\left\{\begin{matrix} x_{\frac{n+1}{2}} &{n \mbox{ is odd}} \\ (x_{\frac{n}{2}}+x_{{\frac{n}{2}}+1})/2 &{n \mbox{ is even}}\end{matrix}\right.$
          
        - 四分位数：

@@ -272,12 +272,12 @@ Notebook是基于网页的用于交互计算的应用程序，可以用于代码

    - 离散型分布：如果随机发生的事件之间是毫无联系的，每一次随机事件发生都是独立的、不连续的、不受其他事件影响的，那么这些事件的概率分布就属于离散型分布。

-        - 二项分布（binomial distribution）：$n$个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为$p$。一般地，如果随机变量$X$服从参数为$n$和$p$的二项分布，记为$X\sim B(n,p)$。$n$次试验中正好得到$k$次成功的概率由概率质量函数给出，$$\displaystyle f(k,n,p)=\Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}$$，对于$k= 0, 1, 2, ..., n$，其中${n \choose k}={\frac {n!}{k!(n-k)!}}$。
+        - 二项分布（binomial distribution）：$n$个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为$p$。一般地，如果随机变量$X$服从参数为$n$和$p$的二项分布，记为$X\sim B(n,p)$。$n$次试验中正好得到$k$次成功的概率由概率质量函数给出，$\displaystyle f(k,n,p)=\Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}$，对于$k= 0, 1, 2, ..., n$，其中${n \choose k}={\frac {n!}{k!(n-k)!}}$。
        - 泊松分布（poisson distribution）：适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数等等。泊松分布的概率质量函数为：$P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}$，泊松分布的参数$\lambda$是单位时间（或单位面积）内随机事件的平均发生率。
    - 连续型分布：

-        - 均匀分布（uniform distribution）：如果连续型随机变量$X$具有概率密度函数$f(x)=\{\begin{matrix}{\frac{1}{b-a}} &{a \leq x \leq b} \\ 0 &{\mbox{other}}\end{matrix}$，则称$X$服从$[a,b]$上的均匀分布，记作$X\sim U[a,b]$。
-        - 指数分布（exponential distribution）：如果连续型随机变量$X$具有概率密度函数$f(x)=\{\begin{matrix} \lambda e^{- \lambda x} &{x \ge 0} \\ 0 &{x \lt 0} \end{matrix}$，则称$X$服从参数为$\lambda$的指数分布，记为$X \sim Exp(\lambda)$。指数分布可以用来表示独立随机事件发生的时间间隔，比如旅客进入机场的时间间隔、客服中心接入电话的时间间隔、知乎上出现新问题的时间间隔等等。指数分布的一个重要特征是无记忆性（无后效性），这表示如果一个随机变量呈指数分布，它的条件概率遵循：$P(T \gt s+t \ | \ T \gt t)=P(T \gt s) \ \ \forall s,t \ge 0$。
+        - 均匀分布（uniform distribution）：如果连续型随机变量$X$具有概率密度函数$f(x)=\left\{\begin{matrix}{\frac{1}{b-a}} &{a \leq x \leq b} \\ 0 &{\mbox{other}}\end{matrix}\right.$，则称$X$服从$[a,b]$上的均匀分布，记作$X\sim U[a,b]$。
+        - 指数分布（exponential distribution）：如果连续型随机变量$X$具有概率密度函数$f(x)=\left\{\begin{matrix} \lambda e^{- \lambda x} &{x \ge 0} \\ 0 &{x \lt 0} \end{matrix}\right.$，则称$X$服从参数为$\lambda$的指数分布，记为$X \sim Exp(\lambda)$。指数分布可以用来表示独立随机事件发生的时间间隔，比如旅客进入机场的时间间隔、客服中心接入电话的时间间隔、知乎上出现新问题的时间间隔等等。指数分布的一个重要特征是无记忆性（无后效性），这表示如果一个随机变量呈指数分布，它的条件概率遵循：$P(T \gt s+t\ |\ T \gt t)=P(T \gt s), \forall s,t \ge 0$。
        - 正态分布（normal distribution）：又名**高斯分布**（Gaussian distribution），是一个非常常见的连续概率分布，经常用自然科学和社会科学中来代表一个不明的随机变量。若随机变量$X$服从一个位置参数为$\mu$、尺度参数为$\sigma$的正态分布，记为$X \sim N(\mu,\sigma^2)$，其概率密度函数为：$\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}$。
        - 伽马分布（gamma distribution）：假设$X_1, X_2, ... X_n$为连续发生事件的等候时间，且这$n$次等候时间为独立的，那么这$n$次等候时间之和$Y$（$Y=X_1+X_2+...+X_n$）服从伽玛分布，即$Y \sim \Gamma(\alpha,\beta)$，其中$\alpha=n, \beta=\lambda$，这里的$\lambda$是连续发生事件的平均发生频率。
        - 卡方分布（chi-square distribution）：若$k$个随机变量$Z_1,Z_2,...,Z_k$是相互独立且符合标准正态分布（数学期望为0，方差为1）的随机变量，则随机变量$Z$的平方和$X=\sum_{i=1}^{k}Z_i^2$被称为服从自由度为$k$的卡方分布，记为$X \sim \chi^2(k)$。