提交 4924c996 编写于 作者: W wizardforcel

ch10pic

上级 fe73380f
# 十、假设检验
> 原文:[Testing Hypotheses](https://github.com/data-8/textbook/tree/gh-pages/chapters/10)
> 译者:[飞龙](https://github.com/wizardforcel)
> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
数据科学家们经常面对世界的是或不是的问题。你在这个课程中看到了一些这样的问题的例子:
+ 巧克力对你有好处吗?
......@@ -53,6 +61,8 @@ jury
jury.barh('Ethnicity')
```
![](img/10-1.png)
### 两个分布的距离
可视化使我们能够快速了解,两个分布之间的相似性和差异。 为了更准确地说出这些差异,我们必须首先量化两个分布之间的差异。 这将使我们的分析能够基于更多东西,不仅仅是我们能够通过眼睛做出的评估。
......@@ -154,6 +164,8 @@ panels_and_sample
panels_and_sample.barh('Ethnicity')
```
![](img/10-2.png)
灰色条形与蓝色条形比金色条形更接近。 随机样本类似于合格的总体,而不是陪审团。
我们可以通过计算合格总体的分布与随机样本之间的 TVD,来量化这一观察结果。
......@@ -212,6 +224,8 @@ results
results.hist(bins=np.arange(0, 0.2, 0.005))
```
![](img/10-3.png)
### 陪审团和随机样本比如何?
然而,研究中的陪审团与合格总体并不十分相似。陪审团和总体之间的 TVD 是 0.14,这距离上面的直方图的尾部很远。这看起来不像是随机样本和合格总体之间的典型距离。
......@@ -289,6 +303,8 @@ results = Table().with_column('TVD', tvds)
results.hist(bins = np.arange(0, 0.2, 0.01))
```
![](img/10-4.png)
随机样本的 TVD 小于我们所得的值 0.18,它是陪审团和合格陪审员的 TVD。
在这个分析中,数据并没有像我们以前的分析那样被问题盖住 - 涉及的人总数相对较少,而且最高法院案件的统计工作也很仔细。
......@@ -434,6 +450,8 @@ results = Table().with_column('Distance from 0.75', sampled_stats)
results.hist()
```
![](img/10-5.png)
检验的结论。 根据孟德尔的数据,统计量的观测值是 0.00888,刚好 0.01 以下。 这正好在这个分布的中心。
```py
......@@ -443,6 +461,8 @@ results.hist()
plots.scatter(observed_statistic, 0, color='red', s=30);
```
![](img/10-6.png)
基于孟德尔数据的统计量,与我们基于孟德尔模型的模拟的分布是一致的。 因此,与备选假设相比,数据更加支持原假设 - 孟德尔的模型是好的。
## P 值和“一致”的含义
......@@ -608,6 +628,8 @@ plots.scatter(section_3_mean, 0, color='red', s=30);
Empirical P-value: 0.0581
```
![](img/10-7.png)
从直方图来看,第三组的较低均值看起来有些不寻常,但 5% 截断值的惯例更加偏向 GSI 的假设。 有了这个截断值,我们说这个结果不是统计学显著的。
## 错误概率
......@@ -666,6 +688,8 @@ plots.scatter(observed_statistic, 0, color='red', s=30);
Empirical P-value: 0.5436
```
![](img/10-8.png)
注意 P 值的计算根据孟德尔的模型,基于所有抽取样本的重复,并且每次都计算检验统计量:
```py
......@@ -718,6 +742,8 @@ plots.scatter(sec_3_mean, 0, color='red', s=30);
Empirical P-value: 0.0569
```
![](img/10-9.png)
经验 P 值的计算在下面的单元格中。
```py
......@@ -748,8 +774,12 @@ empirical_P
results.hist()
```
![](img/10-10.png)
13 左边的面积也不到 5%。 左侧面积小于 5% 的所有样本均值以红色显示。
![](img/10-11.png)
你可以看到,如果第三组的平均值接近 13,并且你使用 5% 的截断值作为 P 值,那么你应该说小组的均值不像随机样本的均值。
你也可以看到,随机样本的均值可能在 13 左右(尽管不太可能)。事实上,在我们的模拟中,5000 个随机样本中有几个的均值与 13 相差 0.01 以内。
......@@ -763,6 +793,8 @@ results.where('Random Sample Mean', are.between(12.99, 13.01)).num_rows
如果你使用了 10% 的截断值而不是 5%,那么这里的红色部分意味着,你可能得出结论,它太低了,不能从随机样本中产生,即使在你不知情的情况下,它们是来自随机样本。
![](img/10-12.png)
### 做出错误决策的几率
假设你想测试一个硬币是否均匀。 那么假设是:
......@@ -790,6 +822,8 @@ results = Table().with_column('|Number of Heads - 200|', sampled_stats)
results.hist(bins = np.arange(0, 45, 5))
```
![](img/10-13.png)
如果硬币是不均匀的,那么你预计硬币的数量就不是 200,或者换句话说,如果硬币是均匀的,那么你预计,检验统计量就会大一些。
因此,正如在孟德尔的豌豆花的例子中,P 值是统计量经验分布的右侧尾部的区域。
......@@ -836,6 +870,7 @@ results.hist(bins = np.arange(0, 45, 5))
由于所有统计数据的前 3.5%,检验的结论是硬币是不平等的,在下面展示为红色。
![](img/10-14.png)
从图中可以看出,在平等的原假设下,大约前 3.5% 的检验统计量的值大于 20。你也可以通过求出这些值的比例来确认:
......@@ -846,7 +881,7 @@ results.where('|Number of Heads - 200|', are.above_or_equal_to(21)).num_rows/res
也就是说,如果检验统计量是 21 或更高,那么以 3.5% 的截断点,你会得出结论:硬币是不公平的。
也就是说,如果检验统计量是 21 或更,你将拒绝原假设。因此,“21 以上”的范围被称为该检验的拒绝域。它对应的正面数量是 221 及以上,或者是 179 及以下。
也就是说,如果检验统计量是 21 或更,你将拒绝原假设。因此,“21 以上”的范围被称为该检验的拒绝域。它对应的正面数量是 221 及以上,或者是 179 及以下。
如果你没有在直方图上将其标记为红色,你将如何找到这些值?百分位数函数在这里派上用场。它需要你尝试查找的百分比水平以及包含数据的数组。统计量的“前 3.5%”对应于统计量的第 96.5 个百分点:
......@@ -1085,6 +1120,8 @@ Observed Statistic: 0.733522727273
Empirical P: 0.0027
```
![](img/10-15.png)
请注意,分布大部分集中在 0 左右。在原假设下,爱国者的下降值是所有 15 下降值的随机样本,因此小马对也是如此。 所以这两组下降值的平均值应该大致相等,因此它们的差值应该在 0 左右。
但是检验统计量的观察值离分布的中心还有很远的距离。 使用什么是“小”的任何合理的截断值,经验 P 值都是小的。 所以我们最终拒绝原假设的随机性,并得出结论,爱国者的下降值太大,并不单独反映机会变异。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册