ch10pic

4924c996 · wizardforcel · fe73380f · 4924c996
隐藏空白更改
内联并排

Showing with 38 addition and 1 deletion

10.md 10.md +38 -1

未找到文件。
--- a/10.md
+++ b/10.md
 # 十、假设检验

+> 原文：[Testing Hypotheses](https://github.com/data-8/textbook/tree/gh-pages/chapters/10)
+
+> 译者：[飞龙](https://github.com/wizardforcel)
+
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
+> 自豪地采用[谷歌翻译](https://translate.google.cn/)
+
 数据科学家们经常面对世界的是或不是的问题。你在这个课程中看到了一些这样的问题的例子：

 +   巧克力对你有好处吗？
@@ -53,6 +61,8 @@ jury
 jury.barh('Ethnicity')
 ```

+![](img/10-1.png)
+
 ### 两个分布的距离

 可视化使我们能够快速了解，两个分布之间的相似性和差异。 为了更准确地说出这些差异，我们必须首先量化两个分布之间的差异。 这将使我们的分析能够基于更多东西，不仅仅是我们能够通过眼睛做出的评估。
@@ -154,6 +164,8 @@ panels_and_sample
 panels_and_sample.barh('Ethnicity')
 ```

+![](img/10-2.png)
+
 灰色条形与蓝色条形比金色条形更接近。 随机样本类似于合格的总体，而不是陪审团。

 我们可以通过计算合格总体的分布与随机样本之间的 TVD，来量化这一观察结果。
@@ -212,6 +224,8 @@ results
 results.hist(bins=np.arange(0, 0.2, 0.005))
 ```

+![](img/10-3.png)
+
 ### 陪审团和随机样本比如何？

 然而，研究中的陪审团与合格总体并不十分相似。陪审团和总体之间的 TVD 是 0.14，这距离上面的直方图的尾部很远。这看起来不像是随机样本和合格总体之间的典型距离。
@@ -289,6 +303,8 @@ results = Table().with_column('TVD', tvds)
 results.hist(bins = np.arange(0, 0.2, 0.01))
 ```

+![](img/10-4.png)
+
 随机样本的 TVD 小于我们所得的值 0.18，它是陪审团和合格陪审员的 TVD。

 在这个分析中，数据并没有像我们以前的分析那样被问题盖住 - 涉及的人总数相对较少，而且最高法院案件的统计工作也很仔细。
@@ -434,6 +450,8 @@ results = Table().with_column('Distance from 0.75', sampled_stats)
 results.hist()
 ```

+![](img/10-5.png)
+
 检验的结论。 根据孟德尔的数据，统计量的观测值是 0.00888，刚好 0.01 以下。 这正好在这个分布的中心。

 ```py
@@ -443,6 +461,8 @@ results.hist()
 plots.scatter(observed_statistic, 0, color='red', s=30);
 ```

+![](img/10-6.png)
+
 基于孟德尔数据的统计量，与我们基于孟德尔模型的模拟的分布是一致的。 因此，与备选假设相比，数据更加支持原假设 - 孟德尔的模型是好的。

 ## P 值和“一致”的含义
@@ -608,6 +628,8 @@ plots.scatter(section_3_mean, 0, color='red', s=30);
 Empirical P-value: 0.0581
 ```

+![](img/10-7.png)
+
 从直方图来看，第三组的较低均值看起来有些不寻常，但 5% 截断值的惯例更加偏向 GSI 的假设。 有了这个截断值，我们说这个结果不是统计学显著的。

 ## 错误概率
@@ -666,6 +688,8 @@ plots.scatter(observed_statistic, 0, color='red', s=30);
 Empirical P-value: 0.5436
 ```

+![](img/10-8.png)
+
 注意 P 值的计算根据孟德尔的模型，基于所有抽取样本的重复，并且每次都计算检验统计量：

 ```py
@@ -718,6 +742,8 @@ plots.scatter(sec_3_mean, 0, color='red', s=30);
 Empirical P-value: 0.0569
 ```

+![](img/10-9.png)
+
 经验 P 值的计算在下面的单元格中。

 ```py
@@ -748,8 +774,12 @@ empirical_P
 results.hist()  
 ```

+![](img/10-10.png)
+
 13 左边的面积也不到 5%。 左侧面积小于 5% 的所有样本均值以红色显示。

+![](img/10-11.png)
+
 你可以看到，如果第三组的平均值接近 13，并且你使用 5% 的截断值作为 P 值，那么你应该说小组的均值不像随机样本的均值。

 你也可以看到，随机样本的均值可能在 13 左右（尽管不太可能）。事实上，在我们的模拟中，5000 个随机样本中有几个的均值与 13 相差 0.01 以内。
@@ -763,6 +793,8 @@ results.where('Random Sample Mean', are.between(12.99, 13.01)).num_rows

 如果你使用了 10% 的截断值而不是 5%，那么这里的红色部分意味着，你可能得出结论，它太低了，不能从随机样本中产生，即使在你不知情的情况下，它们是来自随机样本。

+![](img/10-12.png)
+
 ### 做出错误决策的几率

 假设你想测试一个硬币是否均匀。 那么假设是：
@@ -790,6 +822,8 @@ results = Table().with_column('|Number of Heads - 200|', sampled_stats)
 results.hist(bins = np.arange(0, 45, 5))
 ```

+![](img/10-13.png)
+
 如果硬币是不均匀的，那么你预计硬币的数量就不是 200，或者换句话说，如果硬币是均匀的，那么你预计，检验统计量就会大一些。

 因此，正如在孟德尔的豌豆花的例子中，P 值是统计量经验分布的右侧尾部的区域。
@@ -836,6 +870,7 @@ results.hist(bins = np.arange(0, 45, 5))

 由于所有统计数据的前 3.5%，检验的结论是硬币是不平等的，在下面展示为红色。

+![](img/10-14.png)

 从图中可以看出，在平等的原假设下，大约前 3.5% 的检验统计量的值大于 20。你也可以通过求出这些值的比例来确认：

@@ -846,7 +881,7 @@ results.where('|Number of Heads - 200|', are.above_or_equal_to(21)).num_rows/res

 也就是说，如果检验统计量是 21 或更高，那么以 3.5% 的截断点，你会得出结论：硬币是不公平的。

-也就是说，如果检验统计量是 21 或更大，你将拒绝原假设。因此，“21 以上”的范围被称为该检验的拒绝域。它对应的正面数量是 221 及以上，或者是 179 及以下。
+也就是说，如果检验统计量是 21 或更高，你将拒绝原假设。因此，“21 以上”的范围被称为该检验的拒绝域。它对应的正面数量是 221 及以上，或者是 179 及以下。

 如果你没有在直方图上将其标记为红色，你将如何找到这些值？百分位数函数在这里派上用场。它需要你尝试查找的百分比水平以及包含数据的数组。统计量的“前 3.5%”对应于统计量的第 96.5 个百分点：

@@ -1085,6 +1120,8 @@ Observed Statistic: 0.733522727273
 Empirical P: 0.0027
 ```

+![](img/10-15.png)
+
 请注意，分布大部分集中在 0 左右。在原假设下，爱国者的下降值是所有 15 下降值的随机样本，因此小马对也是如此。 所以这两组下降值的平均值应该大致相等，因此它们的差值应该在 0 左右。

 但是检验统计量的观察值离分布的中心还有很远的距离。 使用什么是“小”的任何合理的截断值，经验 P 值都是小的。 所以我们最终拒绝原假设的随机性，并得出结论，爱国者的下降值太大，并不单独反映机会变异。