ch11.

ba81fa08 · wizardforcel · 0d084b14 · ba81fa08
隐藏空白更改
内联并排

Showing with 62 addition and 0 deletion

11.md 11.md +62 -0

未找到文件。
--- a/11.md
+++ b/11.md
@@ -274,3 +274,65 @@ pop_median
 在后面的章节中，我们将回到现实，在参数未知的情况下工作。 就目前而言，我们是无所不知的。
 ### 随机样本和估计
+让我们无放回地随机抽取 500 名员工的样本，并将所选员工的总薪酬的中位数作为我们的参数估计量。
+```py
+our_sample = sf2015.sample(500, with_replacement=False)
+our_sample.select('Total Compensation').hist(bins=sf_bins)
+```
+```py
+est_median = percentile(50, our_sample.column('Total Compensation'))
+est_median
+113598.99000000001
+```
+样本量很大。 根据平均定律，样本的分布与总体的分布相似，因此样本中位数与总体中位数相差不大（尽管当然并不完全相同）。
+所以现在我们有了参数的估计。 但是，如果样本是不同的，估计的值也会不同。 我们希望能够量化估计的值在不同样本间的差异。 这个变化的测量将有助于我们衡量我们可以将参数估计得多么准确。
+为了查看样本有多么不同，我们可以从总体中抽取另一个样本，但这样做就作弊了。 我们正试图模仿现实生活，我们不能掌握所有的人口数据。
+用某种方式，我们必须得到另一个随机样本，而不从总体中抽样。
+### 自举法：从样本中重采样
+我们所做的是，从样本中随机抽样。 我们知道了，大型随机样本可能类似于用于抽取的总体。 这一观察使得数据科学家可以通过自举来提升自己：抽样过程可以通过从样本中抽样来复制。
+以下是自举法的步骤，用于生成类似总体的另一个随机样本：
+   将原始样本看做总体。
+   从样本中随机抽取样本，与原始样本大小相同。
+二次样本的大小与原始样本相同很重要。 原因是估计量的变化取决于样本的大小。 由于我们的原始样本由 500 名员工组成，我们的样本中位数基于 500 个值。 为了看看样本变化多少，我们必须将其与 500 个其他样本的中位数进行比较。
+如果我们从大小为 500 的样本中，无放回地随机抽取了 500 次，我们只会得到相同的样本。 通过带放回抽取，我们就可以让新样本与原始样本不同，因为有些员工可能会被抽到一次以上，其他人则完全不会。
+为什么这是一个好主意？ 按照平均定律，原始样本的分布可能与总体相似，所有“二次样本”的分布可能与原始样本相似。 因此，所有二次样本的分布也可能与总体相似。
+### 二次样本的中位数
+回想一下，使用`sample`方法而没有指定样本大小时，默认情况下样本大小等于用于抽取样本的表的行数。 这是完美的自举！ 这是从原始样本中抽取的一个新样本，以及相应的样本中位数。
+```py
+resample_1 = our_sample.sample()
+resample_1.select('Total Compensation').hist(bins=sf_bins)
+```
+```py
+resampled_median_1 = percentile(50, resample_1.column('Total Compensation'))
+resampled_median_1
+110001.16
+```
+通过重采样，我们有了总体中位数的另一个估计。 通过一次又一次的重采样，我们得到许多这样的估计，因此有了估计的经验分布。
+```py
+resample_2 = our_sample.sample()
+resampled_median_2 = percentile(50, resample_2.column('Total Compensation'))
+resampled_median_2
+110261.39999999999
+```