07.md 10.3 KB
Newer Older
W
wizardforcel 已提交
1

W
wizardforcel 已提交
2 3 4 5 6 7 8

# 7 采样

统计学中的一个基本思想是,我们可以根据总体中相对较小的个体样本,对整个总体做出推断。在这一章中,我们将介绍统计抽样的概念,并讨论它的工作原理。

任何生活在美国的人都会熟悉从政治民意调查中取样的概念,这已经成为我们选举过程的一个核心部分。在某些情况下,这些民意调查在预测选举结果时会非常准确。最著名的例子来自2008年和2012年美国总统选举,当时民调专家内特·西尔弗(Nate Silver)正确预测了2008年49/50个州和2012年全部50个州的选举结果。西尔弗是通过综合21个不同民调的数据得出这一结论的,这些数据在倾向于共和党或民主党的程度上有所不同。每一项民意调查都包括来自大约1000名潜在选民的数据——这意味着Silver能够利用仅来自大约21,000人的数据以及其他知识(如这些州过去的投票情况)几乎完美地预测超过1 . 25亿选民的投票模式。

W
wizardforcel 已提交
9

W
wizardforcel 已提交
10 11 12 13 14 15 16 17 18 19

## 7.1 我们如何采样?

我们抽样的目的是确定感兴趣的整个人口的统计值,只使用人口的一个小子集。我们这样做主要是为了节省时间和精力——当仅仅一个小样本就足以准确估计感兴趣的统计数据时,为什么还要费事去测量群体中的每个个体呢?

在选举示例中,人口是被调查区域中的所有注册选民,样本是由投票组织选择的1000个人的集合。我们选择样本的方式对于确保样本能够代表整个人口是至关重要的,这也是统计抽样的一个主要目标。很容易想象一个不具有代表性的样本;如果民意测验专家只打电话给他们从当地民主党那里得到名字的个人,那么民意测验的结果就不可能代表全体人口。一般来说,我们将代表性投票定义为人口中的每个成员都有平等的机会被选中。当这失败时,我们就不得不担心我们对样本计算的统计数据是否有*偏差*——也就是说,它的值是否系统地不同于总体值(我们称之为*参数*)。请记住,我们通常不知道这个总体参数,因为如果我们知道,那么我们就不需要采样!但是我们会用例子来说明一些关键的观点,在这些例子中我们可以接触到整个人群。

区分两种不同的采样方式也很重要:有替换和没有替换。在使用替换的采样*中,在群体的一个成员被采样后,他们被放回池中,以便他们可能被再次采样。在*无替换抽样*中,成员一旦被抽样,就没有资格再次被抽样。最常见的是使用无替换采样,但是在某些情况下我们会使用有替换采样,比如我们在第 [8](#resampling-and-simulation) 章中讨论一种叫做*引导*的技术。*


W
wizardforcel 已提交
20 21


W
wizardforcel 已提交
22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43

## 7.2 采样误差

不管我们的样本有多有代表性,我们从样本中计算出的统计数据很可能会与总体参数略有不同。我们称之为*采样误差*。如果我们取多个样本,我们的统计估计值也会因样本而异;我们将样本间的统计分布称为*抽样分布*

抽样误差直接关系到我们测量人口的质量。显然,我们希望从样本中获得的估计值尽可能接近总体参数的真实值。然而,即使我们的统计是无偏的(即,我们期望它具有与总体参数相同的值),任何特定估计的值都将不同于总体值,并且当抽样误差较大时,这些差异将会较大。因此,减少采样误差是提高测量质量的重要一步。

我们将使用NHANES数据集作为例子;我们将假设NHANES数据集是感兴趣的整个人群,然后我们将从该人群中抽取随机样本。我们将在下一章详细讲述在计算机中如何产生“随机”样本。

在本例中,我们知道成人人口身高的平均值(168.35)和标准差(10.16),因为我们假设NHANES数据集*是人口的*。表 [7.1](#tab:sampleExample) 显示了从NHANES人群的50个个体的几个样本计算的统计数据。

<caption>Table 7.1: Example means and standard deviations for several samples of Height variable from NHANES.</caption>
| 采样平均 | 样品 |
| --- | --- |
| One hundred and sixty-seven | Nine point one |
| One hundred and seventy-one | Eight point three |
| One hundred and seventy | Ten point six |
| One hundred and sixty-six | Nine point five |
| One hundred and sixty-eight | Nine point five |

样本均值和标准差相似,但不完全等于总体值。现在,让我们从50个个体中抽取大量样本,计算每个样本的平均值,并查看平均值的抽样分布。为了很好地估计抽样分布,我们必须决定取多少样本——在这种情况下,我们将取5000个样本,这样我们对答案非常有信心。请注意,像这样的模拟有时需要几分钟才能运行,可能会让您的计算机气鼓鼓的。图 [7.1](#fig:samplePlot) 中的直方图显示,50个个体的每个样本的估计均值略有不同,但总体而言,它们以总体均值为中心。5000个样本平均值(168.3463)非常接近真实总体平均值(168.3497)。

W
wizardforcel 已提交
44
![The blue histogram shows the sampling distribution of the mean over 5000 random samples from the NHANES dataset.  The histogram for the full dataset is shown in gray for reference.](img/file41.png)
W
wizardforcel 已提交
45 46 47 48

图7.1:蓝色直方图显示了NHANES数据集中超过5000个随机样本的平均抽样分布。完整数据集的直方图以灰色显示,以供参考。


W
wizardforcel 已提交
49 50


W
wizardforcel 已提交
51 52 53 54 55 56 57 58 59 60 61 62 63 64

## 7.3 平均值的标准误差

在本书的后面,为了对样本统计数据进行推断,描述样本的可变性将变得至关重要。对于平均值,我们使用一个称为平均值(SEM)的*标准误差*的量来计算,可以将其视为平均值的采样分布的标准偏差。为了计算样本平均值的标准误差,我们将估计的标准偏差除以样本大小的平方根:

<semantics><mrow><mi>【s】</mi><mi>【e】</mi><mi>【m】</mi><mo>=<mfrac></mfrac></mo></mrow></semantics>

请注意,如果我们的样本很小(小于30),我们必须小心使用估计的标准偏差计算SEM。

因为我们有来自NHANES总体的许多样本,并且我们实际上知道总体SEM(我们通过将总体标准差除以总体大小来计算),所以我们可以确认,使用总体参数(1.44)计算的SEM非常接近我们从NHANES数据集(1.43)获取的样本的均值的观测标准差。

平均值的标准误差公式意味着我们测量的质量涉及两个量:总体可变性和样本大小。因为样本大小是SEM公式中的分母,所以在保持总体可变性不变的情况下,较大的样本大小将产生较小的SEM。我们无法控制人口的可变性,但是我们可以控制样本的大小。因此,如果我们希望改善我们的样本统计(通过减少他们的抽样可变性),那么我们应该使用更大的样本。然而,这个公式也告诉我们一些关于统计抽样的非常基本的东西——也就是说,较大样本的效用随着样本大小的平方根而减少。这意味着加倍样本量将*而不是*加倍统计数据的质量;而是将其提高一个<math display="inline"><semantics><msqrt><mn>2</mn></msqrt><annotation encoding="application/x-tex">\ sqrt { 2 }</annotation></semantics></math>的因子。在第 [10.3](#statistical-power) 节中,我们将讨论统计功效,它与这一概念密切相关。


W
wizardforcel 已提交
65 66


W
wizardforcel 已提交
67 68 69 70 71 72 73 74 75

## 7.4 中心极限定理

中心极限定理告诉我们,随着样本量变大,均值的抽样分布将变成正态分布,*即使每个样本内的数据不是正态分布*

首先,我们来简单介绍一下正态分布。它也被称为*高斯*分布,以卡尔·弗里德里希·高斯的名字命名,这位数学家没有发明它,但在它的发展中发挥了作用。正态分布用两个参数来描述:平均值(可以认为是峰值的位置)和标准差(指定分布的宽度)。分布的钟形形状永远不会改变,只有它的位置和宽度会改变。正如我们已经在第3章中看到的,正态分布在现实世界中收集的数据中是常见的,中心极限定理给了我们一些关于为什么会发生这种情况的见解。

为了查看中心极限定理的作用,让我们使用NHANES数据集中的变量AlcoholYear,它是高度偏斜的,如图 [7.2](#fig:alcDist50) 的左图所示。由于没有更好的词来形容,这种分布是时髦的——而且肯定不是正态分布。现在让我们看看这个变量的均值的抽样分布。图 [7.2](#fig:alcDist50) 显示了该变量的抽样分布,通过从NHANES数据集中重复抽取50个样本并取平均值获得。尽管原始数据显然是非正态的,但抽样分布非常接近正态。

W
wizardforcel 已提交
76
![Left: Distribution of the variable AlcoholYear in the NHANES dataset, which reflects the number of days that the individual drank in a year. Right: The sampling distribution of the mean for AlcoholYear in the NHANES dataset, obtained by drawing repeated samples of size 50, in blue.  The normal distribution with the same mean and standard deviation is shown in red.](img/file42.png)
W
wizardforcel 已提交
77 78 79 80 81 82

图7.2:左:NHANES数据集中变量AlcoholYear的分布,它反映了个人一年中饮酒的天数。右图:NHANES数据集中酒精年份平均值的抽样分布,通过绘制50个蓝色重复样本获得。具有相同平均值和标准偏差的正态分布显示为红色。

中心极限定理对统计学很重要,因为它允许我们安全地假设在大多数情况下均值的抽样分布将是正态的。这意味着我们可以利用假设正态分布的统计技术,我们将在下一节中看到。它也很重要,因为它告诉我们为什么正态分布在现实世界中如此普遍;任何时候我们把许多不同的因素结合成一个单一的数字,结果很可能是一个正态分布。例如,任何成年人的身高都取决于他们的基因和经历的复杂混合;即使这些单独的贡献可能不是正态分布的,当我们将它们组合起来时,结果也是正态分布的。


W
wizardforcel 已提交
83 84


W
wizardforcel 已提交
85 86 87 88 89 90 91 92 93 94 95

## 7.5 学习目标

阅读完本章后,您应该能够:

*   区分总体和样本,以及总体参数和样本统计
*   描述抽样误差和抽样分布的概念
*   计算平均值的标准误差
*   描述中心极限定理如何决定均值的抽样分布的性质


W
wizardforcel 已提交
96 97


W
wizardforcel 已提交
98 99 100 101 102 103

## 7.6 建议读数

*   Nate Silver的《信号与噪音:为什么这么多预测失败,但有些却没有》


W
wizardforcel 已提交
104