未验证 提交 9564a6b0 编写于 作者: 布客飞龙 提交者: GitHub

Merge pull request #6 from liuyixi520/master

update 05.md&06.md
......@@ -2,21 +2,21 @@
# 5 根据数据拟合模型
统计学中的基本活动之一是创建模型,这些模型可以使用一小组数字汇总数据,从而提供数据的简洁描述。在本章中,我们将讨论统计模型的概念以及如何用它来描述数据。
统计学中的最基本工作之一就是创建模型,这些模型可以使用一小组数字来汇总数据,从而提供数据的简洁描述。在本章中,我们将讨论统计模型的概念以及如何用它来描述数据。
## 5.1 什么是模型?
在物理世界中,“模型”通常是现实世界中事物的简化,但却传达了被建模事物的本质。一个建筑的模型,在传达建筑结构的同时,又足够小巧轻便,可以用手拿起来;生物学中的细胞模型比实际的东西要大得多,但同样传达了细胞的主要部分及其关系。
在物理世界中,“模型”通常是对现实世界中事物的简化,但却传达了被建模事物的本质。一个建筑物的模型,在传达建筑结构的同时,又足够小巧轻便,可以用手拿起来;生物学中的细胞模型比实际的东西要大得多,但同样传达了细胞的主要部分及其关系。
在统计学中,模型旨在提供类似的压缩描述,但针对数据而非物理结构。像物理模型一样,统计模型通常比描述的数据简单得多;这意味着尽可能简单地捕捉数据的结构。在这两种情况下,我们都意识到模型是一种便利的虚构,它必然掩盖了被建模的实际事物的一些细节。正如统计学家乔治·博克斯的名言:“所有的模型都是错的,但有些是有用的。”将统计模型视为观察到的数据是如何产生的理论也是有用的;然后,我们的目标就变成了找到最有效、最准确地总结数据实际生成方式的模型。但是,正如我们将在下面看到的,效率和准确性的愿望往往是截然相反的
在统计学中,模型旨在提供类似的压缩描述,但针对数据而非物理结构。像物理模型一样,统计模型通常比描述的数据简单得多;这意味着尽可能简单地捕捉数据的结构。在这两种情况下,我们都意识到模型是一种便利的虚构,它必然掩盖了被建模的实际事物的一些细节。正如统计学家乔治·博克斯的名言:“所有的模型都是错的,但有些是有用的。”将统计模型视为所观察到的数据是如何产生的理论依据,这也是可以的;然后,我们的目标就变成了找到最有效、最准确地总结数据实际生成方式的模型。但是,正如我们将在下面看到的,效率和准确性往往不可能同时兼顾——鱼和熊掌不可兼得
统计模型的基本结构是:
<semantics><mrow><mi>【d】</mi><mi>【a】</mi><mi>【a】<mo>=<mi>【m】</mi></mo></mi></mrow></semantics>
表达了数据可以分成两部分的想法:一部分由统计模型描述,它表达了我们根据我们的知识期望数据采取的值,另一部分我们称为*误差*,它反映了模型预测和观察数据之间的差异。
个公式描述了数据是由两个部分组成的想法:一部分由统计模型提供,它表达了我们根据我们的知识,预计样本应该被观测到的值,另一部分我们称为*偏差*,它反映了模型预测和观察数据之间的差异。
本质上,我们希望使用我们的模型来预测任何给定观察的数据值。我们可以这样写这个等式:
......@@ -30,29 +30,29 @@
## 5.2 统计建模:示例
让我们来看一个使用 NHANES 中的数据构建数据模型的例子。特别是,我们将尝试在 NHANES 样本中建立一个儿童身高模型。首先,让我们加载数据并绘制它们(见图 [5.1](#fig:childHeight) )。
让我们来看一个使用 NHANES 中的数据集构建数据模型的例子。特别需要说明的是,我们将尝试在 NHANES 样本中建立一个儿童身高模型。首先,让我们加载数据并绘制它们(见图 [5.1](#fig:childHeight) )。
![Histogram of height of children in NHANES.](img/file22.png)
图 5.1:NHANES 儿童身高直方图。
请记住,我们希望尽可能简单地描述数据,同时仍然捕获它们的重要特征。我们能想象到的最简单的模型只包含一个数字;也就是说,该模型将为每个观察值预测相同的值,而不管我们对这些观察值还知道什么。我们通常根据模型的*参数*来描述模型,这些参数是我们可以改变的值,以便修改模型的预测。在整本书中我们将引用这些使用希腊字母β(<math display="inline"><semantics><mi>【β】</mi><annotation encoding="application/x-tex"></annotation></semantics></math>);当模型有多个参数时,我们将使用带下标的数字来表示不同的贝塔系数(例如<math display="inline"><semantics><msub><mi>β</mi><mn>1</mn></msub><annotation encoding="application/x-tex">\ beta _ 1</annotation></semantics></math>)。习惯上也是用字母<math display="inline"><semantics><mi>y</mi><annotation encoding="application/x-tex">y</annotation></semantics></math>来指代数据的值,用下标版本<math display="inline"><semantics><msub><mi>y</mi><mi>I</mi></msub><annotation encoding="application/x-tex">y _ I</annotation></semantics></math>来指代个体观察值。
请记住,我们希望尽可能简单地描述数据,同时仍然捕获它们的重要特征。我们所能想象到的最简单的模型只包含一个数字;也就是说,该模型将为每个观察值预测相同的值,而不管我们对这些观察值还知道什么。我们通常根据模型的*参数*来描述模型,这些参数是我们可以改变的值,以便修改模型的预测。在整本书中我们将引用这些使用希腊字母β(<math display="inline"><semantics><mi>【β】</mi><annotation encoding="application/x-tex"></annotation></semantics></math>);当模型有多个参数时,我们将使用带下标的数字来表示不同的贝塔系数(例如<math display="inline"><semantics><msub><mi>β</mi><mn>1</mn></msub><annotation encoding="application/x-tex">\ beta _ 1</annotation></semantics></math>)。习惯上也是用字母<math display="inline"><semantics><mi>y</mi><annotation encoding="application/x-tex">y</annotation></semantics></math>来指代数据的观测值,用带下标的方式<math display="inline"><semantics><msub><mi>y</mi><mi>I</mi></msub><annotation encoding="application/x-tex">y _ I</annotation></semantics></math>来指代样本的观察值。
我们一般不知道参数的真实值,所以我们必须从数据中估计它们。为此,我们一般会在<math display="inline"><semantics><annotation encoding="application/x-tex">\ beta</annotation></semantics></math>符号上盖一个“帽子”,表示我们使用的是参数值的估计值,而不是它的真实值(我们一般不知道)。因此,我们使用单一参数的简单高度模型是:
我们一般不知道参数的真实值,所以我们必须从数据中估计它们。为此,我们一般会在<math display="inline"><semantics><annotation encoding="application/x-tex">\ beta</annotation></semantics></math>符号上盖一个“帽子”,表示我们使用的是参数值的估计值,而不是它的真实值(一般人是不知道的,除非开了上帝视角)。因此,我们使用单一参数的简单高度模型是:
<semantics><mrow><msub><mi></mi><mi>【I】</mi></msub><mo>=<mi><mo>+</mo>的缩写</mi></mo></mrow></semantics>
下标<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mi>I</mi><annotation encoding="application/x-tex">I</annotation></semantics></math>并没有出现在方程的右侧,这意味着模型的预测并不取决于我们在看哪一个观测值——对它们都是一样的。问题就变成了:我们如何估计模型中参数的最佳值?在这种特殊情况下,<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mi>β</mi><annotation encoding="application/x-tex"></annotation></semantics></math>的最佳估计值是什么?更重要的是,我们如何定义最好的?
我们可以想象的一个非常简单的估计器是*模式*,它只是数据集中最常见的值。这用一个数字重新描述了 1691 个孩子的全部集合。如果我们想预测任何新生儿的身高,那么我们的预测值将是相同的数字:
我们可以想象的一个非常简单的估计器是*模式*,它只是数据集中众数。这用一个数字重新描述了 1691 个孩子的全部集合。如果我们想预测任何新生儿的身高,那么我们的预测值将是相同的数字:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mover><msub><mi>y</mi><mi>I</mi></msub><mo accent="true">̂</mo></mover><mo>=</mo><mn>166.5</mn></mrow><annotation encoding="application/x-tex">\ hat { y _ I } = 166.5</annotation></semantics></math>那么每个个体的误差就是预测值之间的差(<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mover><msub><mi>y</mi></msub></mover></semantics></math>
<semantics><mrow><mi>【e】</mi><mi>【r】</mi>【r】<mi>【r】</mi><mi>【o】<msub><mi>【r】</mi></msub></mi></mrow></semantics>
这个模型有多好?一般来说,我们根据误差的大小来定义模型的好坏,误差代表数据偏离模型预测的程度;在所有条件相同的情况下,产生较低误差的模型是较好的模型。(尽管我们将在后面看到,所有的事情通常都不相等……)我们在这种情况下发现,当我们使用该模式作为我们对<math display="inline"><semantics><mi>【β】</mi><annotation encoding="application/x-tex">\ beta</annotation></semantics></math>的估计值时,平均个体有相当大的误差-28.8 厘米,这从表面上看似乎不太好。
这个模型有多好?一般来说,我们根据误差的大小来定义模型的好坏,误差代表数据偏离模型预测的程度;在所有条件相同的情况下,产生较低误差的模型是较好的模型。(尽管我们将在后面看到,所有的事情通常都不相等……)我们在这种情况下发现,当我们使用该模型作为我们对<math display="inline"><semantics><mi>【β】</mi><annotation encoding="application/x-tex">\ beta</annotation></semantics></math>的估计值时,平均个体有相当大的误差-28.8 厘米,从这个模型的表现来看,它似乎不太好。
我们如何为我们的模型参数找到一个更好的估计量?我们可以从寻找一个平均误差为零的估计量开始。一个很好的选择是算术平均值(即*平均值*,通常用变量上的横线表示,如<math display="inline"><semantics><mover><mi>x</mi><mo accent="true"></mo></mover><annotation encoding="application/x-tex">\ bar { x }</annotation></semantics></math>),计算为所有值的总和除以值的个数。数学上,我们将其表达为:
那么该如何为我们的模型参数找到一个更好的估计量?我们可以从寻找一个平均误差为零的估计量开始。一个很好的选择是算术平均值(即*平均值*,通常用在变量上加一个横线表示,如<math display="inline"><semantics><mover><mi>x</mi><mo accent="true"></mo></mover><annotation encoding="application/x-tex">\ bar { x }</annotation></semantics></math>),计算过程为所有值的总和除以值的个数。从数学角度描述,我们用公式将其表达为:
<semantics><mrow><mover><mi>【X5】</mi></mover><mo>=<mfrac></mfrac></mo></mrow></semantics>
......@@ -88,13 +88,13 @@
<semantics><mrow><mi></mi><mo>=</mo><mi><mi><mi>【p】</mi></mi></mi></mrow></semantics>
如果年龄是<math display="inline"><semantics><mi>X</mi><annotation encoding="application/x-tex">X</annotation></semantics></math>变量,那么这意味着我们根据年龄对身高的预测将是一条斜率为<math display="inline"><semantics><mi>β</mi><annotation encoding="application/x-tex"></annotation></semantics></math>且截距为零的线——为了查看这一点,让我们在数据顶部用蓝色绘制最佳拟合线(图 [5.3](#fig:childHeightLine) 中的 B 图)。这个模型显然有问题,因为这条线似乎没有很好地遵循数据。事实上,该模型的 RMSE(39.16)实际上高于仅包括平均值的模型!问题在于我们的模型只包括年龄,这意味着当年龄为零时,模型预测的身高值必须为零。即使数据不包括任何年龄为零的孩子,当 x 为零时,该线在数学上需要具有为零的 y 值,这解释了为什么该线被下拉到较年轻的数据点之下。我们可以通过在我们的模型中包含一个截距来解决这个问题,截距基本上代表年龄等于零时的估计身高;尽管零年龄在该数据集中是不合理的,但这是一个数学技巧,允许模型考虑数据的总体大小。模型是:
如果年龄是<math display="inline"><semantics><mi>X</mi><annotation encoding="application/x-tex">X</annotation></semantics></math>变量,那么这意味着我们根据年龄对身高的预测将是一条斜率为<math display="inline"><semantics><mi>β</mi><annotation encoding="application/x-tex"></annotation></semantics></math>且截距为零的线——为了更好的看清楚这一点,让我们在数据顶部用蓝色绘制最佳拟合线(图 [5.3](#fig:childHeightLine) 中的 B 图)。这个模型显然有问题,因为这条线似乎没有很好地遵循数据。事实上,该模型的 RMSE(39.16)实际上高于仅包括平均值的模型!问题在于我们的模型只包括年龄,这意味着当年龄为零时,模型预测的身高值必须为零。即使数据不包括任何年龄为零的孩子,当 x 为零时,该线在数学上需要具有为零的 y 值,这解释了为什么该线被下拉到较年轻的数据点之下。我们可以通过在我们的模型中添加一个截距来解决这个问题,截距基本上代表年龄等于零时的估计身高;尽管零年龄在该数据集中是不合理的,但这是一个数学技巧,允许模型考虑数据的总体大小。模型是:
<semantics><mrow><mover><msub><mi></mi><mi>【I】</mi></msub><mo>=</mo></mover></mrow></semantics>
其中<math display="inline"><semantics><mover><msub><mi>β</mi><mn>0</mn></msub><mo accent="true">̂</mo></mover><annotation encoding="application/x-tex">\ hat { \ beta _ 0 }</annotation></semantics></math>是我们对*截距*的估计值,它是一个常数值,加到对每个个体的预测中;我们称之为截距,因为它映射到直线方程的截距上。我们将在后面了解我们实际上是如何为一个特定的数据集估计这些参数值的;现在,我们将使用我们的统计软件来估计参数值,使我们对这些特定数据的误差最小。图 [5.3](#fig:childHeightLine) 中的子图 C 显示了应用于 NHANES 数据的模型,其中我们看到该线比没有常数的线更好地匹配了数据。
使用这个模型,我们的误差要小得多——平均只有 8.36 厘米。你能想到其他可能与身高有关的变量吗?性别呢?在图 [5.3](#fig:childHeightLine) 的 D 图中,我们用分别适合男性和女性的线绘制数据。从剧情上看,似乎是有雌雄之分的,但比较小,只在青春期年龄后才出现。在图 [5.4](#fig:msePlot) 中,我们绘制了不同模型的均方根误差值,包括一个带有模拟性别影响的附加参数的模型。从这里我们可以看到,从众数到平均数,模型变得更好了一点,从平均数到平均数+年龄,模型变得更好了一点,并且通过包括性别也变得稍微好了一点。
使用这个模型,我们的误差要小得多——平均只有 8.36 厘米。你能想到其他可能与身高有关的变量吗?比如说性别会影响身高么?在图 [5.3](#fig:childHeightLine) 的 D 图中,我们用分别适合男性和女性的线绘制数据。从分布上看,似乎是有男女之分的,但比较小,只在过了青春期年龄后才比较明显。在图 [5.4](#fig:msePlot) 中,我们绘制了不同模型的均方根误差值,包括一个带有模拟性别影响的附加参数的模型。从这里我们可以看到,从众数到平均数,模型变得更好了一点,从平均数到平均数+年龄,模型变得更好了一点,并且通过包括性别也变得稍微好了一点。
![Mean squared error plotted for each of the models tested above.](img/file25.png)
......@@ -112,33 +112,33 @@
为了理解这一点,我们来考虑一下误差来自哪里。首先,如果我们的模型是错误的,它就会发生;例如,如果我们不准确地说身高随着年龄的增长而下降,而不是上升,那么我们的误差将高于正确模型的误差。类似地,如果我们的模型中缺少了一个重要的因素,这也会增加我们的误差(就像我们在身高模型中忽略年龄时一样)。然而,由于数据中的随机变化,即使模型是正确的,也可能出现误差,我们通常称之为“测量误差”或“噪声”。有时这真的是由于我们的测量中的误差——例如,当测量依赖于人时,比如使用秒表来测量赛跑中所用的时间。在其他情况下,我们的测量设备是高度精确的(就像测量体重的数字秤),但被测量的东西受到许多不同因素的影响,导致它是可变的。如果我们知道所有这些因素,那么我们可以建立一个更准确的模型,但在现实中这几乎是不可能的。
让我们用一个例子来说明这一点。我们将使用计算机模拟来生成一些数据,而不是使用真实的数据(关于这一点,我们将在几章中详细介绍)。假设我们想要了解一个人的血液酒精含量(BAC)与他们在模拟驾驶测试中的反应时间之间的关系。我们可以生成一些模拟数据并绘制关系图(见图 [5.5](#fig:BACrt) 的 A 图)。
让我们用一个例子来说明这一点。我们将使用计算机模拟来生成一些数据,而不是使用真实的数据(关于这一点,我们将在下面几章中详细介绍)。假设我们想要了解一个人的血液酒精含量(BAC)与他们在模拟驾驶测试中的反应时间之间的关系。我们可以生成一些模拟数据并绘制关系图(见图 [5.5](#fig:BACrt) 的 A 图)。
![Simulated relationship between blood alcohol content and reaction time on a driving test, with best-fitting linear model represented by the line. A: linear relationship with low measurement error. B: linear relationship with higher measurement error. C: Nonlinear relationship with low measurement error and (incorrect) linear model](img/file26.png)
图 5.5:驾驶测试中血液酒精含量和反应时间之间的模拟关系,最佳拟合线性模型用直线表示。答:线性关系,测量误差小。b:线性关系,测量误差较高。c:具有低测量误差和(不正确的)线性模型的非线性关系
图 5.5:驾驶测试中血液酒精含量和反应时间之间的模拟关系,最佳拟合线性模型用直线表示。A:线性关系,测量误差小。B:线性关系,测量误差较高。C:具有低测量误差和(不正确的)线性模型的非线性关系
在本例中,反应时间随着血液酒精含量的增加而有系统地增加——这条线显示了最佳拟合模型,我们可以看到误差非常小,这一点在所有的点都非常接近这条线这一事实中是显而易见的。
我们也可以想象数据显示同样的线性关系,但有更多的误差,如图 [5.5](#fig:BACrt) 的 B 图所示。在这里,我们看到对 BAC 的反应时间仍有系统性的增加,但个体之间的差异更大。
在这两个例子中,两个变量之间的关系似乎是线性的,误差反映了我们测量中的噪声。另一方面,在其他情况下,变量之间的关系不是线性的,并且由于没有适当地指定模型,误差会增加。假设我们对咖啡因摄入量和测试成绩之间的关系感兴趣。像咖啡因这样的兴奋剂和测试表现之间的关系通常是非线性的,也就是说,它并不遵循一条直线。这是因为咖啡因用量越少,人的表现越好(因为这个人变得更加警觉),但用量越大,表现就越差(因为这个人变得紧张不安)。我们可以模拟这种形式的数据,然后用线性模型拟合数据(见图 [5.5](#fig:BACrt) 的子图 C)。蓝线表示最符合这些数据的直线;很明显,这里有很大的误差。尽管在测试成绩和咖啡因摄入量之间有一个非常合法的关系,它遵循一条曲线而不是一条直线。假设线性关系的模型具有很高的误差,因为它对于这些数据是错误的模型。
在这两个例子中,两个变量之间的关系似乎是线性的,误差反映了我们测量中的噪声。另一方面,在其他情况下,变量之间的关系不是线性的,并且由于没有适当地指定模型,误差会增加。假设我们对咖啡因摄入量和测试成绩之间的关系感兴趣。像咖啡因这样的兴奋剂和测试表现之间的关系通常是非线性的,也就是说,它并不遵循一条直线。这是因为咖啡因用量越少,人的表现越好(因为这个人变得更加警觉),但用量越大,表现就越差(会让人变得紧张不安)。我们可以模拟这种形式的数据,然后用线性模型拟合数据(见图 [5.5](#fig:BACrt) 的子图 C)。蓝线表示最符合这些数据的直线;很明显,这里有很大的误差。尽管在测试成绩和咖啡因摄入量之间有一个非常合法的关系,它遵循一条曲线而不是一条直线。假设线性关系的模型具有很高的误差,因为它对于这些数据是错误的模型。
## 5.4 一个模特可以太好吗
## 5.4 模型会不会好过头了
误差听起来是一件坏事,通常我们更喜欢误差较小的模型,而不是误差较大的模型。但是,我们在上面提到过,模型精确拟合当前数据集的能力和概化到新数据集的能力之间存在矛盾,事实证明,误差最低的模型往往在概化到新数据集方面要差得多!
误差听起来是一件坏事,通常我们更喜欢误差较小的模型,而不是误差较大的模型。但是,我们在上面提到过,模型精确拟合当前数据集的能力和概化到新数据集的能力之间存在矛盾,事实证明,误差最低的模型往往在在新数据集的泛化能力上要表现的差劲的多!
为了看到这一点,让我们再次生成一些数据,以便我们知道变量之间的真实关系。我们将创建两个模拟数据集,它们以完全相同的方式生成,只是添加了不同的随机噪声。也就是他们两个人的方程是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>y</mi><mo>=</mo><mi>β<mo>*</mo><mi>x</mi><mo>+</mo><mi>ϵ</mi></mi></mrow><annotation encoding="application/x-tex">y = \ beta * x+</annotation></semantics></math>;唯一的区别是不同的随机噪声被用于<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mi>ϵ</mi><annotation encoding="application/x-tex"></annotation></semantics></math>在每种情况下。
为了说明这一点,让我们再次生成一些数据,以便我们知道变量之间的真实关系。我们将创建两个模拟数据集,它们以完全相同的方式生成,只是添加了不同的随机噪声。数据是通过下面的方程式生成的<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>y</mi><mo>=</mo><mi>β<mo></mo><mi>x</mi><mo>+</mo><mi>ϵ</mi></mi></mrow><annotation encoding="application/x-tex">y = \ beta * x+</annotation></semantics></math>;唯一的区别是不同的随机噪声被用于<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mi>ϵ</mi><annotation encoding="application/x-tex"></annotation></semantics></math>不同情况下。
![An example of overfitting. Both datasets were generated using the same model, with different random noise added to generate each set. The left panel shows the data used to fit the model, with a simple linear fit in blue and a complex (8th order polynomial) fit in red. The root mean square error (RMSE) values for each model are shown in the figure; in this case, the complex model has a lower RMSE than the simple model. The right panel shows the second dataset, with the same model overlaid on it and the RMSE values computed using the model obtained from the first dataset. Here we see that the simpler model actually fits the new dataset better than the more complex model, which was overfitted to the first dataset.](img/file27.png)
图 5.6:过度拟合的例子。两个数据集都是使用相同的模型生成的,每个数据集都添加了不同的随机噪声。左图显示了用于拟合模型的数据,简单的线性拟合用蓝色表示,复杂的(8 阶多项式)拟合用红色表示。每个模型的均方根误差(RMSE)值如图所示;在这种情况下,复杂模型的 RMSE 低于简单模型。右侧面板显示了第二个数据集,其上覆盖了相同的模型,并且使用从第一个数据集获得的模型计算了 RMSE 值。在这里,我们看到更简单的模型实际上比更复杂的模型更适合新的数据集,更复杂的模型过度适合第一个数据集。
图 5.6:过拟合的例子。两个数据集都是使用相同的模型生成的,每个数据集都添加了不同的随机噪声。左图显示了用于拟合模型的数据,简单的线性拟合用蓝色表示,复杂的(8 阶多项式)拟合用红色表示。每个模型的均方根误差(RMSE)值如图所示;在这种情况下,复杂模型的 RMSE 低于简单模型。右侧面板显示了第二个数据集,其上覆盖了相同的模型,并且使用从第一个数据集获得的模型计算了 RMSE 值。在这里,我们看到更简单的模型实际上比更复杂的模型更适合新的数据集,更复杂的模型过度拟合了原始数据集。
[5.6](#fig:Overfitting) 中的左图显示,更复杂的模型(红色)比更简单的模型(蓝色)更符合数据。然而,当相同的模型应用于以相同方式生成的新数据集时,我们看到了相反的情况——在这里,我们看到较简单的模型比较复杂的模型更适合新数据。直观地,我们可以看到,更复杂的模型受第一个数据集中特定数据点的影响很大;由于这些数据点的确切位置是由随机噪声驱动的,这导致更复杂的模型不适合新数据集。这就是我们所说的*过度拟合*现象。现在重要的是要记住我们的模型需要很好,但不能太好。正如艾伯特·爱因斯坦(1933 年)所说:“几乎不能否认,所有理论的最高目标是在不放弃一个经验数据的充分表示的情况下,使不可约的基本元素尽可能简单和少。”这句话经常被解释为:“一切都应该尽可能简单,但不能更简单。”
[5.6](#fig:Overfitting) 中的左图显示,更复杂的模型(红色)比更简单的模型(蓝色)更符合数据。然而,当相同的模型应用于以相同方式生成的新数据集时,我们看到了相反的情况——在这里,我们看到较简单的模型比较复杂的模型更适合新数据。直观地,我们可以看到,更复杂的模型受第一个数据集中离群数据点的影响很大;由于这些数据点的确切位置是由随机噪声驱动的,这导致更复杂的模型不适合新数据集。这就是我们所说的*过拟合*现象。现在重要的是要记住我们的模型需要很好,但不能太好。正如艾伯特·爱因斯坦(1933 年)所说:“几乎不能否认,所有理论的最高目标是在不放弃一个经验数据的充分表示的情况下,使不可约的基本元素尽可能简单和少。”这句话经常被解释为:“简约而不简单。”
......@@ -152,7 +152,7 @@
<semantics><mrow><mover><mi>【X5】</mi></mover><mo>=<mfrac></mfrac></mo></mrow></semantics>
请注意,我说过这个公式是专门针对数据的*样本*的,它是从一个更大的总体中选择的一组数据点。使用一个样本,我们希望表征一个更大的群体——我们感兴趣的全部个体。例如,如果我们是一个政治民意测验专家,我们感兴趣的人群可能是所有注册选民,而我们的样本可能只包括从这个人群中抽样的几千人。在第 7 章中,我们将更详细地讨论抽样,但现在重要的一点是,统计学家通常喜欢使用不同的符号来区分描述样本值的*统计*和描述总体真实值的*参数*;在这种情况下,总体平均值(表示为<math display="inline"><semantics><annotation encoding="application/x-tex">\ mu</annotation></semantics></math>)的公式为:
请注意,我说过这个公式是专门针对数据的*样本*的,它是从一个更大的总体中选择的一组数据点。使用一个样本,我们希望代表一个更大的群体——我们感兴趣的全部个体。例如,如果我们是一个政治民意调查专家,我们感兴趣的人群可能是所有注册选民,而我们的样本可能只包括从这个人群中抽样的几千人。在第 7 章中,我们将更详细地讨论抽样,但现在重要的一点是,统计学家通常喜欢使用不同的符号来区分描述样本值的*统计*和描述总体真实值的*参数*;在这种情况下,总体平均值(表示为<math display="inline"><semantics><annotation encoding="application/x-tex">\ mu</annotation></semantics></math>)的公式为:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>μ</mi><mo>=</mo><mfrac><mrow><munderover><mo></mo><mrow><mi>I</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>x</mi><mi>I</mi></msub></mrow><mi>n</mi></mfrac></mrow><annotation encoding="application/x-tex">\ mu = \frac{\sum_{i=1}^{n}x_i}{n}</annotation></semantics></math>
......@@ -162,7 +162,7 @@
图 5.7:显示了最小化误差平方和的统计平均值。使用 NHANES 儿童身高数据,我们计算平均值(用蓝色条表示)。然后,我们测试一系列可能的参数估计值,对于每一个估计值,我们根据该值计算每个数据点的误差平方和,用黑色曲线表示。我们看到平均值落在平方误差图的最小值处。
SSE 的最小化是一个很好的特性,这也是为什么平均值是最常用的汇总数据的统计量。然而,中庸也有阴暗面。假设五个人在一个酒吧,我们考察每个人的收入(Table [5.1](#tab:income1) ):
SSE 的最小化是一个很好的特性,这也是为什么平均值是最常用的汇总数据的统计量。然而,滥用均值也有不好的一面。假设五个人在一个酒吧,我们考察每个人的收入(Table [5.1](#tab:income1) ):
<caption>Table 5.1: Income for our five bar patrons</caption>
| 收入 | 人 |
......@@ -185,15 +185,15 @@ SSE 的最小化是一个很好的特性,这也是为什么平均值是最常
| Sixty-six thousand | 轻拍 |
| Fifty-four million | 碧昂丝(美国女歌手) |
现在的平均值几乎是 1000 万美元,这并不真正代表酒吧里的任何人——特别是,它在很大程度上是由碧昂斯的外围价值驱动的。一般来说,平均值对极值非常敏感,这就是为什么在使用平均值汇总数据时确保没有极值总是很重要的原因。
现在的平均值几乎是 1000 万美元,这和酒吧里任何一个人的收入都差之甚远——特别是,它在很大程度上是由碧昂斯的收入所决定的。一般来说,平均值对极值非常敏感,这就是为什么在使用平均值汇总数据时确保没有极值很重要的原因。
### 5.5.1 使用中值稳健地汇总数据
如果我们想以一种对异常值不太敏感的方式来总结数据,我们可以使用另一种称为*中位数*的统计数据。如果我们将所有的值按大小排序,那么中值就是中间的值。如果有偶数个值,那么将有两个值并列在中间位置,在这种情况下,我们取这两个值的平均值(即中点)。
如果我们想以一种对异常值不太敏感的方式来总结数据,我们可以使用另一种称为*中位数*方式来统计数据。如果我们将所有的值按大小排序,那么中值就是中间的值。如果有偶数个值,那么将有两个值并列在中间位置,在这种情况下,我们取这两个值的平均值(即中点)。
让我们看一个例子。假设我们要总结以下价值观:
让我们看一个例子。假设我们要统计汇总下面的数据:
```
8 6 3 14 12 7 6 4 9
......@@ -209,7 +209,7 @@ SSE 的最小化是一个很好的特性,这也是为什么平均值是最常
平均值最小化误差的平方和,而中值最小化一个稍微不同的量:误差的绝对值之和。这解释了为什么它对异常值不太敏感——与取绝对值相比,平方会加剧大误差的影响。我们可以在收入的例子中看到这一点:中值收入(65,000 美元)比平均值(9,051,333 美元)更能代表整个群体,而且对一个大的异常值不太敏感。
有鉴于此,我们为什么要使用平均值呢?正如我们将在后面的章节中看到的,均值是“最好的”估计量,因为与其他估计量相比,它在样本间的变化较小。这取决于我们来决定是否值得对潜在的异常值敏感——统计学就是关于权衡的
有鉴于此,我们为什么要使用平均值呢?正如我们将在后面的章节中看到的,均值是“最好的”估计量,因为与其他估计量相比,它在样本间的变化较小。这取决于统计时我们是否对潜在的异常值敏感——统计学就是关于权衡利弊的学科
......@@ -225,17 +225,17 @@ SSE 的最小化是一个很好的特性,这也是为什么平均值是最常
## 可变性:平均值与数据的吻合程度如何?
## 方差:平均值与数据的吻合程度如何?
一旦我们描述了数据的中心趋势,我们通常还想描述数据的可变性——这有时也称为“分散”,反映了它描述了数据的分散程度。
我们已经在上面遇到了误差平方和,这是最常用的可变性测量的基础:方差*和 T2 标准差*。总体的方差(称为<math display="inline"><semantics><msup><mn>2</mn></msup><annotation encoding="application/x-tex">\sigma^2</annotation></semantics></math>)就是误差平方和除以观察次数——也就是说,它与您之前遇到的*均方差*完全相同:
我们已经在上面遇到了误差平方和,这是最常用的可变性测量的基础:*方差**标准差*。总体的方差(称为<math display="inline"><semantics><msup><mn>2</mn></msup><annotation encoding="application/x-tex">\sigma^2</annotation></semantics></math>)就是误差平方和除以观察次数——也就是说,它与您之前遇到的*均方差*完全相同:
<semantics><mrow><mo>=<mfrac></mfrac></mo></mrow></semantics>
其中<math display="inline"><semantics><mi>μ</mi><annotation encoding="application/x-tex">\ mu</annotation></semantics></math>人口平均数。总体标准差就是这个的平方根——也就是我们之前看到的*均方根误差*。标准差很有用,因为误差与原始数据的单位相同(撤消我们对误差应用的平方)。
其中<math display="inline"><semantics><mi>μ</mi><annotation encoding="application/x-tex">\ mu</annotation></semantics></math>样本平均数。总体标准差就是这个的平方根——也就是我们之前看到的*均方根误差*。标准差很有用,因为误差与原始数据的计量单位是相同的(抵消了我们对误差应用的平方)。
我们通常无法访问整个人口,所以我们必须使用样本来计算方差,我们称之为<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><msup><mover><mi>【σ】</mi><mo accent="true">̂</mo></mover><mn>2</mn></msup><annotation encoding="application/x-tex">\hat{\sigma}^2</annotation></semantics></math>,“帽子”表示这是基于样本的估计值。<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><msup><mover><mi>σ</mi></mover><mn>̂</mn></msup><annotation encoding="application/x-tex">\hat{\sigma}^2</annotation></semantics></math>的方程式与<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><msup><mi>σ</mi><mn>2</mn></msup><annotation encoding="application/x-tex">\sigma^2</annotation></semantics></math>的方程式相似:
我们通常无法访问所有样本,所以我们必须使用样本来计算方差,我们称之为<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><msup><mover><mi>【σ】</mi><mo accent="true">̂</mo></mover><mn>2</mn></msup><annotation encoding="application/x-tex">\hat{\sigma}^2</annotation></semantics></math>,“帽子”表示这是基于样本的估计值。<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><msup><mover><mi>σ</mi></mover><mn>̂</mn></msup><annotation encoding="application/x-tex">\hat{\sigma}^2</annotation></semantics></math>的方程式与<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><msup><mi>σ</mi><mn>2</mn></msup><annotation encoding="application/x-tex">\sigma^2</annotation></semantics></math>的方程式相似:
<semantics><mrow><msup><mo>=</mo></msup></mrow></semantics>
......@@ -268,7 +268,7 @@ SSE 的最小化是一个很好的特性,这也是为什么平均值是最常
## 5.9 Z 分数
根据集中趋势和可变性描述了分布的特征后,根据各个分数相对于总体分布的位置来表示它们通常是有用的。假设我们感兴趣的是描述不同州之间犯罪的相对水平,以确定加州是否是一个特别危险的地方。我们可以使用来自联邦调查局统一犯罪报告网站的 2014 年数据来问这个问题。图 [5.8](#fig:crimeHist) 的左面显示了各州暴力犯罪数量的直方图,突出显示了加利福尼亚州的数值。看着这些数据,加州似乎非常危险,那一年有 153709 起犯罪。我们可以通过生成一个显示变量在各州分布的图来可视化这些数据,该图显示在图 [5.8](#fig:crimeHist) 的右侧面板中。
根据集中趋势和可变性描述了分布的特征后,根据各个分数相对于总体分布的位置来表示它们通常是有用的。假设我们感兴趣的是描述不同州之间犯罪的相对水平,以确定加州是否是一个特别危险的地方。我们可以使用来自联邦调查局统一犯罪报告网站的 2014 年数据来问这个问题。图 [5.8](#fig:crimeHist) 的左面显示了各州暴力犯罪数量的直方图,将加利福尼亚州的犯罪数据特别标注了出来。看着这些数据,加州似乎非常危险,那一年有 153709 起犯罪。我们可以通过生成一个显示变量在各州分布的图来可视化这些数据,该图显示在图 [5.8](#fig:crimeHist) 的右侧面板中。
![Left: Histogram of the number of violent crimes. The value for CA is plotted in blue. Right: A map of the same data, with number of crimes (in thousands) plotted for each state in color.](img/file29.png)
......@@ -280,13 +280,13 @@ SSE 的最小化是一个很好的特性,这也是为什么平均值是最常
图 5.9:左图:各州暴力犯罪数量与人口的关系图。右图:人均暴力犯罪率直方图,以每 10 万人的犯罪率表示。
我们不应该使用犯罪的原始数字,而应该使用人均暴力犯罪率,这是通过将每个州的犯罪数量除以每个州的人口数量得到的。美国联邦调查局的数据集已经包含了这一数值(以每 100,000 人的比率表示)。看一下图 [5.9](#fig:popVsCrime) 的右图,我们会发现加州并不那么危险——它的犯罪率为每 10 万人中 396.10 人,略高于各州平均水平 346.81 人,但仍在许多其他州的范围之内。但是如果我们想更清楚地了解它离分布的其他部分有多远呢?
我们不应该使用犯罪案件的数量,而应该使用人均暴力犯罪率,这是通过将每个州的犯罪数量除以每个州的人口数量得到的。美国联邦调查局的数据集已经包含了这一数值(以每 100,000 人的比率表示)。看一下图 [5.9](#fig:popVsCrime) 的右图,我们会发现加州并不那么危险——它的犯罪率为每 10 万人中 396.10 人,略高于各州平均水平 346.81 人,但仍在许多其他州的范围之内。但是如果我们想更清楚地了解它离分布的其他部分有多远呢?
Z 值允许我们以一种方式表达数据,这种方式提供了对每个数据点与总体分布的关系的更深入的了解。假设我们知道总体平均值<math display="inline"><semantics><annotation encoding="application/x-tex">【mu】</annotation></semantics></math>和标准差<math display="inline"><semantics><mi>【σ</mi><annotation encoding="application/x-tex">【σ</annotation></semantics></math>的值,则计算单个数据点的 Z 值的公式为:
Z 值允许我们以一种方式表达数据,这种方式描述了对每个数据点与总体分布更深入的关系。假设我们知道总体平均值<math display="inline"><semantics><annotation encoding="application/x-tex">【mu】</annotation></semantics></math>和标准差<math display="inline"><semantics><mi>【σ</mi><annotation encoding="application/x-tex">【σ</annotation></semantics></math>的值,则计算单个数据点的 Z 值的公式为:
<semantics><mrow><mi>【z】</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi><mo stretchy="true" form="postfix">)</mo><mo>=</mo></mi></mrow></mrow></semantics>
直观地说,您可以将 Z 分数视为告诉您任何数据点离平均值有多远,以标准差为单位。我们可以对犯罪率数据进行计算,如图 [5.10](#fig:crimeZplot) 所示,该图绘制了 Z 分数与原始分数的关系。
通俗的讲,您可以将 Z 值视为告诉您任何数据点离平均值有多远,以标准差为单位。我们可以对犯罪率数据进行计算,如图 [5.10](#fig:crimeZplot) 所示,该图绘制了 Z 分数与原始分数的关系。
![Scatterplot of original crime rate data against Z-scored data.](img/file31.png)
......@@ -334,13 +334,13 @@ Z 值允许我们以一种方式表达数据,这种方式提供了对每个数
#### 5.9.2.1 使用 Z 分数比较分布
Z 分数的一个有用的应用是比较不同变量的分布。假设我们想比较暴力犯罪和财产犯罪在各州的分布情况。在图 [5.15](#fig:crimeTypePlot) 的左图中,我们用蓝色标出 CA。如你所见,财产犯罪的原始比率远远高于暴力犯罪的原始比率,所以我们不能直接比较数字。然而,我们可以绘制这些数据彼此之间的 Z 分数(图 [5.15](#fig:crimeTypePlot) 的右图)——我们再次看到数据的分布没有变化。将数据放入每个变量的 Z 分数中,使它们具有可比性,并让我们看到,就暴力犯罪和财产犯罪而言,加州实际上位于分布的中间。
Z 分数的一个有用的应用是比较不同变量的分布。假设我们想观测比较暴力犯罪和财产犯罪在各州的分布情况。在图 [5.15](#fig:crimeTypePlot) 的左图中,我们用蓝色标出 CA。如你所见,财产犯罪的原始比率远远高于暴力犯罪的原始比率,所以我们不能直接比较数字。然而,我们可以绘制这些数据彼此之间的 Z 分数(图 [5.15](#fig:crimeTypePlot) 的右图)——我们再次看到数据的分布没有变化。将数据放入每个变量的 Z 分数中,使它们具有可比性,并让我们看到,就暴力犯罪和财产犯罪而言,加州实际上位于分布的中间。
![Plot of violent vs. property crime rates (left) and Z-scored rates (right).](img/file36.png)
图 5.15:暴力与财产犯罪率(左)和 Z 得分率(右)。
我们再给剧情加一个因素:人口。在图 [5.16](#fig:crimeTypePopPlot) 的左侧面板中,我们使用绘图符号的大小显示了这一点,这通常是向绘图添加信息的有用方式。
我们再给统计分析加一个因素:人口。在图 [5.16](#fig:crimeTypePopPlot) 的左侧面板中,我们使用绘图符号的大小显示了这一点,这通常是向绘图添加信息的有用方式。
![Left: Plot of violent vs. property crime rates, with population size presented through the size of the plotting symbol; California is presented in blue. Right: Difference scores for violent vs. property crime, plotted against population. ](img/file37.png)
......
......@@ -2,18 +2,18 @@
# 6 概率
概率论是处理机会和不确定性的数学分支。它是统计学基础的重要组成部分,因为它为我们提供了描述不确定事件的数学工具。概率研究的兴起部分是由于对理解像纸牌或骰子这样的机会游戏的兴趣。这些游戏提供了许多统计概念的有用例子,因为当我们重复这些游戏时,不同结果的可能性仍然(大部分)相同。然而,有一些关于概率意义的深层问题,我们在这里不讨论;如果你有兴趣了解这个有趣的话题及其历史,请看最后的推荐读物。
概率论是处理可能性和不确定性的数学分支。它是构成统计学基础的重要组成部分,因为它为我们提供了描述不确定事件的数学工具。概率研究的兴起源于我们探索理解像纸牌或骰子这样的赌博游戏。这些游戏提供了许多统计概念的有用例子,因为当我们重复这些游戏时,不同结果的复现可能性是确定的。然而,有一些关于概率意义的深层问题,我们在这里不讨论;如果你有兴趣了解这个有趣的话题及其历史,请看最后的推荐读物。
## 6.1 什么是概率?
正式地,我们通常认为概率是一个描述某个事件发生的可能性的数字,范围从零(不可能)到一(确定)。有时概率会用百分比来表示,范围从 0 到 100,例如天气预报预测今天有 20%的机会下雨。在每种情况下,这些数字都表达了特定事件发生的可能性,从绝对不可能到绝对肯定
官方的说法,我们通常认为概率是一个描述某个事件发生的可能性的数字,范围从零(不可能发生)到一(一定会发生)。有时概率会用百分比来表示,范围从 0 到 100,例如天气预报预测今天有 20%的机会下雨。在每种情况下,这些数字都表达了特定事件发生的可能性,从绝对不可能到绝对可能
为了形式化概率论,我们首先需要定义几个术语:
为了形式化讲解概率论,我们首先需要定义几个术语:
***实验**是产生或观察一个结果的任何活动。例如抛硬币、掷骰子或尝试新的工作路线,看看是否比旧路线快。
* **样本空间**是实验可能结果的集合。我们用一组弯弯曲曲的括号来表示它们。对于抛硬币,样本空间是{正面,反面}。对于六面骰子,样本空间是可能出现的每个数字:{1,2,3,4,5,6}。对于到达工作地点所需的时间,样本空间是所有可能的大于零的实数(因为到达某个地方不会花费负的时间,至少目前不会)。我们不会费心去写出括号内的所有数字。
***实验**是产生或观察一个结果的任何活动。例如抛硬币、掷骰子或尝试新的工作路线,看看是否比旧路线快。
* **样本空间**是实验可能结果的集合。我们用一组括号来表示它们。对于抛硬币,样本空间是{正面,反面}。对于六面骰子,样本空间是可能出现的每个数字:{1,2,3,4,5,6}。对于到达工作地点所需的时间,样本空间是所有可能的大于零的实数(因为到达某个地方不会花费负的时间,至少目前不会)。我们不会费心去写出括号内的所有数字。
* 一个**事件**是样本空间的子集。原则上,它可能是样本空间中的一个或多个可能的结果,但这里我们将主要关注由一个可能的结果组成的*基本事件*。例如,这可能是在一次抛硬币中获得正面,在掷骰子中掷出 4,或者花 21 分钟通过新路线回家。
既然我们有了这些定义,我们就可以勾勒出概率的形式特征,它是由俄罗斯数学家安德烈·科尔莫戈罗夫首先定义的。如果一个值*成为一个概率,那么这些就是这个值*必须具备的特征。假设我们有一个由 N 个独立事件定义的样本空间,<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><msub><mi>E</mi><mn>1</mn></msub><mo></mo><msub><mi>E</mi><mn>2</mn></msub><mo></mo> <mi></mi> <mi></mi> <mi></mi> <mo></mo><msub><mi>E</mi><mi>N</mi></msub></mrow><annotation encoding="application/x-tex">{ E _ 1,E_2,...,E_N}</annotation></semantics></math><math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mi>X</mi><annotation encoding="application/x-tex">X</annotation></semantics></math>是随机变量,表示发生了哪个事件。<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>X</mi><mo>=</mo><msub><mi>E</mi><mi>I</mi></msub><mo stretchy="true" form="postfix">)</mo></mrow></mrow><annotation encoding="application/x-tex">P(X = E _ I)</annotation></semantics></math>是事件发生的概率
......@@ -21,7 +21,7 @@
* 概率不能为负:<math display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>X</mi><mo>=</mo><msub><mi>E</mi><mi>I</mi></msub><mo stretchy="true" form="postfix">)</mo></mrow><mo></mo><mn>0</mn></mrow><annotation encoding="application/x-tex">P(X = E _ I)\ ge 0</annotation></semantics></math>
* 样本空间中所有结果的总概率为 1;也就是说,如果,如果我们把每个 Ei 的概率加起来,它们的总和一定是 1。我们可以用求和符号<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mo></mo><annotation encoding="application/x-tex">\ sum</annotation></semantics></math>:<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><munderover><mo></mo><mrow><mi>I</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>X</mi></mrow></mrow><mo>=</mo><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>X<mo><msub><mi>E</mi><mn>1</mn></msub><mo stretchy="true" form="postfix">)</mo></mo></mi></mrow><mo>+</mo><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo> <mi></mi> <mi></mi><mo>+</mo><mi>p</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>x</mi><mo>=</mo><msub><mi>e</mi><mi>n</mi></msub><mo stretchy="true" form="postfix">)</mo></mrow><mo>=</mo><mn>1</mn></mrow><annotation encoding="application/x-tex">\sum_{i=1}^n{p(x=e_i)} = p(x = e...+ P(X=E_N) = 1</annotation> 这些必须加在一起。”</semantics></math>
* 任何单个事件的概率都不能大于一:<math display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>X</mi><msub><mi>E</mi><mi>I</mi></msub><mo stretchy="true" form="postfix">)</mo></mrow><mo></mo><mn>1</mn></mrow><annotation encoding="application/x-tex">P(X = E _ I)\ le 1</annotation></semantics></math>。这是前一点所暗示的;因为它们的总和必须是 1,而且它们不能是负的,那么任何特定的概率都不能超过 1。
* 任何单个事件的概率都不能大于一:<math display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>X</mi><msub><mi>E</mi><mi>I</mi></msub><mo stretchy="true" form="postfix">)</mo></mrow><mo></mo><mn>1</mn></mrow><annotation encoding="application/x-tex">P(X = E _ I)\ le 1</annotation></semantics></math>。这可以根据前面的条件推导出来;因为它们的总和必须是 1,而且它们不能是负的,那么任何特定的概率都不能超过 1。
......@@ -35,7 +35,7 @@
### 6.2.1 个人信念
假设我问你,如果伯尼·桑德斯是民主党提名人而不是希拉里,他赢得 2016 年总统大选的概率是多少?我们实际上不能做实验来寻找结果。然而,大多数了解美国政治的人会愿意至少对这一事件的可能性提供一个猜测。在许多情况下,个人知识和/或意见是我们确定事件概率的唯一指导,但这在科学上并不令人满意。
假设我问你,如果民主党的提名人是伯尼·桑德斯,而不是希拉里,他赢得 2016 年总统大选的概率是多少?我们无法通过实验来计算概率。但是,大多数了解美国政治的人会对这一事件的发生的可能性提供一个猜测值。在许多情况下,个人知识和/或意见是我们确定事件概率的唯一指导,但这在科学上并不令人满意。
......@@ -43,17 +43,17 @@
### 6.2.2 经验频率
另一种确定事件发生概率的方法是多次做实验,并计算每个事件发生的频率。根据不同结果的相对频率,我们可以计算出每个结果的概率。例如,我们想知道旧金山下雨的概率。我们首先必须定义这个实验——假设我们将查看 2017 年每天的国家气象局数据,并确定旧金山市中心气象站是否下雨。根据这些数据,2017 年有 73 个雨天。为了计算旧金山下雨的概率,我们简单地用下雨的天数除以统计的天数(365),得出 2017 年旧金山的雨)= 0.2。
另一种确定事件发生概率的方法是多次做实验,并计算每个事件发生的频率。根据不同结果的相对频率,我们可以计算出每个结果的概率。例如,我们想知道旧金山下雨的概率。我们首先必须定义这个实验——假设我们将查看 2017 年每天的国家气象局数据,并确定旧金山市中心是否下雨。根据这些数据,2017 年有 73 个雨天。为了计算旧金山下雨的概率,我们简单地用下雨的天数除以统计的天数(365),得出 2017 年旧金山的下雨的概率是0.2。
我们怎么知道经验概率给了我们正确的数字?这个问题的答案来自于*大数定律*,表明经验概率会随着样本量的增加而向真概率逼近。我们可以通过模拟大量的硬币投掷,并查看我们对每次投掷后正面概率的估计来了解这一点。我们将在后面的章节中花更多的时间讨论模拟;现在,假设我们有一种计算方法来为每次抛硬币产生随机结果。
[6.1](#fig:ElectionResults) 的左图显示,随着样本数量(即抛硬币试验)的增加,估计的正面概率收敛到真实值 0.5。但是,请注意,当样本量很小时,估计值可能与真实值相差很远。这方面的一个真实例子是 2017 年阿拉巴马州美国参议院特别选举,共和党人罗伊·摩尔与民主党人道格·琼斯进行了对决。图 [6.1](#fig:ElectionResults) 的右侧面板显示了随着计票数量的增加,当晚每位候选人的相对票数。晚上早些时候的计票尤其不稳定,从琼斯最初的大幅领先到摩尔长期领先,直到最后琼斯领先赢得比赛
[6.1](#fig:ElectionResults) 的左图显示,随着样本数量(即抛硬币试验)的增加,估计的正面概率收敛到真实值 0.5。但是,请注意,当样本量很小时,估计值可能与真实值相差很远。这方面的一个真实例子是 2017 年阿拉巴马州美国参议院特别选举,共和党人罗伊·摩尔与民主党人道格·琼斯进行了对决。图 [6.1](#fig:ElectionResults) 的右侧面板显示了随着计票数量的增加,当晚每位候选人的相对票数。晚上早些时候的计票尤其不稳定,从琼斯最初的大幅领先到摩尔长期领先,直到最后琼斯领先赢得选举
![Left: A demonstration of the law of large numbers. A coin was flipped 30,000 times, and after each flip the probability of heads was computed based on the number of heads and tail collected up to that point. It takes about 15,000 flips for the probability to settle at the true probability of 0.5\. Right: Relative proportion of the vote in the Dec 12, 2017 special election for the US Senate seat in Alabama, as a function of the percentage of precincts reporting. These data were transcribed from https://www.ajc.com/news/national/alabama-senate-race-live-updates-roy-moore-doug-jones/KPRfkdaweoiXICW3FHjXqI/](img/file38.png)
图 6.1:左图:大数定律的演示。一枚硬币被抛了 30,000 次,每次抛完之后,正面的概率是根据当时收集到的正面和反面的数量来计算的。大约需要 15,000 次翻转,概率才会稳定在 0.5 的真实概率。右图:2017 年 12 月 12 日阿拉巴马州美国参议院席位特别选举中投票的相对比例,作为选区报告百分比的函数。这些数据转录自[https://www . AJC . com/news/national/Alabama-Senate-race-live-updates-Roy-Moore-Doug-Jones/kprfkdaweixizw3fhjxqi/](https://www.ajc.com/news/national/alabama-senate-race-live-updates-roy-moore-doug-jones/KPRfkdaweoiXICW3FHjXqI/)
这两个例子表明,虽然大样本最终会收敛于真实概率,但小样本的结果可能相差甚远。不幸的是,许多人忘记了这一点,过度解读小样本的结果。心理学家丹尼·卡尼曼和阿莫斯·特沃斯基称之为“小数字定律”( T0 )( T1 ),他们指出,人们(甚至是训练有素的研究人员)经常表现得好像大数定律甚至适用于小样本,过于相信基于小数据集的结果。我们将在整个课程中看到一些例子,说明基于小样本生成的统计结果是多么不稳定。
这两个例子表明,虽然大样本最终会收敛于真实概率,但小样本的结果可能相差甚远。不幸的是,许多人忘记了这一点,过度解读小样本的结果。心理学家丹尼·卡尼曼和阿莫斯·特沃斯基称之为“小数字定律”( T0 )( T1 ),他们指出,人们(甚至是训练有素的研究人员)经常认为好像大数定律过度适用于小样本,从而过于相信基于小数据集的结果。我们将在整个课程中看到一些例子,说明基于小样本生成的统计结果是多么不稳定。
......@@ -61,11 +61,11 @@
### 6.2.3 经典概率
我们中的任何人都不太可能将硬币抛过数万次,但我们仍然愿意相信抛头的概率是 0.5。这反映了使用另一种方法来计算概率,我们称之为经典概率。在这种方法中,我们直接根据对情况的了解来计算概率。
我们中的任何人都不太可能将硬币抛过数万次,但我们仍然愿意相信正面朝上的概率是0.5。这反映了使用另一种方法来计算概率,我们称之为经典概率。在这种方法中,我们直接根据经验来计算概率。
经典概率起源于对骰子和纸牌等概率游戏的研究。一个著名的例子来自一个名叫谢瓦利埃·德·梅雷的法国赌徒遇到的一个问题。de Méré玩了两种不同的骰子游戏:在第一种游戏中,他赌的是在四个六面骰子上至少有一个六的机会,而在第二种游戏中,他赌的是在 24 个双骰子上至少有一个双六的机会。他期望在这两次赌博中都赢到钱,但是他发现虽然平均来说他在第一次赌博中赢了钱,但是当他多次进行第二次赌博时,他实际上平均来说输了钱。为了理解这一点,他求助于他的朋友,数学家布莱士·帕斯卡,他现在被认为是概率论的创始人之一。
经典概率起源于对骰子和纸牌等概率游戏的研究。一个著名的例子来自一个名叫谢瓦利埃·德·梅雷的法国赌徒遇到的一个问题。de Méré玩了两种不同的骰子游戏:在第一种游戏中,他赌的是在四个骰子至少有一个六朝上的赢面,而在第二种游戏中,他赌的是在24个骰子至少有两个六朝上的赢面。他期望在这两次赌博中都赢到钱,但是他发现虽然平均来说他在第一次赌博中赢了钱,但是当他多次进行第二次赌博时,他实际上平均来说输了钱。为了理解这一点,他求助于他的朋友,数学家布莱士·帕斯卡,他现在被认为是概率论的创始人之一。
用概率论怎么理解这个问题?在经典概率中,我们从假设样本空间中的所有基本事件都是同等可能的开始;也就是说,当你掷骰子时,每种可能的结果({1,2,3,4,5,6})发生的可能性是相等的。(不允许装骰子!)考虑到这一点,我们可以将任何单个结果的概率计算为除以可能结果的数量:
用概率论怎么理解这个问题?在经典概率中,我们从假设样本空间中的所有基本事件都是平等的;也就是说,当你掷骰子时,每种可能的结果({1,2,3,4,5,6})发生的可能性是相等的。(不允许改装骰子!)考虑到这一点,我们可以将任何单个结果的概率计算为除以可能结果的数量:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>o</mi><mi>u</mi><mi>t<mi>c</mi><mi>o</mi><mi>m</mi><msub><mi>e</mi><mi>I</mi></msub><mo stretchy="true" form="postfix">)</mo></mi></mrow><mo>=</mo><mfrac><mn>1</mn></mfrac></mrow></semantics></math>
......@@ -73,7 +73,7 @@
这很好,但德梅雷对更复杂的事件感兴趣,比如多次掷骰子会发生什么。我们如何计算复杂事件(即单个事件的*联合*)的概率,比如在第一次*中掷出 6 或者第二次*中掷出 6?我们用<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mo></mo><annotation encoding="application/x-tex">\杯</annotation></semantics></math> 符号在数学上表示事件的联合:例如, 如果在第一次投掷上掷出一个六的概率称为<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>R</mi><mi>o</mi><mi>l</mi><mi>l</mi><msub><mn>6</mn><mrow><mi>t</mi><mi>h</mi><mi>R</mi><mi>o</mi><mi>w</mi></mrow></msub></mrow></mrow></semantics></math> 第二次掷出一个六的概率是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>R</mi><mi>o</mi><mi>l</mi><mi>l</mi><msub><mn>6</mn><mrow><mi>h 那么这个工会就简称为<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>R</mi><mi>o</mi><mi>l</mi><msub><mn>6</mn><mrow><mi>t</mi><mi>h</mi><mi>R</mi> <mi>r</mi><mi>o</mi><mi>w</mi><mn>2</mn></mrow></msub><mo stretchy="true" form="postfix">)</mo></mrow></mrow><annotation encoding="application/x-tex">P(roll 6 _ { throw 1 } \ cup roll 6 _ { throw 2 })</annotation></semantics></math></mi></mrow></msub></mrow></mrow></semantics></math>
de Méré认为(不正确,我们将在下面看到),他可以简单地将单个事件的概率相加来计算组合事件的概率,这意味着在第一次或第二次掷骰子时掷出 6 的概率计算如下:
德梅雷认为(他这里的想法是错误的,后面再细说),他可以简单地将单个事件的概率相加来计算组合事件的概率,这意味着在第一次或第二次掷骰子时掷出 6 的概率计算如下:
<semantics><mrow><mi>【p】</mi><mrow><mo stretchy="true" form="prefix">【r】 <mi><mi>= 1/6</mi></mi></mo></mrow></mrow></semantics><math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mrow><mo stretchy="true" form="prefix">(</mo><mi>或【o】</mi></mrow></mrow></semantics></math>
......@@ -81,11 +81,11 @@ de Méré认为(不正确,我们将在下面看到),他可以简单地将单
de Méré基于这个错误的假设进行推理,即四次掷骰中至少有一次六的概率是每次单独掷出的概率之和:<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mn>4</mn><mo>*</mo><mfrac><mn>1</mn><mn>6</mn></mfrac><mo>=</mo><mfrac><mn>2</mn><mn>3</mn></mfrac></mrow><annotation encoding="application/x-tex">4 * \ frac { 1 } { 6 } = \ frac { 2 同样,他推断,既然掷出两个骰子时出现双六的概率是 1/36,那么在 24 次掷出的两个骰子中至少有一个双六的概率将是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mn>24</mn><mo>*</mo><mfrac>T34】1<mn>36</mn></mfrac><mo>=</mo><mfrac><mn>2</mn><mn>3</mn></mfrac></mrow><annotation encoding="application/x-tex">然而,虽然他在第一次下注时一直赢钱,但在第二次下注时却输了。怎么回事?</annotation></semantics></math></annotation></semantics></math>
为了理解 de Méré的错误,我们需要介绍一些概率论的规则。第一个是减法的*法则,它说某个事件 A *而不是*发生的概率是 1 减去该事件发生的概率:*
为了理解 de Méré的错误,我们需要介绍一些概率论的规则。第一个是减法的*法则*,它说某个事件A发生的概率是1减去该事件发生的概率:
<semantics><mrow><mi>【p】</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>【a】</mi><mo stretchy="true" form="postfix">)</mo></mrow></mrow></semantics>
其中<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>A</mi></mrow><annotation encoding="application/x-tex">\ neg A</annotation></semantics></math>表示“不是 A”。这条规则直接来源于我们上面讨论的公理;因为 A 和<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>A</mi></mrow><annotation encoding="application/x-tex">\ neg A</annotation></semantics></math>是唯一可能的结果,那么它们的总概率之和必须为 1。例如,如果在单次投掷中掷出一个 1 的概率是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mfrac><mn>1</mn></mfrac><annotation encoding="application/x-tex">\ frac { 1 } { 6 }</annotation></semantics></math>,那么掷出一个以外的任何东西的概率是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mfrac><mn>5</mn><mn>6</mn></mfrac><annotation encoding="application/x-tex">\ frac { 5 } { 6 }</annotation></semantics></math>
其中<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>A</mi></mrow><annotation encoding="application/x-tex">\ neg A</annotation></semantics></math>表示“A不发生”。这条规则直接来源于我们上面讨论的公理;因为 A 和<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>A</mi></mrow><annotation encoding="application/x-tex">\ neg A</annotation></semantics></math>是唯一可能的结果,那么它们的总概率之和必须为 1。例如,如果在单次投掷中掷出一个 1 的概率是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mfrac><mn>1</mn></mfrac><annotation encoding="application/x-tex">\ frac { 1 } { 6 }</annotation></semantics></math>,那么掷出一个以外的任何东西的概率是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mfrac><mn>5</mn><mn>6</mn></mfrac><annotation encoding="application/x-tex">\ frac { 5 } { 6 }</annotation></semantics></math>
第二个规则告诉我们如何计算联合事件的概率——即两个事件同时发生的概率。我们将此称为*交点*,用<math display="inline"><semantics><annotation encoding="application/x-tex">\ cap</annotation></semantics></math>符号表示;由此,<math display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>A</mi><mo></mo><mi>B</mi><mo stretchy="true" form="postfix">)</mo></mrow></mrow><annotation encoding="application/x-tex">P(A \ cap B)</annotation></semantics></math>表示 A 和 B 都发生的概率。我们将集中讨论这个规则的一个版本,它告诉我们在两个事件相互独立的特殊情况下如何计算这个量;我们稍后将确切了解*独立性*的概念是什么意思,但是现在我们可以理所当然地认为两次掷骰子是独立的事件。我们通过简单地将单个事件的概率相乘来计算两个独立事件相交的概率:
......@@ -101,7 +101,7 @@ de Méré基于这个错误的假设进行推理,即四次掷骰中至少有
图 6.2:这个矩阵中的每个单元格代表一个骰子两次投掷的结果,列代表第一次投掷,行代表第二次投掷。显示为红色的单元格表示第一次或第二次投掷中有 6 的单元格;其余的用蓝色显示。
让我们使用图形描述来获得这个规则的不同视图。图 [6.2](#fig:ThrowMatrix) 显示了代表两次投掷结果的所有可能组合的矩阵,并突出显示了第一次或第二次投掷中包含 6 的单元格。如果你数一下红色的细胞,你会看到有 11 个这样的细胞。这说明了为什么加法法则给出了与德·梅雷不同的答案;如果我们像他那样简单地把两次投掷的概率加在一起,那么我们会两次都数(6,6),而实际上只应该数一次。
让我们使用图形描述来获得这个规则的不同视图。图 [6.2](#fig:ThrowMatrix) 显示了代表两次投掷结果的所有可能组合的矩阵,并突出显示了第一次或第二次投掷中包含 6 的单元格。如果你数一下红色的框框,你会看到有 11 个这样的框框。这说明了为什么加法法则给出了与德·梅雷不同的答案;如果我们像他那样简单地把两次投掷的概率加在一起,那么我们会两次都数(6,6),而实际上只应该数一次。
......@@ -141,7 +141,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mrow><mo stretchy="true" form="prefix">(</mo><mfrac linethickness="0"><mi>n</mi><mi>k</mi></mfrac><mo stretchy="true" form="postfix">)</mo></mrow><mo>=</mo><mfrac><mrow><mi>n</mi><mi></mi></mrow> <mrow><mi>k</mi> <mi></mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>n</mi><mo></mo>—T36】k<mo stretchy="true" form="postfix">)</mo></mrow><mi></mi></mrow></mfrac></mrow><annotation encoding="application/x-tex">【binom { n } { k } = \ frac { n!}{k!(n-k)!}</annotation></semantics></math> 感叹号(!)指的是*数的阶乘*:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi></mi><mo>=</mo><munderover><mrow><mo>=</mo></mrow> <mi></mi> <mi></mi><mo>*</mo><mn><semantics></semantics></mn></munderover></mrow><annotation encoding="application/x-tex">n!= \prod_{i=1}^n i = n*(n-1)*-我...。*2*1</annotation></semantics></math>
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi></mi><mo>=</mo><munderover><mrow><mo>=</mo></mrow> <mi></mi> <mi></mi><mo></mo><mn><semantics></semantics></mn></munderover></mrow><annotation encoding="application/x-tex">n!= \prod_{i=1}^n i = n*(n-1)*-我...。*2*1</annotation></semantics></math>
乘积运算符<math display="inline"><semantics><mo></mo><annotation encoding="application/x-tex">\ prod</annotation></semantics></math>与求和运算符<math display="inline"><semantics><annotation encoding="application/x-tex">\ sum</annotation></semantics></math>类似,只是前者是乘法而不是加法。在这种情况下,它是将从 1 到<math display="inline"><semantics><mi>n</mi><annotation encoding="application/x-tex">n</annotation></semantics></math>的所有数字相乘。
......@@ -155,7 +155,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
### 6.3.1 累积概率分布
通常我们不仅想知道一个特定值的可能性有多大,还想知道找到一个与特定值一样极端或比特定值更极端的值的可能性有多大;当我们在第 9 章讨论假设检验时,这将变得非常重要。要回答这个问题,我们可以用一个*累积*的概率分布;标准概率分布告诉我们某个特定值的概率,而累积分布告诉我们某个值大于或等于(或小于或等于)某个特定值的概率。
通常我们不仅想知道一个特定值的可能性有多大,还想知道找到一个与特定值一样极端或比特定值更极端的值的可能性有多大;当我们在第 9 章讨论假设检验时,这将变得非常重要。要回答这个问题,我们可以用一个*累积*的概率分布;标准概率分布告诉我们某个特定值的概率,而累积分布告诉我们某个值大于等于(或小于等于)某个特定值的概率。
在罚球的例子中,我们可能想知道:假设斯蒂芬库里的总罚球概率为 0.91,那么他在四次罚球中命中 2 次*或更少*的概率是多少。为了确定这一点,我们可以简单地使用二项式概率方程,插入 k 的所有可能值,并将它们加在一起:
......@@ -178,7 +178,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
## 6.4 条件概率
到目前为止,我们把自己限制在简单的概率上——也就是说,单一事件或事件组合的概率。然而,我们经常希望在已知其他事件已经发生的情况下确定某个事件的概率,这被称为*条件概率*
到目前为止,我们只讨论了简单的概率——也就是说,单一事件或事件组合的概率。然而,我们经常希望在已知其他事件已经发生的情况下确定某个事件的概率,这被称为*条件概率*
我们以 2016 年美国总统大选为例。我们可以用两个简单的概率来描述选民。首先,我们知道美国一个选民隶属于共和党的概率:<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>p</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>R</mi><mi>e</mi><mi>p</mi><mi>u</mi><mi>b</mi><mi>l</mi><mi>I</mi><mi>c</mi><mi>a</mi><mi>n</mi>我们也知道选民投票支持川普的概率:<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>p</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>T</mi><mi>r</mi><mi>u</mi><mi>m</mi><mi>p</mi><mi>v</mi>【T60<mi>T</mi><mi>e</mi><mi>然而,假设我们想知道以下问题:假设一个人是共和党人,他投票给唐纳德·特朗普*的概率是多少?*</mi></mrow></mrow></semantics></math></mrow></mrow></semantics></math>
......@@ -200,7 +200,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
## 6.5 根据数据计算条件概率
我们也可以直接从数据中计算条件概率。假设我们对以下问题感兴趣:假设某人没有进行体育锻炼,那么他患糖尿病的概率是多少?——即<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>d</mi><mi>I</mi><mi>b</mi><mi>e</mi><mi>t</mi><mi>e</mi><mi>s</mi><mo stretchy="false" form="prefix">|</mo><mi>I</mi><mi>n</mi><mi>a</mi><mi>cNHANES 数据集包括两个变量,解决这个问题的两个部分。第一个(`Diabetes`)询问该人是否被告知他们患有糖尿病,第二个(`PhysActive`)记录该人是否参加至少中等强度的运动、健身或娱乐活动。让我们首先计算简单概率,如表 [6.2](#tab:simpleProb) 所示。该表显示,NHANES 数据集中有人患糖尿病的概率为. 1,有人不活动的概率为. 45。</mi></mrow></mrow></semantics></math>
我们也可以直接从数据中计算条件概率。假设我们对以下问题感兴趣:假设某人没有进行体育锻炼,那么他患糖尿病的概率是多少?——即<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>d</mi><mi>I</mi><mi>b</mi><mi>e</mi><mi>t</mi><mi>e</mi><mi>s</mi><mo stretchy="false" form="prefix">|</mo><mi>I</mi><mi>n</mi><mi>a</mi><mi>cNHANES 数据集包括两个变量,解决这个问题的两个步骤。第一个(`Diabetes`)询问该人是否被告知他们患有糖尿病,第二个(`PhysActive`)记录该人是否参加至少中等强度的运动、健身或娱乐活动。让我们首先计算简单概率,如表 [6.2](#tab:simpleProb) 所示。该表显示,NHANES 数据集中有人患糖尿病的概率为0.1,有人不活动的概率为0.45。</mi></mrow></mrow></semantics></math>
<caption>Table 6.2: Summary data for diabetes and physical activity</caption>
| 回答 | 糖尿病 | p _ 糖尿病 | 生理活性物质 | P_PhysActive |
......@@ -216,7 +216,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
| 是 | 不 | Three hundred and forty-nine | Zero point zero six |
| 是 | 是 | Two hundred and one | Zero point zero four |
来计算<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>d</mi><mi>I</mi><mi>a</mi><mi>b</mi><mi>e</mi><mi>t</mi><mi>e</mi><mi>s</mi><mo stretchy="false" form="prefix">|</mo><mi>I</mi><mi>n</mi><mi>a</mi><mi>c</mi>这些如表 <a xmlns:epub="http://www.idpf.org/2007/ops" href="#tab:jointProb">6.3</a> 所示。基于这些联合概率,我们可以计算出<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>d</mi><mi>I</mi><mi>a</mi><mi>b</mi><mi>e</mi><mi>t</mi><mi>e</mi><mi>s</mi><mo stretchy="false" form="prefix">|<mo stretchy="false" form="prefix">在计算机程序中做到这一点的一种方法是,首先确定每个个体的体力活动变量是否等于“否”,然后取这些真值的平均值。由于真/假值分别被大多数编程语言(包括 R 和 Python)视为 1/0,这允许我们通过简单地取代表其真值的逻辑变量的平均值来易地识别简单事件的概率。然后,我们使用该值来计算条件概率,我们发现,假设某人不运动,那么他患糖尿病的概率是 0.141。</mo></mo></mrow></mrow></semantics></math></mrow></mrow></semantics></math>
来计算<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>d</mi><mi>I</mi><mi>a</mi><mi>b</mi><mi>e</mi><mi>t</mi><mi>e</mi><mi>s</mi><mo stretchy="false" form="prefix">|</mo><mi>I</mi><mi>n</mi><mi>a</mi><mi>c</mi>这些如表 <a xmlns:epub="http://www.idpf.org/2007/ops" href="#tab:jointProb">6.3</a> 所示。基于这些联合概率,我们可以计算出<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>d</mi><mi>I</mi><mi>a</mi><mi>b</mi><mi>e</mi><mi>t</mi><mi>e</mi><mi>s</mi><mo stretchy="false" form="prefix">|<mo stretchy="false" form="prefix">在计算机程序中做到这一点的一种方法是,首先确定每个个体的体力活动变量是否等于“否”,然后取这些真值的平均值。由于真/假值分别被大多数编程语言(包括 R 和 Python)视为 1/0,这允许我们通过简单地取代表其真值的逻辑变量的平均值来易地识别简单事件的概率。然后,我们使用该值来计算条件概率,我们发现,假设某人不运动,那么他患糖尿病的概率是 0.141。</mo></mo></mrow></mrow></semantics></math></mrow></mrow></semantics></math>
......@@ -224,13 +224,13 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
## 6.6 独立性
“独立”一词在统计学中有非常具体的含义,与该词的通常用法有些不同。两个变量之间的统计独立性意味着知道一个变量的值并不能告诉我们另一个变量的值。这可以表示为:
“独立”一词在统计学中有非常具体的含义,与该词的通常用法有些不同。两个变量之间的统计独立性意味着知道一个变量的值与另一个变量的值完全无关。这可以表示为:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>A</mi><mo stretchy="false" form="prefix">|</mo><mi>B</mi><mo stretchy="true" form="postfix">)</mo></mrow><mo>=</mo><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>A</mi><mo stretchy="true" form="postfix">)</mo></mrow><annotation encoding="application/x-tex">P(A | B)= P(A)</annotation></mrow></semantics></math>
也就是说,给定 B 的某个值的概率恰好与 A 的总体概率相同。从这个角度看,我们看到现实世界中许多我们称之为“独立”的情况实际上在统计上并不独立。例如,目前有一小群加州公民正在采取行动,宣布成立一个名为杰斐逊的新的独立州,该州将包括北加州和俄勒冈州的一些县。如果发生这种情况,那么当前加州居民现在居住在杰斐逊州的概率将是<math display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mtext mathvariant="normal">杰斐逊</mtext><mo stretchy="true" form="postfix">)</mo></mrow><mo>=</mo><mn>0.014</mn></mrow><annotation encoding="application/x-tex">P(\ text {杰斐逊})=0.014</annotation></semantics></math> ,而他们将继续居住在杰斐逊州的概率新的州可能在政治上是独立的,但是他们在统计上是独立的,因为如果我们知道一个人是杰斐逊派,那么我们可以确定他们不是加利福尼亚人!也就是说,在普通语言中,独立性通常指的是具有排他性的集合,而统计独立性指的是无法从一个变量的值预测另一个变量的情况。例如,知道一个人的头发颜色不太可能告诉你他们更喜欢巧克力还是草莓冰淇淋。
也就是说,给定 B 的某个值的概率恰好与 A 的总体概率相同。从这个角度看,我们看到现实世界中许多我们称之为“独立”的情况实际上在统计上并不独立。例如,目前有一小群加州公民正在搞事,宣布成立一个名为杰斐逊的新的独立州,该州将包括北加州和俄勒冈州的一些县。如果发生这种情况,那么当前加州居民现在居住在杰斐逊州的概率将是<math display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mtext mathvariant="normal">杰斐逊</mtext><mo stretchy="true" form="postfix">)</mo></mrow><mo>=</mo><mn>0.014</mn></mrow><annotation encoding="application/x-tex">P(\ text {杰斐逊})=0.014</annotation></semantics></math> ,而他们将继续居住在杰斐逊州的概率新的州可能在政治上是独立的,但是他们在统计上是独立的,因为如果我们知道一个人是杰斐逊派,那么我们可以确定他不是加利福尼亚人!也就是说,通俗的讲,独立性通常指的是具有排他性的集合,而统计独立性指的是无法从一个变量的值预测另一个变量的情况。例如,知道一个人的头发颜色不太可能告诉你他们更喜欢巧克力还是草莓冰淇淋。
让我们用 NHANES 的数据来看另一个例子:身体健康和精神健康是相互独立的吗?NHANES 包括两个相关的问题:*physical active*,询问个人是否身体活跃,以及*daysmenthmethbad*,询问个人在过去 30 天中有多少天经历了糟糕的心理健康。让我们把任何一个在过去的一个月里有超过 7 天精神健康状况不佳的人都视为精神健康状况不佳。基于此,我们可以定义一个叫做 *badMentalHealth* 的新变量,作为一个逻辑变量,告诉我们每个人是否有超过 7 天的不良心理健康。我们可以首先汇总数据,显示有多少人属于这两个变量的每个组合(如表 [6.4](#tab:mhCounts) 所示),然后除以观察总数,创建一个比例表(如表 [6.5](#tab:mhProps) 所示):
让我们用 NHANES 的数据来看另一个例子:身体健康和精神健康是相互独立的吗?NHANES 包括两个相关的问题:*physical active*,询问个人是否身体是否在状态,以及*daysmenthmethbad*,询问个人在过去 30 天中有多少天经历了心塞的心理路程。让我们把任何一个在过去的一个月里有超过 7 天精神健康状况不佳的人都视为精神健康状况不佳。基于此,我们可以定义一个叫做 *badMentalHealth* 的新变量,作为一个逻辑变量,告诉我们每个人是否有超过 7 天的不良心理健康。我们可以首先汇总数据,显示有多少人属于这两个变量的每个组合(如表 [6.4](#tab:mhCounts) 所示),然后除以观察总数,创建一个比例表(如表 [6.5](#tab:mhProps) 所示):
<caption>Table 6.4: Summary of absolute frequency data for mental health and physical activity.</caption>
| 物理活性的 | 心理健康状况不佳 | 精神健康 | 总数 |
......@@ -246,7 +246,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
| 是 | Zero point zero seven | Zero point four five | Zero point five two |
| 总数 | Zero point one six | Zero point eight four | One |
这向我们显示了落入每个单元的所有观察值的比例。但是,这里我们想知道的是心理健康不好的条件概率,取决于一个人是否身体活跃。为了计算这一点,我们将每个身体活动组除以其观察总数,这样每一行总计为一(如表 [6.6](#tab:condProb) 所示)。在这里,我们看到每个身体活动组的心理健康好坏的条件概率(在上面两行)以及心理健康好坏的总体概率在第三行。为了确定心理健康和身体活动是否是独立的,我们将比较不良心理健康的简单概率(在第三行)和假设一个人是身体活动的不良心理健康的条件概率(在第二行)。
这向我们显示了落入每个单元的所有观察值的比例。但是,这里我们想知道的是心理健康不好的条件概率,取决于一个人是否身体健康。为了计算这一点,我们将每个身体活动组除以其观察总数,这样每一行总计为一(如表 [6.6](#tab:condProb) 所示)。在这里,我们看到每个身体活动组的心理健康好坏的条件概率(在上面两行)以及心理健康好坏的总体概率在第三行。为了确定心理健康和身体活动是否是独立的,我们将比较不良心理健康的简单概率(在第三行)和假设一个人是身体活动的不良心理健康的条件概率(在第二行)。
<caption>Table 6.6: Summary of conditional probabilities for mental health given physical activity.</caption>
| 物理活性的 | 心理健康状况不佳 | 精神健康 | 总数 |
......@@ -273,7 +273,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
如果我们只有两种结果,我们可以用更清晰的方式表达贝叶斯法则,用求和法则重新定义<math display="inline"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>A</mi><mo stretchy="true" form="postfix">)</mo></mrow></mrow><annotation encoding="application/x-tex">P(A)</annotation></semantics></math>:
<semantics><mrow><mi>【p】</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>【a】</mi><mo>=</mo></mrow> <mo>*</mo><mi>【p62】<mrow><mo stretchy="true" form="prefix">(</mo><mo><mi>【b】</mi><mo stretchy="true" form="postfix">)</mo></mo></mrow></mi></mrow></semantics>
<semantics><mrow><mi>【p】</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>【a】</mi><mo>=</mo></mrow> <mo></mo><mi>【p62】<mrow><mo stretchy="true" form="prefix">(</mo><mo><mi>【b】</mi><mo stretchy="true" form="postfix">)</mo></mo></mrow></mi></mrow></semantics>
利用这一点,我们可以重新定义贝叶斯法则:
......@@ -305,7 +305,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
## 6.9 优势比和优势比
## 6.9 对偶比率
上一部分的结果显示,根据阳性 PSA 测试结果,个人患癌症的可能性仍然相当低,尽管这是我们知道测试结果之前的两倍多。我们常常希望更直接地量化概率之间的关系,这可以通过将它们转换成表示某事发生或不发生的相对可能性的*赔率*来实现:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mtext mathvariant="normal">A 的赔率</mtext><mo>=</mo><mfrac><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>A</mi><mo stretchy="true" form="postfix">)</mo></mrow></mrow><mrow><mi>P</mi></mrow></mfrac></mrow></semantics></math>
......@@ -318,7 +318,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
<math display="block"><semantics><mrow><mtext mathvariant="normal">赔率 6</mtext><mo>=</mo><mfrac><mn>1</mn><mn>5</mn></mfrac><mo>=</mo><mn>0.2</mn></mrow><annotation encoding="application/x-tex">\ text {赔率 6 } = \ frac { 1 } { 5 } = 0.2</annotation></semantics></math>
此外,这也是为什么许多医学研究人员越来越警惕对相对罕见的疾病使用广泛的筛查测试的原因;大多数阳性结果将被证明是假阳性,导致不必要的后续检查和可能的并发症,更不用说增加病人的压力。
此外,这也是为什么许多医学研究人员越来越警惕对相对罕见的疾病,从而使用广泛的筛查测试的原因;大多数阳性结果将被证明是假阳性,导致不必要的后续检查和可能的并发症,更不用说增加病人的心理压力。
我们还可以通过计算所谓的*比值比*来比较不同的概率——听起来确实如此。例如,假设我们想知道阳性测试会增加个人患癌症的几率有多大。我们可以首先计算出*先验概率*——也就是说,在我们知道这个人检测呈阳性之前的概率。这些是使用基本费率计算的:
......@@ -336,9 +336,9 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
## 6.10 概率是什么意思?
你可能会觉得,根据检测结果谈论一个人患癌症的可能性有点奇怪;毕竟,这个人要么得了癌症,要么没有。历史上,概率有两种不同的解释方式。第一种(被称为*频率主义者*解释)从长期频率的角度解释概率。例如,在抛硬币的情况下,在大量抛硬币后,它将反映头部的相对频率。虽然这种解释对于像掷硬币一样可以重复多次的事件可能有意义,但对于只会发生一次的事件,如个人生活或特定的总统选举,就不那么有意义了;正如经济学家约翰·梅纳德·凯恩斯(John Maynard Keynes)的名言,“从长期来看,我们都会死。”
你可能会觉得,根据检测结果谈论一个人患癌症的可能性有点奇怪;毕竟,这个人要么得了癌症,要么没有。历史上,概率有两种不同的解释方式。第一种(被称为*频率主义者*解释)从长期频率的角度解释概率。例如,在抛硬币的情况下,在大量抛硬币后,它将反映正面朝上的相对频率。虽然这种解释对于像掷硬币一样可以重复多次的事件可能有意义,但对于只会发生一次的事件,如个人生活或特定的总统选举,就不那么有意义了;正如经济学家约翰·梅纳德·凯恩斯(John Maynard Keynes)的名言,“从长期来看,我们都会死。”
概率的另一种解释(称为*贝叶斯*解释)是对特定命题的信任程度。如果我问你“美国在 2040 年重返月球的可能性有多大”,你可以基于你的知识和信念给出这个问题的答案,即使没有相关的频率来计算频率主义者的概率。我们通常框定主观概率的一种方式是根据一个人接受特定赌博的意愿。例如,如果你认为美国在 2040 年登陆月球的概率是 0.1(即赔率为 9 比 1),那么这意味着你应该愿意接受一场赌博,如果事件发生,赔率将超过 9 比 1。
概率的另一种解释(称为*贝叶斯*解释)是对特定命题的信任程度。如果我问你“美国在 2040 年重返月球的可能性有多大”,你可以基于你的知识和信念给出这个问题的答案,即使没有相关的频率来计算频率的概率。我们通常框定主观概率的一种方式是根据一个人接受特定赌局的意愿。例如,如果你认为美国在 2040 年登陆月球的概率是 0.1(即赔率为 9 比 1),那么这意味着你应该愿意接受一场赌博,如果事件发生,赔率将超过 9 比 1。
正如我们将会看到的,这两种不同的概率定义与统计学家考虑检验统计假设的两种不同方式非常相关,我们将在后面的章节中遇到。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册