<mathxmlns:epub="http://www.idpf.org/2007/ops"display="block"><semantics><mrow><mover><msub><mi>y</mi><mi>I</mi></msub><moaccent="true">̂</mo></mover><mo>=</mo><mn>166.5</mn></mrow><annotationencoding="application/x-tex">\ hat { y _ I } = 166.5</annotation></semantics></math>那么每个个体的误差就是预测值之间的差(<mathxmlns:epub="http://www.idpf.org/2007/ops"display="inline"><semantics><mover><msub><mi>y</mi></msub></mover></semantics></math>
我们如何为我们的模型参数找到一个更好的估计量?我们可以从寻找一个平均误差为零的估计量开始。一个很好的选择是算术平均值(即*平均值*,通常用变量上的横线表示,如<mathdisplay="inline"><semantics><mover><mi>x</mi><moaccent="true">‾</mo></mover><annotationencoding="application/x-tex">\ bar { x }</annotation></semantics></math>),计算为所有值的总和除以值的个数。数学上,我们将其表达为:
那么该如何为我们的模型参数找到一个更好的估计量?我们可以从寻找一个平均误差为零的估计量开始。一个很好的选择是算术平均值(即*平均值*,通常用在变量上加一个横线表示,如<mathdisplay="inline"><semantics><mover><mi>x</mi><moaccent="true">‾</mo></mover><annotationencoding="application/x-tex">\ bar { x }</annotation></semantics></math>),计算过程为所有值的总和除以值的个数。从数学角度描述,我们用公式将其表达为:
如果年龄是<mathdisplay="inline"><semantics><mi>X</mi><annotationencoding="application/x-tex">X</annotation></semantics></math>变量,那么这意味着我们根据年龄对身高的预测将是一条斜率为<mathdisplay="inline"><semantics><mi>β</mi><annotationencoding="application/x-tex">\β</annotation></semantics></math>且截距为零的线——为了查看这一点,让我们在数据顶部用蓝色绘制最佳拟合线(图 [5.3](#fig:childHeightLine) 中的 B 图)。这个模型显然有问题,因为这条线似乎没有很好地遵循数据。事实上,该模型的 RMSE(39.16)实际上高于仅包括平均值的模型!问题在于我们的模型只包括年龄,这意味着当年龄为零时,模型预测的身高值必须为零。即使数据不包括任何年龄为零的孩子,当 x 为零时,该线在数学上需要具有为零的 y 值,这解释了为什么该线被下拉到较年轻的数据点之下。我们可以通过在我们的模型中包含一个截距来解决这个问题,截距基本上代表年龄等于零时的估计身高;尽管零年龄在该数据集中是不合理的,但这是一个数学技巧,允许模型考虑数据的总体大小。模型是:
如果年龄是<mathdisplay="inline"><semantics><mi>X</mi><annotationencoding="application/x-tex">X</annotation></semantics></math>变量,那么这意味着我们根据年龄对身高的预测将是一条斜率为<mathdisplay="inline"><semantics><mi>β</mi><annotationencoding="application/x-tex">\β</annotation></semantics></math>且截距为零的线——为了更好的看清楚这一点,让我们在数据顶部用蓝色绘制最佳拟合线(图 [5.3](#fig:childHeightLine) 中的 B 图)。这个模型显然有问题,因为这条线似乎没有很好地遵循数据。事实上,该模型的 RMSE(39.16)实际上高于仅包括平均值的模型!问题在于我们的模型只包括年龄,这意味着当年龄为零时,模型预测的身高值必须为零。即使数据不包括任何年龄为零的孩子,当 x 为零时,该线在数学上需要具有为零的 y 值,这解释了为什么该线被下拉到较年轻的数据点之下。我们可以通过在我们的模型中添加一个截距来解决这个问题,截距基本上代表年龄等于零时的估计身高;尽管零年龄在该数据集中是不合理的,但这是一个数学技巧,允许模型考虑数据的总体大小。模型是:
让我们用一个例子来说明这一点。我们将使用计算机模拟来生成一些数据,而不是使用真实的数据(关于这一点,我们将在几章中详细介绍)。假设我们想要了解一个人的血液酒精含量(BAC)与他们在模拟驾驶测试中的反应时间之间的关系。我们可以生成一些模拟数据并绘制关系图(见图 [5.5](#fig:BACrt) 的 A 图)。
让我们用一个例子来说明这一点。我们将使用计算机模拟来生成一些数据,而不是使用真实的数据(关于这一点,我们将在下面几章中详细介绍)。假设我们想要了解一个人的血液酒精含量(BAC)与他们在模拟驾驶测试中的反应时间之间的关系。我们可以生成一些模拟数据并绘制关系图(见图 [5.5](#fig:BACrt) 的 A 图)。
![Simulated relationship between blood alcohol content and reaction time on a driving test, with best-fitting linear model represented by the line. A: linear relationship with low measurement error. B: linear relationship with higher measurement error. C: Nonlinear relationship with low measurement error and (incorrect) linear model](img/file26.png)
![An example of overfitting. Both datasets were generated using the same model, with different random noise added to generate each set. The left panel shows the data used to fit the model, with a simple linear fit in blue and a complex (8th order polynomial) fit in red. The root mean square error (RMSE) values for each model are shown in the figure; in this case, the complex model has a lower RMSE than the simple model. The right panel shows the second dataset, with the same model overlaid on it and the RMSE values computed using the model obtained from the first dataset. Here we see that the simpler model actually fits the new dataset better than the more complex model, which was overfitted to the first dataset.](img/file27.png)
<mathxmlns:epub="http://www.idpf.org/2007/ops"display="block"><semantics><mrow><mi>μ</mi><mo>=</mo><mfrac><mrow><munderover><mo>∑</mo><mrow><mi>I</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>x</mi><mi>I</mi></msub></mrow><mi>n</mi></mfrac></mrow><annotationencoding="application/x-tex">\ mu = \frac{\sum_{i=1}^{n}x_i}{n}</annotation></semantics></math>
![Left: Histogram of the number of violent crimes. The value for CA is plotted in blue. Right: A map of the same data, with number of crimes (in thousands) plotted for each state in color.](img/file29.png)
Z 值允许我们以一种方式表达数据,这种方式提供了对每个数据点与总体分布的关系的更深入的了解。假设我们知道总体平均值<mathdisplay="inline"><semantics><annotationencoding="application/x-tex">【mu】</annotation></semantics></math>和标准差<mathdisplay="inline"><semantics><mi>【σ</mi><annotationencoding="application/x-tex">【σ</annotation></semantics></math>的值,则计算单个数据点的 Z 值的公式为:
Z 值允许我们以一种方式表达数据,这种方式描述了对每个数据点与总体分布更深入的关系。假设我们知道总体平均值<mathdisplay="inline"><semantics><annotationencoding="application/x-tex">【mu】</annotation></semantics></math>和标准差<mathdisplay="inline"><semantics><mi>【σ</mi><annotationencoding="application/x-tex">【σ</annotation></semantics></math>的值,则计算单个数据点的 Z 值的公式为:
直观地说,您可以将 Z 分数视为告诉您任何数据点离平均值有多远,以标准差为单位。我们可以对犯罪率数据进行计算,如图 [5.10](#fig:crimeZplot) 所示,该图绘制了 Z 分数与原始分数的关系。
通俗的讲,您可以将 Z 值视为告诉您任何数据点离平均值有多远,以标准差为单位。我们可以对犯罪率数据进行计算,如图 [5.10](#fig:crimeZplot) 所示,该图绘制了 Z 分数与原始分数的关系。
![Scatterplot of original crime rate data against Z-scored data.](img/file31.png)
...
...
@@ -334,13 +334,13 @@ Z 值允许我们以一种方式表达数据,这种方式提供了对每个数
#### 5.9.2.1 使用 Z 分数比较分布
Z 分数的一个有用的应用是比较不同变量的分布。假设我们想比较暴力犯罪和财产犯罪在各州的分布情况。在图 [5.15](#fig:crimeTypePlot) 的左图中,我们用蓝色标出 CA。如你所见,财产犯罪的原始比率远远高于暴力犯罪的原始比率,所以我们不能直接比较数字。然而,我们可以绘制这些数据彼此之间的 Z 分数(图 [5.15](#fig:crimeTypePlot) 的右图)——我们再次看到数据的分布没有变化。将数据放入每个变量的 Z 分数中,使它们具有可比性,并让我们看到,就暴力犯罪和财产犯罪而言,加州实际上位于分布的中间。
Z 分数的一个有用的应用是比较不同变量的分布。假设我们想观测比较暴力犯罪和财产犯罪在各州的分布情况。在图 [5.15](#fig:crimeTypePlot) 的左图中,我们用蓝色标出 CA。如你所见,财产犯罪的原始比率远远高于暴力犯罪的原始比率,所以我们不能直接比较数字。然而,我们可以绘制这些数据彼此之间的 Z 分数(图 [5.15](#fig:crimeTypePlot) 的右图)——我们再次看到数据的分布没有变化。将数据放入每个变量的 Z 分数中,使它们具有可比性,并让我们看到,就暴力犯罪和财产犯罪而言,加州实际上位于分布的中间。
![Plot of violent vs. property crime rates (left) and Z-scored rates (right).](img/file36.png)
![Left: Plot of violent vs. property crime rates, with population size presented through the size of the plotting symbol; California is presented in blue. Right: Difference scores for violent vs. property crime, plotted against population. ](img/file37.png)
既然我们有了这些定义,我们就可以勾勒出概率的形式特征,它是由俄罗斯数学家安德烈·科尔莫戈罗夫首先定义的。如果一个值*成为一个概率,那么这些就是这个值*必须具备的特征。假设我们有一个由 N 个独立事件定义的样本空间,<mathxmlns:epub="http://www.idpf.org/2007/ops"display="inline"><semantics><mrow><msub><mi>E</mi><mn>1</mn></msub><mo>,</mo><msub><mi>E</mi><mn>2</mn></msub><mo>,</mo><mi>。</mi><mi>。</mi><mi>。</mi><mo>,</mo><msub><mi>E</mi><mi>N</mi></msub></mrow><annotationencoding="application/x-tex">{ E _ 1,E_2,...,E_N}</annotation></semantics></math> ,<mathxmlns:epub="http://www.idpf.org/2007/ops"display="inline"><semantics><mi>X</mi><annotationencoding="application/x-tex">X</annotation></semantics></math>是随机变量,表示发生了哪个事件。<mathxmlns:epub="http://www.idpf.org/2007/ops"display="inline"><semantics><mrow><mi>P</mi><mrow><mostretchy="true"form="prefix">(</mo><mi>X</mi><mo>=</mo><msub><mi>E</mi><mi>I</mi></msub><mostretchy="true"form="postfix">)</mo></mrow></mrow><annotationencoding="application/x-tex">P(X = E _ I)</annotation></semantics></math>是事件发生的概率
...
...
@@ -21,7 +21,7 @@
* 概率不能为负:<mathdisplay="inline"><semantics><mrow><mi>P</mi><mrow><mostretchy="true"form="prefix">(</mo><mi>X</mi><mo>=</mo><msub><mi>E</mi><mi>I</mi></msub><mostretchy="true"form="postfix">)</mo></mrow><mo>≥</mo><mn>0</mn></mrow><annotationencoding="application/x-tex">P(X = E _ I)\ ge 0</annotation></semantics></math>
* 任何单个事件的概率都不能大于一:<mathdisplay="inline"><semantics><mrow><mi>P</mi><mrow><mostretchy="true"form="prefix">(</mo><mi>X</mi><msub><mi>E</mi><mi>I</mi></msub><mostretchy="true"form="postfix">)</mo></mrow><mo>≤</mo><mn>1</mn></mrow><annotationencoding="application/x-tex">P(X = E _ I)\ le 1</annotation></semantics></math>。这是前一点所暗示的;因为它们的总和必须是 1,而且它们不能是负的,那么任何特定的概率都不能超过 1。
* 任何单个事件的概率都不能大于一:<mathdisplay="inline"><semantics><mrow><mi>P</mi><mrow><mostretchy="true"form="prefix">(</mo><mi>X</mi><msub><mi>E</mi><mi>I</mi></msub><mostretchy="true"form="postfix">)</mo></mrow><mo>≤</mo><mn>1</mn></mrow><annotationencoding="application/x-tex">P(X = E _ I)\ le 1</annotation></semantics></math>。这可以根据前面的条件推导出来;因为它们的总和必须是 1,而且它们不能是负的,那么任何特定的概率都不能超过 1。
![Left: A demonstration of the law of large numbers. A coin was flipped 30,000 times, and after each flip the probability of heads was computed based on the number of heads and tail collected up to that point. It takes about 15,000 flips for the probability to settle at the true probability of 0.5\. Right: Relative proportion of the vote in the Dec 12, 2017 special election for the US Senate seat in Alabama, as a function of the percentage of precincts reporting. These data were transcribed from https://www.ajc.com/news/national/alabama-senate-race-live-updates-roy-moore-doug-jones/KPRfkdaweoiXICW3FHjXqI/](img/file38.png)
第二个规则告诉我们如何计算联合事件的概率——即两个事件同时发生的概率。我们将此称为*交点*,用<mathdisplay="inline"><semantics><annotationencoding="application/x-tex">\ cap</annotation></semantics></math>符号表示;由此,<mathdisplay="inline"><semantics><mrow><mi>P</mi><mrow><mostretchy="true"form="prefix">(</mo><mi>A</mi><mo>∩</mo><mi>B</mi><mostretchy="true"form="postfix">)</mo></mrow></mrow><annotationencoding="application/x-tex">P(A \ cap B)</annotation></semantics></math>表示 A 和 B 都发生的概率。我们将集中讨论这个规则的一个版本,它告诉我们在两个事件相互独立的特殊情况下如何计算这个量;我们稍后将确切了解*独立性*的概念是什么意思,但是现在我们可以理所当然地认为两次掷骰子是独立的事件。我们通过简单地将单个事件的概率相乘来计算两个独立事件相交的概率:
...
...
@@ -101,7 +101,7 @@ de Méré基于这个错误的假设进行推理,即四次掷骰中至少有
@@ -141,7 +141,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于
<mathxmlns:epub="http://www.idpf.org/2007/ops"display="block"><semantics><mrow><mrow><mostretchy="true"form="prefix">(</mo><mfraclinethickness="0"><mi>n</mi><mi>k</mi></mfrac><mostretchy="true"form="postfix">)</mo></mrow><mo>=</mo><mfrac><mrow><mi>n</mi><mi>!</mi></mrow><mrow><mi>k</mi><mi>!</mi><mrow><mostretchy="true"form="prefix">(</mo><mi>n</mi><mo>—</mo>—T36】k<mostretchy="true"form="postfix">)</mo></mrow><mi>!</mi></mrow></mfrac></mrow><annotationencoding="application/x-tex">【binom { n } { k } = \ frac { n!}{k!(n-k)!}</annotation></semantics></math> 感叹号(!)指的是*数的阶乘*:
<mathxmlns:epub="http://www.idpf.org/2007/ops"display="block"><semantics><mrow><mi>!</mi><mo>=</mo><munderover><mrow><mo>=</mo></mrow><mi>。</mi><mi>。</mi><mo>*</mo><mn><semantics></semantics></mn></munderover></mrow><annotation encoding="application/x-tex">n!= \prod_{i=1}^n i = n*(n-1)*-我...。*2*1</annotation></semantics></math>
<mathxmlns:epub="http://www.idpf.org/2007/ops"display="block"><semantics><mrow><mi>!</mi><mo>=</mo><munderover><mrow><mo>=</mo></mrow><mi>。</mi><mi>。</mi><mo></mo><mn><semantics></semantics></mn></munderover></mrow><annotationencoding="application/x-tex">n!= \prod_{i=1}^n i = n*(n-1)*-我...。*2*1</annotation></semantics></math>
也就是说,给定 B 的某个值的概率恰好与 A 的总体概率相同。从这个角度看,我们看到现实世界中许多我们称之为“独立”的情况实际上在统计上并不独立。例如,目前有一小群加州公民正在采取行动,宣布成立一个名为杰斐逊的新的独立州,该州将包括北加州和俄勒冈州的一些县。如果发生这种情况,那么当前加州居民现在居住在杰斐逊州的概率将是<mathdisplay="inline"><semantics><mrow><mi>P</mi><mrow><mostretchy="true"form="prefix">(</mo><mtextmathvariant="normal">杰斐逊</mtext><mostretchy="true"form="postfix">)</mo></mrow><mo>=</mo><mn>0.014</mn></mrow><annotationencoding="application/x-tex">P(\ text {杰斐逊})=0.014</annotation></semantics></math> ,而他们将继续居住在杰斐逊州的概率新的州可能在政治上是独立的,但是他们在统计上是独立的,因为如果我们知道一个人是杰斐逊派,那么我们可以确定他们不是加利福尼亚人!也就是说,在普通语言中,独立性通常指的是具有排他性的集合,而统计独立性指的是无法从一个变量的值预测另一个变量的情况。例如,知道一个人的头发颜色不太可能告诉你他们更喜欢巧克力还是草莓冰淇淋。
也就是说,给定 B 的某个值的概率恰好与 A 的总体概率相同。从这个角度看,我们看到现实世界中许多我们称之为“独立”的情况实际上在统计上并不独立。例如,目前有一小群加州公民正在搞事,宣布成立一个名为杰斐逊的新的独立州,该州将包括北加州和俄勒冈州的一些县。如果发生这种情况,那么当前加州居民现在居住在杰斐逊州的概率将是<mathdisplay="inline"><semantics><mrow><mi>P</mi><mrow><mostretchy="true"form="prefix">(</mo><mtextmathvariant="normal">杰斐逊</mtext><mostretchy="true"form="postfix">)</mo></mrow><mo>=</mo><mn>0.014</mn></mrow><annotationencoding="application/x-tex">P(\ text {杰斐逊})=0.014</annotation></semantics></math> ,而他们将继续居住在杰斐逊州的概率新的州可能在政治上是独立的,但是他们在统计上是独立的,因为如果我们知道一个人是杰斐逊派,那么我们可以确定他不是加利福尼亚人!也就是说,通俗的讲,独立性通常指的是具有排他性的集合,而统计独立性指的是无法从一个变量的值预测另一个变量的情况。例如,知道一个人的头发颜色不太可能告诉你他们更喜欢巧克力还是草莓冰淇淋。