提交 dd4a72b2 编写于 作者: W wizardforcel

2022-07-08 12:39:49

上级 4dfb1417
......@@ -2,17 +2,17 @@
# 前言
这本书的目标是讲述统计的故事,因为它今天被全世界的研究人员使用。这与大多数统计学入门书籍讲述的故事不同,后者侧重于教授如何使用一套工具来实现非常具体的目标。这本书侧重于理解*统计思维*的基本思想——一种关于我们如何描述世界和使用数据做出决策和预测的系统思维方式,所有这些都是在现实世界中存在的固有不确定性的背景下进行的。它还带来了当前的方法,这些方法只有在过去几十年计算能力惊人增长的情况下才变得可行。在20世纪50年代可能需要几年时间的分析现在可以在标准的笔记本电脑上几秒钟内完成,这种能力释放了使用计算机模拟以新的和强大的方式提出问题的能力。
这本书的目标是讲述统计的故事,因为它今天被全世界的研究人员使用。这与大多数统计学入门书籍讲述的故事不同,后者侧重于教授如何使用一套工具来实现非常具体的目标。这本书侧重于理解*统计思维*的基本思想——一种关于我们如何描述世界和使用数据做出决策和预测的系统思维方式,所有这些都是在现实世界中存在的固有不确定性的背景下进行的。它还带来了当前的方法,这些方法只有在过去几十年计算能力惊人增长的情况下才变得可行。在 20 世纪 50 年代可能需要几年时间的分析现在可以在标准的笔记本电脑上几秒钟内完成,这种能力释放了使用计算机模拟以新的和强大的方式提出问题的能力。
这本书也是在自2010年以来席卷许多科学领域的再现性危机之后写的。这场危机的一个重要根源在于研究人员使用(和滥用)统计假设检验的方式(正如我在本书最后一章详述的那样),这与统计教育直接相关。因此,这本书的一个目标是强调当前的统计方法可能有问题的方式,并提出替代方案。
这本书也是在自 2010 年以来席卷许多科学领域的再现性危机之后写的。这场危机的一个重要根源在于研究人员使用(和滥用)统计假设检验的方式(正如我在本书最后一章详述的那样),这与统计教育直接相关。因此,这本书的一个目标是强调当前的统计方法可能有问题的方式,并提出替代方案。
## 0.1 这本书为什么会存在?
2018年,我开始在斯坦福大学教授本科统计学课程(Psych 10/Stats 60)。我以前从未教过统计学,这是一个改变现状的机会。我对心理学本科统计教育越来越不满意,我想给班级带来一些新的想法和方法。特别是,我想利用在21世纪的实际统计实践中日益广泛使用的方法。正如Brad Efron和Trevor Hastie在他们的书《计算机时代的统计推断:算法、证据和数据科学》中所描述的那样,这些方法利用了当今日益增长的计算能力来解决统计问题,远远超出了通常在心理学学生的本科统计学课程中教授的更标准的方法。
2018 年,我开始在斯坦福大学教授本科统计学课程(Psych 10/Stats 60)。我以前从未教过统计学,这是一个改变现状的机会。我对心理学本科统计教育越来越不满意,我想给班级带来一些新的想法和方法。特别是,我想利用在 21 世纪的实际统计实践中日益广泛使用的方法。正如 Brad Efron 和 Trevor Hastie 在他们的书《计算机时代的统计推断:算法、证据和数据科学》中所描述的那样,这些方法利用了当今日益增长的计算能力来解决统计问题,远远超出了通常在心理学学生的本科统计学课程中教授的更标准的方法。
我教这门课的第一年,我使用了安迪·菲尔德令人惊叹的图形小说《统计学的冒险》作为教材。这本书有很多地方是我非常喜欢的——特别是,我喜欢它围绕模型的构建来构建统计实践的方式,并且非常谨慎地对待零假设检验。不幸的是,我的许多学生不喜欢这本书(除了英语专业的学生,他们喜欢这本书!),主要是因为它涉及涉水通过大量的故事,以获得统计知识。我还发现它不够全面,因为有许多主题(特别是那些来自人工智能新兴领域的主题,被称为*机器学习*)我想包括在内,但没有在他的书中讨论。我最终觉得,学生们最好读一本与我的讲座紧密相关的书,所以我开始把我的讲座写在一套计算笔记本上,这些笔记本最终成为了这本书。这本书的大纲大致遵循菲尔德的书,因为讲座最初在很大程度上是基于那本书的流程,但内容是本质上不同的(几乎可以肯定的是,少得多的乐趣和聪明)。我还为我们在斯坦福使用的10周季度系统量身定制了这本书,这比大多数统计教科书建立的16周学期提供的时间更少。
我教这门课的第一年,我使用了安迪·菲尔德令人惊叹的图形小说《统计学的冒险》作为教材。这本书有很多地方是我非常喜欢的——特别是,我喜欢它围绕模型的构建来构建统计实践的方式,并且非常谨慎地对待零假设检验。不幸的是,我的许多学生不喜欢这本书(除了英语专业的学生,他们喜欢这本书!),主要是因为它涉及涉水通过大量的故事,以获得统计知识。我还发现它不够全面,因为有许多主题(特别是那些来自人工智能新兴领域的主题,被称为*机器学习*)我想包括在内,但没有在他的书中讨论。我最终觉得,学生们最好读一本与我的讲座紧密相关的书,所以我开始把我的讲座写在一套计算笔记本上,这些笔记本最终成为了这本书。这本书的大纲大致遵循菲尔德的书,因为讲座最初在很大程度上是基于那本书的流程,但内容是本质上不同的(几乎可以肯定的是,少得多的乐趣和聪明)。我还为我们在斯坦福使用的 10 周季度系统量身定制了这本书,这比大多数统计教科书建立的 16 周学期提供的时间更少。
......@@ -22,7 +22,7 @@
在本书中,我尽可能使用真实数据中的例子。这现在非常容易,因为我们正在开放的数据集中游泳,因为政府、科学家和公司越来越多地免费提供数据。我认为使用真实数据集很重要,因为它让学生准备好使用真实数据而不是玩具数据集,我认为这应该是统计培训的主要目标之一。它还帮助我们认识到(正如我们将在整本书的不同地方看到的),数据并不总是随时可供我们分析,通常需要*争论*来帮助它们成形。使用真实数据还表明,统计方法中经常假设的理想化统计分布在现实世界中并不总是成立的——例如,正如我们将在第 [3](#summarizing-data) 章中看到的,一些现实世界数量的分布(如脸书上的朋友数量)可能有非常长的尾部,可以打破许多标准假设。
我首先道歉,数据集严重以美国为中心。这主要是因为许多演示的最佳数据集是作为R包提供的国家健康和营养检查调查(NHANES)数据集,还因为R包中包含的许多其他复杂数据集(如`fivethirtyeight`包中的数据集)也位于美国。如果你对其他地区的数据集有什么建议,请告诉我!
我首先道歉,数据集严重以美国为中心。这主要是因为许多演示的最佳数据集是作为 R 包提供的国家健康和营养检查调查(NHANES)数据集,还因为 R 包中包含的许多其他复杂数据集(如`fivethirtyeight`包中的数据集)也位于美国。如果你对其他地区的数据集有什么建议,请告诉我!
......@@ -30,9 +30,9 @@
## 0.3 做统计的重要性
真正学好统计学的唯一方法就是*做*统计。虽然历史上许多统计课程是使用点击式统计软件教授的,但统计教育越来越多地使用开源语言,学生可以用这些语言编写自己的分析。我认为,能够对自己的分析进行编码对于深入理解统计分析是至关重要的,这就是为什么我在斯坦福大学的课程中的学生除了从本书中学到的理论知识之外,还应该学习使用R统计编程语言来分析数据。
真正学好统计学的唯一方法就是*做*统计。虽然历史上许多统计课程是使用点击式统计软件教授的,但统计教育越来越多地使用开源语言,学生可以用这些语言编写自己的分析。我认为,能够对自己的分析进行编码对于深入理解统计分析是至关重要的,这就是为什么我在斯坦福大学的课程中的学生除了从本书中学到的理论知识之外,还应该学习使用 R 统计编程语言来分析数据。
这本教科书有两个在线伙伴,可以帮助读者开始学习编程;[一个专注于R编程语言](https://statsthinking21.github.io/statsthinking21-R-site/)[另一个专注于Python语言](https://statsthinking21.github.io/statsthinking21-python/)。两者都是目前正在进行中的工作-请随时贡献!
这本教科书有两个在线伙伴,可以帮助读者开始学习编程;[一个专注于 R 编程语言](https://statsthinking21.github.io/statsthinking21-R-site/)[另一个专注于 Python 语言](https://statsthinking21.github.io/statsthinking21-python/)。两者都是目前正在进行中的工作-请随时贡献!
......@@ -40,9 +40,9 @@
## 0.4 一本开源的书
这本书旨在成为一份活的文件,这也是为什么它的来源可以在https://github.com/statsthinking21/statsthinking21-core网上找到。如果您发现书中有任何错误,或者想提出如何改进的建议,请在Github网站上发表。更好的是,提交一个包含您建议的更改的拉请求。
这本书旨在成为一份活的文件,这也是为什么它的来源可以在 https://github.com/statsthinking21/statsthinking21-core 网上找到。如果您发现书中有任何错误,或者想提出如何改进的建议,请在 Github 网站上发表。更好的是,提交一个包含您建议的更改的拉请求。
这本书是根据[知识共享署名-非商业性2.0通用(CC BY-NC 2.0)许可](https://creativecommons.org/licenses/by-nc/2.0/)授权的。有关详细信息,请参阅该许可的条款。
这本书是根据[知识共享署名-非商业性 2.0 通用(CC BY-NC 2.0)许可](https://creativecommons.org/licenses/by-nc/2.0/)授权的。有关详细信息,请参阅该许可的条款。
......@@ -50,15 +50,15 @@
## 0.5 致谢
我首先要感谢苏珊·霍尔曼,是他第一次激励我考虑写一本自己的统计学书籍。Anna Khazenzon提供了早期的评论和灵感。Lucy King对整本书提供了详细的评论和编辑,并帮助清理代码,使其与Tidyverse保持一致。迈克尔·亨利·特斯勒在贝叶斯分析一章中提供了非常有用的评论。还要特别感谢Bookdown软件包的创建者Yihui Xie,他改进了Bookdown功能的使用(包括用户通过编辑按钮直接生成编辑内容的能力)。最后,珍妮特·芒福德为整本书提供了非常有用的建议。
我首先要感谢苏珊·霍尔曼,是他第一次激励我考虑写一本自己的统计学书籍。Anna Khazenzon 提供了早期的评论和灵感。Lucy King 对整本书提供了详细的评论和编辑,并帮助清理代码,使其与 Tidyverse 保持一致。迈克尔·亨利·特斯勒在贝叶斯分析一章中提供了非常有用的评论。还要特别感谢 Bookdown 软件包的创建者 Yihui Xie,他改进了 Bookdown 功能的使用(包括用户通过编辑按钮直接生成编辑内容的能力)。最后,珍妮特·芒福德为整本书提供了非常有用的建议。
我还要感谢提供了有益的意见和建议的其他人:Athanassios Protopapas,Wesley Tansey,Jack Van Horn,Thor Aspelund。
感谢以下推特用户的有益建议:@enoriverbend
感谢通过Github或电子邮件提供编辑或问题的以下个人:Isis Anderson、Larissa Bersh、Isil Bilgin、Forrest Dollins、Gao、Nate Guimond、Alan He、吴、、Dan Kessler、Philipp Kuhnke、Leila Madeleine、Lee Matos、Ryan McCormick、Jarod Meng、Kirsten Mettler、Shanaathanan Modchalingam、Martijn Stegeman、Mehdi Rahim、Jassary Rico-Herrera、Mingquian Tan、Tao、Laura Tobar、Albane
感谢通过 Github 或电子邮件提供编辑或问题的以下个人:Isis Anderson、Larissa Bersh、Isil Bilgin、Forrest Dollins、Gao、Nate Guimond、Alan He、吴、、Dan Kessler、Philipp Kuhnke、Leila Madeleine、Lee Matos、Ryan McCormick、Jarod Meng、Kirsten Mettler、Shanaathanan Modchalingam、Martijn Stegeman、Mehdi Rahim、Jassary Rico-Herrera、Mingquian Tan、Tao、Laura Tobar、Albane
特别感谢Isil Bilgin帮助修复了其中的许多问题。
特别感谢 Isil Bilgin 帮助修复了其中的许多问题。
此差异已折叠。
......@@ -34,13 +34,13 @@
#### 2.1.2.1数字的种类
#### 2.1.2.1 数字的种类
在统计学中,我们使用几种不同类型的数字。理解这些差异很重要,部分原因是统计分析语言(比如R)经常区分它们。
在统计学中,我们使用几种不同类型的数字。理解这些差异很重要,部分原因是统计分析语言(比如 R)经常区分它们。
**二进制数字**。最简单的是二进制数,即0或1。我们会经常用二进制数来表示某事物是真还是假,是存在还是不存在。例如,我可能会问10个人他们是否经历过偏头痛,记录他们的回答是“是”还是“不是”。使用*逻辑*值通常是有用的,它接受`TRUE``FALSE`的值。当我们开始使用像R这样的编程语言来分析我们的数据时,这可能特别有用,因为这些语言已经理解了真和假的概念。事实上,大多数编程语言都同等对待真值和二进制数。数字1等于逻辑值`TRUE`,数字0等于逻辑值`FALSE`
**二进制数字**。最简单的是二进制数,即 0 或 1。我们会经常用二进制数来表示某事物是真还是假,是存在还是不存在。例如,我可能会问 10 个人他们是否经历过偏头痛,记录他们的回答是“是”还是“不是”。使用*逻辑*值通常是有用的,它接受`TRUE``FALSE`的值。当我们开始使用像 R 这样的编程语言来分析我们的数据时,这可能特别有用,因为这些语言已经理解了真和假的概念。事实上,大多数编程语言都同等对待真值和二进制数。数字 1 等于逻辑值`TRUE`,数字 0 等于逻辑值`FALSE`
**整数**。整数是没有分数或小数部分的整数。我们在计数时最常遇到整数,但它们也经常出现在心理测量中。例如,在我的介绍性调查中,我提出了一系列关于对统计学的态度的问题(例如“统计学对我来说似乎很神秘。”),学生们用1(“强烈反对”)到7(“强烈同意”)之间的数字来回答。
**整数**。整数是没有分数或小数部分的整数。我们在计数时最常遇到整数,但它们也经常出现在心理测量中。例如,在我的介绍性调查中,我提出了一系列关于对统计学的态度的问题(例如“统计学对我来说似乎很神秘。”),学生们用 1(“强烈反对”)到 7(“强烈同意”)之间的数字来回答。
**实数**。在统计学中,我们最常见的是处理实数,它有一个分数/小数部分。例如,我们可以测量某人的体重,这可以测量到任意精度水平,从千克到微克。
......@@ -54,7 +54,7 @@
## 2.2 离散与连续测量
*离散*测量是取特定值的有限集合中的一个。这些可以是定性值(例如,不同品种的狗)或数值(例如,一个人在脸书上有多少朋友)。重要的是,在测量之间没有中间地带;说一个人有33.7个朋友没有意义。
*离散*测量是取特定值的有限集合中的一个。这些可以是定性值(例如,不同品种的狗)或数值(例如,一个人在脸书上有多少朋友)。重要的是,在测量之间没有中间地带;说一个人有 33.7 个朋友没有意义。
*连续*测量是根据实数定义的测量。它可以落在特定值范围内的任何地方,尽管通常我们的测量工具会限制我们测量它的精度;例如,尽管理论上可以更精确地测量重量,但地秤可能会精确到千克。
......@@ -86,7 +86,7 @@
![A figure demonstrating the distinction between reliability and validity, using shots at a bullseye. Reliability refers to the consistency of location of shots, and validity refers to the accuracy of the shots with respect to the center of the bullseye. ](img/file1.png)
图2.1:一个展示信度和效度区别的图,使用靶心射击。可靠性指的是射击位置的一致性,而有效性指的是射击相对于靶心中心的准确性。
2.1:一个展示信度和效度区别的图,使用靶心射击。可靠性指的是射击位置的一致性,而有效性指的是射击相对于靶心中心的准确性。
......@@ -121,7 +121,7 @@
## 2.5 建议读数
* 心理测量理论介绍及其在R 中的应用——关于心理测量的免费在线教材
* 心理测量理论介绍及其在 R 中的应用——关于心理测量的免费在线教材
......@@ -138,16 +138,16 @@
* *恒等式*:变量的每个值都有唯一的意义。
* *量级*:变量的值反映了不同的量级,并且彼此之间具有有序的关系——也就是说,一些值较大,一些值较小。
* *等间距*:测量刻度上的单位彼此相等。这意味着,例如,1和2之间的差在数量上等于19和20之间的差。
* *等间距*:测量刻度上的单位彼此相等。这意味着,例如,1 和 2 之间的差在数量上等于 19 和 20 之间的差。
* *绝对零点*:秤有一个真正有意义的零点。例如,对于许多物理量的测量,如身高或体重,这是完全没有被测量的东西。
有四种不同的测量尺度,伴随着变量值的不同方式。
*标称刻度*。名义变量满足恒等式的标准,因此变量的每个值都代表不同的东西,但是数字只是作为上面讨论的定性标签。例如,我们可能会询问人们的政党归属,然后用数字编码:1 =“共和党”,2 =“民主党”,3 =“自由主义者”,等等。然而,不同的数字彼此之间没有任何有序的关系。
*序数刻度*。序数变量满足同一性和大小的标准,因此值可以根据它们的大小排序。例如,我们可能会要求一个患有慢性疼痛的人每天填写一份表格,使用1-7的数字量表评估他们的疼痛程度。请注意,虽然人们在报告6分的一天比报告3分的一天可能感觉到更多的疼痛,但说他们在前一天比后一天疼痛两倍是没有意义的;排序为我们提供了关于相对大小的信息,但是值之间的差异不一定在大小上相等。
*序数刻度*。序数变量满足同一性和大小的标准,因此值可以根据它们的大小排序。例如,我们可能会要求一个患有慢性疼痛的人每天填写一份表格,使用 1-7 的数字量表评估他们的疼痛程度。请注意,虽然人们在报告 6 分的一天比报告 3 分的一天可能感觉到更多的疼痛,但说他们在前一天比后一天疼痛两倍是没有意义的;排序为我们提供了关于相对大小的信息,但是值之间的差异不一定在大小上相等。
*区间刻度*。区间标尺具有顺序标尺的所有特征,但是除此之外,度量标尺上单位之间的区间可以被视为相等。一个标准的例子是用摄氏度或华氏度测量的物理温度;10度和20度之间的物理差异与90度和100度之间的物理差异相同,但是每个标度也可以取负值。
*区间刻度*。区间标尺具有顺序标尺的所有特征,但是除此之外,度量标尺上单位之间的区间可以被视为相等。一个标准的例子是用摄氏度或华氏度测量的物理温度;10 度和 20 度之间的物理差异与 90 度和 100 度之间的物理差异相同,但是每个标度也可以取负值。
*比例刻度*。比率标度变量具有上述所有四个特征:同一性、量值、等间隔和绝对零度。比率标度变量和间隔标度变量的区别在于比率标度变量有一个真正的零点。比例变量的例子包括身体高度和体重,以及以开尔文测量的温度。
......
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
......@@ -4,7 +4,7 @@
统计学中的一个基本思想是,我们可以根据总体中相对较小的个体样本,对整个总体做出推断。在这一章中,我们将介绍统计抽样的概念,并讨论它的工作原理。
任何生活在美国的人都会熟悉从政治民意调查中取样的概念,这已经成为我们选举过程的一个核心部分。在某些情况下,这些民意调查在预测选举结果时会非常准确。最著名的例子来自2008年和2012年美国总统选举,当时民调专家内特·西尔弗(Nate Silver)正确预测了2008年49/50个州和2012年全部50个州的选举结果。西尔弗是通过综合21个不同民调的数据得出这一结论的,这些数据在倾向于共和党或民主党的程度上有所不同。每一项民意调查都包括来自大约1000名潜在选民的数据——这意味着Silver能够利用仅来自大约21,000人的数据以及其他知识(如这些州过去的投票情况)几乎完美地预测超过1 . 25亿选民的投票模式。
任何生活在美国的人都会熟悉从政治民意调查中取样的概念,这已经成为我们选举过程的一个核心部分。在某些情况下,这些民意调查在预测选举结果时会非常准确。最著名的例子来自 2008 年和 2012 年美国总统选举,当时民调专家内特·西尔弗(Nate Silver)正确预测了 2008 年 49/50 个州和 2012 年全部 50 个州的选举结果。西尔弗是通过综合 21 个不同民调的数据得出这一结论的,这些数据在倾向于共和党或民主党的程度上有所不同。每一项民意调查都包括来自大约 1000 名潜在选民的数据——这意味着 Silver 能够利用仅来自大约 21,000 人的数据以及其他知识(如这些州过去的投票情况)几乎完美地预测超过 1 . 25 亿选民的投票模式。
......@@ -12,7 +12,7 @@
我们抽样的目的是确定感兴趣的整个人口的统计值,只使用人口的一个小子集。我们这样做主要是为了节省时间和精力——当仅仅一个小样本就足以准确估计感兴趣的统计数据时,为什么还要费事去测量群体中的每个个体呢?
在选举示例中,人口是被调查区域中的所有注册选民,样本是由投票组织选择的1000个人的集合。我们选择样本的方式对于确保样本能够代表整个人口是至关重要的,这也是统计抽样的一个主要目标。很容易想象一个不具有代表性的样本;如果民意测验专家只打电话给他们从当地民主党那里得到名字的个人,那么民意测验的结果就不可能代表全体人口。一般来说,我们将代表性投票定义为人口中的每个成员都有平等的机会被选中。当这失败时,我们就不得不担心我们对样本计算的统计数据是否有*偏差*——也就是说,它的值是否系统地不同于总体值(我们称之为*参数*)。请记住,我们通常不知道这个总体参数,因为如果我们知道,那么我们就不需要采样!但是我们会用例子来说明一些关键的观点,在这些例子中我们可以接触到整个人群。
在选举示例中,人口是被调查区域中的所有注册选民,样本是由投票组织选择的 1000 个人的集合。我们选择样本的方式对于确保样本能够代表整个人口是至关重要的,这也是统计抽样的一个主要目标。很容易想象一个不具有代表性的样本;如果民意测验专家只打电话给他们从当地民主党那里得到名字的个人,那么民意测验的结果就不可能代表全体人口。一般来说,我们将代表性投票定义为人口中的每个成员都有平等的机会被选中。当这失败时,我们就不得不担心我们对样本计算的统计数据是否有*偏差*——也就是说,它的值是否系统地不同于总体值(我们称之为*参数*)。请记住,我们通常不知道这个总体参数,因为如果我们知道,那么我们就不需要采样!但是我们会用例子来说明一些关键的观点,在这些例子中我们可以接触到整个人群。
区分两种不同的采样方式也很重要:有替换和没有替换。在使用替换的采样*中,在群体的一个成员被采样后,他们被放回池中,以便他们可能被再次采样。在*无替换抽样*中,成员一旦被抽样,就没有资格再次被抽样。最常见的是使用无替换采样,但是在某些情况下我们会使用有替换采样,比如我们在第 [8](#resampling-and-simulation) 章中讨论一种叫做*引导*的技术。*
......@@ -26,9 +26,9 @@
抽样误差直接关系到我们测量人口的质量。显然,我们希望从样本中获得的估计值尽可能接近总体参数的真实值。然而,即使我们的统计是无偏的(即,我们期望它具有与总体参数相同的值),任何特定估计的值都将不同于总体值,并且当抽样误差较大时,这些差异将会较大。因此,减少采样误差是提高测量质量的重要一步。
我们将使用NHANES数据集作为例子;我们将假设NHANES数据集是感兴趣的整个人群,然后我们将从该人群中抽取随机样本。我们将在下一章详细讲述在计算机中如何产生“随机”样本。
我们将使用 NHANES 数据集作为例子;我们将假设 NHANES 数据集是感兴趣的整个人群,然后我们将从该人群中抽取随机样本。我们将在下一章详细讲述在计算机中如何产生“随机”样本。
在本例中,我们知道成人人口身高的平均值(168.35)和标准差(10.16),因为我们假设NHANES数据集*是人口的*。表 [7.1](#tab:sampleExample) 显示了从NHANES人群的50个个体的几个样本计算的统计数据。
在本例中,我们知道成人人口身高的平均值(168.35)和标准差(10.16),因为我们假设 NHANES 数据集*是人口的*。表 [7.1](#tab:sampleExample) 显示了从 NHANES 人群的 50 个个体的几个样本计算的统计数据。
<caption>Table 7.1: Example means and standard deviations for several samples of Height variable from NHANES.</caption>
| 采样平均 | 样品 |
......@@ -39,11 +39,11 @@
| One hundred and sixty-six | Nine point five |
| One hundred and sixty-eight | Nine point five |
样本均值和标准差相似,但不完全等于总体值。现在,让我们从50个个体中抽取大量样本,计算每个样本的平均值,并查看平均值的抽样分布。为了很好地估计抽样分布,我们必须决定取多少样本——在这种情况下,我们将取5000个样本,这样我们对答案非常有信心。请注意,像这样的模拟有时需要几分钟才能运行,可能会让您的计算机气鼓鼓的。图 [7.1](#fig:samplePlot) 中的直方图显示,50个个体的每个样本的估计均值略有不同,但总体而言,它们以总体均值为中心。5000个样本平均值(168.3463)非常接近真实总体平均值(168.3497)。
样本均值和标准差相似,但不完全等于总体值。现在,让我们从 50 个个体中抽取大量样本,计算每个样本的平均值,并查看平均值的抽样分布。为了很好地估计抽样分布,我们必须决定取多少样本——在这种情况下,我们将取 5000 个样本,这样我们对答案非常有信心。请注意,像这样的模拟有时需要几分钟才能运行,可能会让您的计算机气鼓鼓的。图 [7.1](#fig:samplePlot) 中的直方图显示,50 个个体的每个样本的估计均值略有不同,但总体而言,它们以总体均值为中心。5000 个样本平均值(168.3463)非常接近真实总体平均值(168.3497)。
![The blue histogram shows the sampling distribution of the mean over 5000 random samples from the NHANES dataset. The histogram for the full dataset is shown in gray for reference.](img/file41.png)
7.1:蓝色直方图显示了NHANES数据集中超过5000个随机样本的平均抽样分布。完整数据集的直方图以灰色显示,以供参考。
7.1:蓝色直方图显示了 NHANES 数据集中超过 5000 个随机样本的平均抽样分布。完整数据集的直方图以灰色显示,以供参考。
......@@ -55,11 +55,11 @@
<semantics><mrow><mi>【s】</mi><mi>【e】</mi><mi>【m】</mi><mo>=<mfrac></mfrac></mo></mrow></semantics>
请注意,如果我们的样本很小(小于30),我们必须小心使用估计的标准偏差计算SEM。
请注意,如果我们的样本很小(小于 30),我们必须小心使用估计的标准偏差计算 SEM。
因为我们有来自NHANES总体的许多样本,并且我们实际上知道总体SEM(我们通过将总体标准差除以总体大小来计算),所以我们可以确认,使用总体参数(1.44)计算的SEM非常接近我们从NHANES数据集(1.43)获取的样本的均值的观测标准差。
因为我们有来自 NHANES 总体的许多样本,并且我们实际上知道总体 SEM(我们通过将总体标准差除以总体大小来计算),所以我们可以确认,使用总体参数(1.44)计算的 SEM 非常接近我们从 NHANES 数据集(1.43)获取的样本的均值的观测标准差。
平均值的标准误差公式意味着我们测量的质量涉及两个量:总体可变性和样本大小。因为样本大小是SEM公式中的分母,所以在保持总体可变性不变的情况下,较大的样本大小将产生较小的SEM。我们无法控制人口的可变性,但是我们可以控制样本的大小。因此,如果我们希望改善我们的样本统计(通过减少他们的抽样可变性),那么我们应该使用更大的样本。然而,这个公式也告诉我们一些关于统计抽样的非常基本的东西——也就是说,较大样本的效用随着样本大小的平方根而减少。这意味着加倍样本量将*而不是*加倍统计数据的质量;而是将其提高一个<math display="inline"><semantics><msqrt><mn>2</mn></msqrt><annotation encoding="application/x-tex">\ sqrt { 2 }</annotation></semantics></math>的因子。在第 [10.3](#statistical-power) 节中,我们将讨论统计功效,它与这一概念密切相关。
平均值的标准误差公式意味着我们测量的质量涉及两个量:总体可变性和样本大小。因为样本大小是 SEM 公式中的分母,所以在保持总体可变性不变的情况下,较大的样本大小将产生较小的 SEM。我们无法控制人口的可变性,但是我们可以控制样本的大小。因此,如果我们希望改善我们的样本统计(通过减少他们的抽样可变性),那么我们应该使用更大的样本。然而,这个公式也告诉我们一些关于统计抽样的非常基本的东西——也就是说,较大样本的效用随着样本大小的平方根而减少。这意味着加倍样本量将*而不是*加倍统计数据的质量;而是将其提高一个<math display="inline"><semantics><msqrt><mn>2</mn></msqrt><annotation encoding="application/x-tex">\ sqrt { 2 }</annotation></semantics></math>的因子。在第 [10.3](#statistical-power) 节中,我们将讨论统计功效,它与这一概念密切相关。
......@@ -69,13 +69,13 @@
中心极限定理告诉我们,随着样本量变大,均值的抽样分布将变成正态分布,*即使每个样本内的数据不是正态分布*
首先,我们来简单介绍一下正态分布。它也被称为*高斯*分布,以卡尔·弗里德里希·高斯的名字命名,这位数学家没有发明它,但在它的发展中发挥了作用。正态分布用两个参数来描述:平均值(可以认为是峰值的位置)和标准差(指定分布的宽度)。分布的钟形形状永远不会改变,只有它的位置和宽度会改变。正如我们已经在第3章中看到的,正态分布在现实世界中收集的数据中是常见的,中心极限定理给了我们一些关于为什么会发生这种情况的见解。
首先,我们来简单介绍一下正态分布。它也被称为*高斯*分布,以卡尔·弗里德里希·高斯的名字命名,这位数学家没有发明它,但在它的发展中发挥了作用。正态分布用两个参数来描述:平均值(可以认为是峰值的位置)和标准差(指定分布的宽度)。分布的钟形形状永远不会改变,只有它的位置和宽度会改变。正如我们已经在第 3 章中看到的,正态分布在现实世界中收集的数据中是常见的,中心极限定理给了我们一些关于为什么会发生这种情况的见解。
为了查看中心极限定理的作用,让我们使用NHANES数据集中的变量AlcoholYear,它是高度偏斜的,如图 [7.2](#fig:alcDist50) 的左图所示。由于没有更好的词来形容,这种分布是时髦的——而且肯定不是正态分布。现在让我们看看这个变量的均值的抽样分布。图 [7.2](#fig:alcDist50) 显示了该变量的抽样分布,通过从NHANES数据集中重复抽取50个样本并取平均值获得。尽管原始数据显然是非正态的,但抽样分布非常接近正态。
为了查看中心极限定理的作用,让我们使用 NHANES 数据集中的变量 AlcoholYear,它是高度偏斜的,如图 [7.2](#fig:alcDist50) 的左图所示。由于没有更好的词来形容,这种分布是时髦的——而且肯定不是正态分布。现在让我们看看这个变量的均值的抽样分布。图 [7.2](#fig:alcDist50) 显示了该变量的抽样分布,通过从 NHANES 数据集中重复抽取 50 个样本并取平均值获得。尽管原始数据显然是非正态的,但抽样分布非常接近正态。
![Left: Distribution of the variable AlcoholYear in the NHANES dataset, which reflects the number of days that the individual drank in a year. Right: The sampling distribution of the mean for AlcoholYear in the NHANES dataset, obtained by drawing repeated samples of size 50, in blue. The normal distribution with the same mean and standard deviation is shown in red.](img/file42.png)
7.2:左:NHANES数据集中变量AlcoholYear的分布,它反映了个人一年中饮酒的天数。右图:NHANES数据集中酒精年份平均值的抽样分布,通过绘制50个蓝色重复样本获得。具有相同平均值和标准偏差的正态分布显示为红色。
7.2:左:NHANES 数据集中变量 AlcoholYear 的分布,它反映了个人一年中饮酒的天数。右图:NHANES 数据集中酒精年份平均值的抽样分布,通过绘制 50 个蓝色重复样本获得。具有相同平均值和标准偏差的正态分布显示为红色。
中心极限定理对统计学很重要,因为它允许我们安全地假设在大多数情况下均值的抽样分布将是正态的。这意味着我们可以利用假设正态分布的统计技术,我们将在下一节中看到。它也很重要,因为它告诉我们为什么正态分布在现实世界中如此普遍;任何时候我们把许多不同的因素结合成一个单一的数字,结果很可能是一个正态分布。例如,任何成年人的身高都取决于他们的基因和经历的复杂混合;即使这些单独的贡献可能不是正态分布的,当我们将它们组合起来时,结果也是正态分布的。
......@@ -98,7 +98,7 @@
## 7.6 建议读数
* Nate Silver的《信号与噪音:为什么这么多预测失败,但有些却没有》
* Nate Silver 的《信号与噪音:为什么这么多预测失败,但有些却没有》
......@@ -21,7 +21,7 @@
3. 使用随机数执行计算
4. 合并多次重复的结果
举个例子,假设我想算出课堂测验的时间。我们将假设我们知道测验完成时间的分布是正态分布,平均值为5分钟,标准差为1分钟。考虑到这一点,我们希望所有学生在99%的时间内完成考试需要多长时间?有两种方法可以解决这个问题。第一种是用一种叫做极值统计学的数学理论来计算答案。然而,这涉及到复杂的数学。或者,我们可以使用蒙特卡罗模拟。为此,我们需要从正态分布中生成随机样本。
举个例子,假设我想算出课堂测验的时间。我们将假设我们知道测验完成时间的分布是正态分布,平均值为 5 分钟,标准差为 1 分钟。考虑到这一点,我们希望所有学生在 99%的时间内完成考试需要多长时间?有两种方法可以解决这个问题。第一种是用一种叫做极值统计学的数学理论来计算答案。然而,这涉及到复杂的数学。或者,我们可以使用蒙特卡罗模拟。为此,我们需要从正态分布中生成随机样本。
......@@ -29,7 +29,7 @@
## 8.2 统计学中的随机性
术语“随机”通常在口语中用来指奇怪或意想不到的事情,但在统计学中,该术语有一个非常具体的含义:如果一个过程不可预测,它就是*随机的*。例如,如果我掷一枚普通硬币10次,一次掷的结果值并不能为我提供任何信息来预测下一次掷的结果。重要的是要注意,某件事不可预测的事实并不一定意味着它不是确定的。例如,当我们抛硬币时,抛硬币的结果是由物理定律决定的;如果我们足够详细地了解所有的条件,我们应该能够预测翻转的结果。然而,许多因素结合在一起,使得掷硬币的结果在实践中不可预测。
术语“随机”通常在口语中用来指奇怪或意想不到的事情,但在统计学中,该术语有一个非常具体的含义:如果一个过程不可预测,它就是*随机的*。例如,如果我掷一枚普通硬币 10 次,一次掷的结果值并不能为我提供任何信息来预测下一次掷的结果。重要的是要注意,某件事不可预测的事实并不一定意味着它不是确定的。例如,当我们抛硬币时,抛硬币的结果是由物理定律决定的;如果我们足够详细地了解所有的条件,我们应该能够预测翻转的结果。然而,许多因素结合在一起,使得掷硬币的结果在实践中不可预测。
心理学家表明,人类实际上有相当糟糕的随机感。首先,我们倾向于看到不存在的模式。在极端情况下,这导致了 *pareidolia* 现象,在这种现象中,人们会在随机模式中感知熟悉的物体(例如将一朵云感知为人脸或在一片烤面包中看到圣母玛利亚)。第二,人类倾向于认为随机过程是自我修正的,这导致我们在一场概率游戏中输掉许多回合后,认为自己“应该赢”,这种现象被称为“赌徒谬误”。
......@@ -39,15 +39,15 @@
## 8.3 生成随机数
运行蒙特卡罗模拟需要我们生成随机数。产生真正的随机数(即完全不可预测的数字)只有通过物理过程才有可能,如原子衰变或掷骰子,这些过程很难获得和/或太慢而无法用于计算机模拟(尽管它们可以从 [NIST随机性信标](https://www.nist.gov/programs-projects/nist-randomness-beacon%5D)中获得)。
运行蒙特卡罗模拟需要我们生成随机数。产生真正的随机数(即完全不可预测的数字)只有通过物理过程才有可能,如原子衰变或掷骰子,这些过程很难获得和/或太慢而无法用于计算机模拟(尽管它们可以从 [NIST 随机性信标](https://www.nist.gov/programs-projects/nist-randomness-beacon%5D)中获得)。
一般来说,我们使用通过计算机算法产生的*伪随机数*,而不是真正的随机数;从很难预测的意义上来说,这些数字看起来是随机的,但实际上这一系列数字会在某个时候重复出现。例如,r中使用的随机数生成器会在<math display="inline"><semantics><mrow><msup><mn>2</mn><mn>19937</mn></msup><mo>-</mo><mn>1</mn></mrow><annotation encoding="application/x-tex">2^{19937}-1</annotation></semantics></math>数字后重复。这远远超过了宇宙历史中的秒数,我们通常认为这对于统计分析的大多数目的来说是没问题的。
一般来说,我们使用通过计算机算法产生的*伪随机数*,而不是真正的随机数;从很难预测的意义上来说,这些数字看起来是随机的,但实际上这一系列数字会在某个时候重复出现。例如,r 中使用的随机数生成器会在<math display="inline"><semantics><mrow><msup><mn>2</mn><mn>19937</mn></msup><mo>-</mo><mn>1</mn></mrow><annotation encoding="application/x-tex">2^{19937}-1</annotation></semantics></math>数字后重复。这远远超过了宇宙历史中的秒数,我们通常认为这对于统计分析的大多数目的来说是没问题的。
大多数统计软件都包括为每个主要概率分布生成随机数的功能,例如均匀分布(0到1之间的所有值相等)、正态分布和二项式分布(例如掷骰子、掷硬币)。图 [8.1](#fig:rngExamples) 显示了从均匀分布函数和正态分布函数生成的数字示例。
大多数统计软件都包括为每个主要概率分布生成随机数的功能,例如均匀分布(0 到 1 之间的所有值相等)、正态分布和二项式分布(例如掷骰子、掷硬币)。图 [8.1](#fig:rngExamples) 显示了从均匀分布函数和正态分布函数生成的数字示例。
![Examples of random numbers generated from a uniform (left) or normal (right) distribution.](img/file43.png)
图8.1:从均匀分布(左)或正态分布(右)生成的随机数示例。
8.1:从均匀分布(左)或正态分布(右)生成的随机数示例。
也可以使用分布的分位数函数为任何分布生成随机数。这是累积分布函数的倒数;分位数函数不是标识一组值的累积概率,而是标识一组累积概率的值。使用分位数函数,我们可以从均匀分布中生成随机数,然后通过分位数函数将它们映射到感兴趣的分布中。
......@@ -63,15 +63,15 @@
![Simulated finishing time distributions.](img/file44.png)
图8.2:模拟的结束时间分布。
8.2:模拟的结束时间分布。
要回答我们的问题,我们真正想知道的不是完成时间的分布是什么样的,而是每次测验的最长完成时间的分布是什么样的。为了做到这一点,我们可以模拟一个测验的结束时间,假设结束时间是正态分布的,如上所述;对于每个模拟测验,我们会记录最长的完成时间。我们大量重复这种模拟(5000次应该足够了)并记录完成次数的分布,如图 [8.3](#fig:finishTimeSim) 所示。
要回答我们的问题,我们真正想知道的不是完成时间的分布是什么样的,而是每次测验的最长完成时间的分布是什么样的。为了做到这一点,我们可以模拟一个测验的结束时间,假设结束时间是正态分布的,如上所述;对于每个模拟测验,我们会记录最长的完成时间。我们大量重复这种模拟(5000 次应该足够了)并记录完成次数的分布,如图 [8.3](#fig:finishTimeSim) 所示。
![Distribution of maximum finishing times across simulations.](img/file45.png)
图8.3:模拟中最大完成时间的分布。
8.3:模拟中最大完成时间的分布。
这表明完成时间分布的第99个百分位数为8.74,这意味着如果我们给测验那么多时间,那么每个人都应该完成99%的时间。记住我们的假设很重要,这一点很重要——如果假设是错误的,那么模拟的结果就是无用的。在这种情况下,我们假设结束时间分布正态分布,具有特定的平均值和标准偏差;如果这些假设是不正确的(它们几乎肯定是不正确的,因为运行时间很少是正态分布的),那么真实的答案可能会非常不同。
这表明完成时间分布的第 99 个百分位数为 8.74,这意味着如果我们给测验那么多时间,那么每个人都应该完成 99%的时间。记住我们的假设很重要,这一点很重要——如果假设是错误的,那么模拟的结果就是无用的。在这种情况下,我们假设结束时间分布正态分布,具有特定的平均值和标准偏差;如果这些假设是不正确的(它们几乎肯定是不正确的,因为运行时间很少是正态分布的),那么真实的答案可能会非常不同。
......@@ -85,17 +85,17 @@
### 8.5.1 计算自举
在前一章中,我们使用了均值的抽样分布知识来计算均值的标准误差。但是如果我们不能假设估计值是正态分布的,或者我们不知道它们的分布,那该怎么办呢?bootstrap的想法是使用数据本身来估计答案。这个名字来源于自力更生的想法,表达了我们没有任何外部杠杆来源,所以我们必须依赖数据本身的想法。自举法是由斯坦福大学统计系的布拉德利·埃夫隆提出的,他是世界上最有影响力的统计学家之一。
在前一章中,我们使用了均值的抽样分布知识来计算均值的标准误差。但是如果我们不能假设估计值是正态分布的,或者我们不知道它们的分布,那该怎么办呢?bootstrap 的想法是使用数据本身来估计答案。这个名字来源于自力更生的想法,表达了我们没有任何外部杠杆来源,所以我们必须依赖数据本身的想法。自举法是由斯坦福大学统计系的布拉德利·埃夫隆提出的,他是世界上最有影响力的统计学家之一。
bootstrap背后的想法是我们从实际的数据集中重复采样;重要的是,我们用替换的对*进行采样,这样同一个数据点通常会在一个样本中出现多次。然后,我们计算每个bootstrap样本的感兴趣的统计量,并使用这些估计值的分布作为我们的采样分布。在某种意义上,我们将特定的样本视为整个总体,然后用替换重复采样,以生成我们的分析样本。这使得我们的特定样本是总体的准确反映的假设,这对于较大的样本可能是合理的,但是当样本较小时可能会失效。*
bootstrap 背后的想法是我们从实际的数据集中重复采样;重要的是,我们用替换的对*进行采样,这样同一个数据点通常会在一个样本中出现多次。然后,我们计算每个 bootstrap 样本的感兴趣的统计量,并使用这些估计值的分布作为我们的采样分布。在某种意义上,我们将特定的样本视为整个总体,然后用替换重复采样,以生成我们的分析样本。这使得我们的特定样本是总体的准确反映的假设,这对于较大的样本可能是合理的,但是当样本较小时可能会失效。*
让我们从使用bootstrap估计NHANES数据集中成人身高平均值的抽样分布开始,这样我们就可以将结果与我们之前讨论的平均值的标准误差(SEM)进行比较。
让我们从使用 bootstrap 估计 NHANES 数据集中成人身高平均值的抽样分布开始,这样我们就可以将结果与我们之前讨论的平均值的标准误差(SEM)进行比较。
![An example of bootstrapping to compute the standard error of the mean adult height in the NHANES dataset. The histogram shows the distribution of means across bootstrap samples, while the red line shows the normal distribution based on the sample mean and standard deviation.](img/file46.png)
8.4:计算NHANES数据集中成人平均身高标准误差的自举示例。直方图显示了bootstrap样本的均值分布,而红线显示了基于样本均值和标准差的正态分布。
8.4:计算 NHANES 数据集中成人平均身高标准误差的自举示例。直方图显示了 bootstrap 样本的均值分布,而红线显示了基于样本均值和标准差的正态分布。
[8.4](#fig:bootstrapSEM) 显示自助样本的均值分布非常接近基于正态假设的理论估计值。我们通常不会使用bootstrap来计算均值的置信区间(因为我们通常可以假设正态分布适用于均值的抽样分布,只要我们的样本足够大),但这个示例显示了该方法如何给出与基于正态分布的标准方法大致相同的结果。在我们知道或怀疑正态分布不合适的情况下,bootstrap通常用于生成其他统计估计的标准误差。此外,在后面的章节中,你将看到我们如何使用bootstrap样本来生成样本统计中不确定性的估计。
[8.4](#fig:bootstrapSEM) 显示自助样本的均值分布非常接近基于正态假设的理论估计值。我们通常不会使用 bootstrap 来计算均值的置信区间(因为我们通常可以假设正态分布适用于均值的抽样分布,只要我们的样本足够大),但这个示例显示了该方法如何给出与基于正态分布的标准方法大致相同的结果。在我们知道或怀疑正态分布不合适的情况下,bootstrap 通常用于生成其他统计估计的标准误差。此外,在后面的章节中,你将看到我们如何使用 bootstrap 样本来生成样本统计中不确定性的估计。
......
此差异已折叠。
此差异已折叠。
此差异已折叠。
......@@ -8,7 +8,7 @@
## 12.1 示例:糖果色
比方说,我购买了一袋100颗糖果,标签上标明有1/3巧克力、1/3巧克力糖和1/3口香糖。当我数袋子里的糖果时,我们得到了下面的数字:30块巧克力,33块巧克力糖和37块口香糖球。因为比起甘草糖或口香糖,我更喜欢巧克力,所以我觉得有点被骗了,我想知道这是否只是一个偶然事件。要回答这个问题,我需要知道:如果每种糖果类型的真实概率是每种糖果的1/3的平均比例,那么计数结果是这样的可能性有多大?
比方说,我购买了一袋 100 颗糖果,标签上标明有 1/3 巧克力、1/3 巧克力糖和 1/3 口香糖。当我数袋子里的糖果时,我们得到了下面的数字:30 块巧克力,33 块巧克力糖和 37 块口香糖球。因为比起甘草糖或口香糖,我更喜欢巧克力,所以我觉得有点被骗了,我想知道这是否只是一个偶然事件。要回答这个问题,我需要知道:如果每种糖果类型的真实概率是每种糖果的 1/3 的平均比例,那么计数结果是这样的可能性有多大?
......@@ -16,28 +16,28 @@
## 12.2 皮尔森卡方检验
Pearson卡方检验为我们提供了一种方法来检验一组观察计数是否不同于定义零假设的某些特定期望值:
Pearson 卡方检验为我们提供了一种方法来检验一组观察计数是否不同于定义零假设的某些特定期望值:
<semantics><mrow><mo>=</mo> <msub><mi><mi>【I】</mi></mi></msub><mo stretchy="true" form="postfix">)</mo></mrow><mrow><mi></mi></mrow></semantics>
在我们的糖果例子中,零假设是每种糖果的比例相等。为了计算卡方统计量,我们首先需要在零假设下得出我们的预期计数:因为零假设是它们都是相同的,那么这就是跨三个类别的总计数(如表 [12.1](#tab:candyDf) 所示)。然后,我们取每个计数与其在零假设下的期望值之间的差,将它们平方,除以零期望值,然后将它们相加,得到卡方统计量。
<caption>Table 12.1: Observed counts, expectations under the null hypothesis, and squared differences in the candy data</caption>
| 糖果型 | 数数 | null期望 | 平方差 |
| 糖果型 | 数数 | null 期望 | 平方差 |
| --- | --- | --- | --- |
| 巧克力 | Thirty | Thirty-three | Eleven point one one |
| 欧亚甘草 | Thirty-three | Thirty-three | Zero point one one |
| 球形口香糖 | Thirty-seven | Thirty-three | Thirteen point four four |
此分析的卡方统计结果为0.74,这本身是不可解释的,因为它取决于不同值相加的数量。但是,我们可以利用卡方统计量是根据零假设下的特定分布分布的这一事实,这种分布称为*卡方*分布。这个分布被定义为一组标准正态随机变量的平方和;它的自由度数量等于变量相加的数量。分布的形状取决于自由度的数量。图 [12.1](#fig:chisqDist) 的左图显示了几个不同自由度的分布示例。
此分析的卡方统计结果为 0.74,这本身是不可解释的,因为它取决于不同值相加的数量。但是,我们可以利用卡方统计量是根据零假设下的特定分布分布的这一事实,这种分布称为*卡方*分布。这个分布被定义为一组标准正态随机变量的平方和;它的自由度数量等于变量相加的数量。分布的形状取决于自由度的数量。图 [12.1](#fig:chisqDist) 的左图显示了几个不同自由度的分布示例。
![Left: Examples of the chi-squared distribution for various degrees of freedom. Right: Simulation of sum of squared random normal variables. The histogram is based on the sum of squares of 50,000 sets of 8 random normal variables; the dotted line shows the values of the theoretical chi-squared distribution with 8 degrees of freedom.](img/file66.png)
12.1:左图:不同自由度的卡方分布示例。右图:随机正态变量平方和的模拟。直方图基于5万组8个随机正态变量的平方和;虚线显示了具有8个自由度的理论卡方分布的值。
12.1:左图:不同自由度的卡方分布示例。右图:随机正态变量平方和的模拟。直方图基于 5 万组 8 个随机正态变量的平方和;虚线显示了具有 8 个自由度的理论卡方分布的值。
让我们使用模拟来验证卡方分布是否准确描述了一组标准正态随机变量的平方和。为了做到这一点,我们反复抽取8个随机数的集合,并在平方每个值后将每个集合相加。图 [12.1](#fig:chisqDist) 的右图显示,理论分布与一组随机正态变量的平方反复相加的模拟结果非常匹配。
让我们使用模拟来验证卡方分布是否准确描述了一组标准正态随机变量的平方和。为了做到这一点,我们反复抽取 8 个随机数的集合,并在平方每个值后将每个集合相加。图 [12.1](#fig:chisqDist) 的右图显示,理论分布与一组随机正态变量的平方反复相加的模拟结果非常匹配。
以糖果为例,在所有糖果频率相等的零假设下,我们可以计算观察到的卡方值为0.74的可能性。我们使用自由度等于k - 1(其中k =类别数)的卡方分布,因为我们在计算平均值以生成期望值时损失了一个自由度。得到的P值(P(卡方)> 0.74 = 0.691)表明,根据糖果袋上印刷的比例,观察到的糖果数量并不特别令人惊讶,我们不会拒绝相等比例的无效假设。
以糖果为例,在所有糖果频率相等的零假设下,我们可以计算观察到的卡方值为 0.74 的可能性。我们使用自由度等于 k - 1(其中 k =类别数)的卡方分布,因为我们在计算平均值以生成期望值时损失了一个自由度。得到的 P 值(P(卡方)> 0.74 = 0.691)表明,根据糖果袋上印刷的比例,观察到的糖果数量并不特别令人惊讶,我们不会拒绝相等比例的无效假设。
......@@ -55,7 +55,7 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是
| 错误的 | Thirty-six thousand two hundred and forty-four | Two hundred and thirty-nine thousand two hundred and forty-one | Zero point one three | Zero point eight six |
| 真实的 | One thousand two hundred and nineteen | Three thousand one hundred and eight | Zero | Zero point zero one |
皮尔逊卡方检验允许我们测试观察到的频率是否与预期的频率不同,因此我们需要确定如果搜索和种族不相关,我们在每个细胞中预期的频率是多少——我们可以定义为*独立。*记住概率一章,如果X和Y是独立的,那么:
皮尔逊卡方检验允许我们测试观察到的频率是否与预期的频率不同,因此我们需要确定如果搜索和种族不相关,我们在每个细胞中预期的频率是多少——我们可以定义为*独立。*记住概率一章,如果 X 和 Y 是独立的,那么:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi>X</mi><mi>Y</mi><mo stretchy="true" form="postfix">)</mo></mrow><mo>=</mo><mi>P</mi><mrow><mo stretchy="true" form="prefix">(</mo><mi><mo stretchy="true" form="postfix">)</mo></mi></mrow><mo>*</mo><mi>P</mi><mrow><mrow><mo stretchy="true" form="prefix">边际概率就是不管其他事件如何,每个事件发生的概率。我们可以计算出那些边际概率,然后把它们相乘得到独立情况下的期望比例。</mo></mrow></mrow></mrow></semantics></math>
......@@ -65,7 +65,7 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是
| 搜查 | P(S)*P(B) | P(S)*P(W) | P(S) |
| | P(B) | P(W) | |
然后,我们计算卡方统计,得出828.3。要计算p值,我们需要将其与零卡方分布进行比较,以确定我们的卡方值与零假设下的预期值相比有多极端。这种分布的自由度是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>d</mi><mi>f</mi><mo>=</mo><mrow><mo stretchy="true" form="prefix">(</mo><mi>n</mi><mi>R</mi><mi>o</mi><mi>w</mi><mi>s</mi><mn>1</mn></mrow><mo>*</mo> <mrow><mo stretchy="true" form="prefix">(</mo><mi>n</mi><mi>C</mi><mi>o</mi><mi>l</mi><mi>u</mi><mi>m</mi><mi>n</mi><mi>s</mi><mo>-</mo></mrow><annotation encoding="application/x-tex">df =(nRows-1)*(nColumns-1) <math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>d</mi><mi>f</mi><mo>=</mo><mrow><mo stretchy="true" form="prefix">(</mo><mn>2</mn><mo></mo>—T78】1</mrow><mo>*</mo><mrow><mo stretchy="true" form="prefix">(</mo><mn>2</mn> 这里的直觉是,计算预期频率需要我们使用三个值:观察的总数和两个变量的边际概率。因此,一旦计算出这些值,只有一个数字可以自由变化,因此有一个自由度。考虑到这一点,我们可以计算卡方统计的p值,它几乎接近于零:<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mn>3.79</mn><mo>×</mo><msup><mn>10</mn><mrow><mo></mo><mn>182</mn></mrow></msup></mrow><annotation encoding="application/x-tex">3.79 \次10^{-182}<annotation encoding="application/x-tex">这表明,如果种族和警察搜查之间真的没有关系,观察到的数据将是极不可能的,因此我们应该拒绝独立性的零假设。</annotation></annotation></semantics></math></mrow></mrow></semantics></math></annotation></mrow></semantics></math>
然后,我们计算卡方统计,得出 828.3。要计算 p 值,我们需要将其与零卡方分布进行比较,以确定我们的卡方值与零假设下的预期值相比有多极端。这种分布的自由度是<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>d</mi><mi>f</mi><mo>=</mo><mrow><mo stretchy="true" form="prefix">(</mo><mi>n</mi><mi>R</mi><mi>o</mi><mi>w</mi><mi>s</mi><mn>1</mn></mrow><mo>*</mo> <mrow><mo stretchy="true" form="prefix">(</mo><mi>n</mi><mi>C</mi><mi>o</mi><mi>l</mi><mi>u</mi><mi>m</mi><mi>n</mi><mi>s</mi><mo>-</mo></mrow><annotation encoding="application/x-tex">df =(nRows-1)*(nColumns-1) <math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mi>d</mi><mi>f</mi><mo>=</mo><mrow><mo stretchy="true" form="prefix">(</mo><mn>2</mn><mo></mo>—T78】1</mrow><mo>*</mo><mrow><mo stretchy="true" form="prefix">(</mo><mn>2</mn> 这里的直觉是,计算预期频率需要我们使用三个值:观察的总数和两个变量的边际概率。因此,一旦计算出这些值,只有一个数字可以自由变化,因此有一个自由度。考虑到这一点,我们可以计算卡方统计的 p 值,它几乎接近于零:<math xmlns:epub="http://www.idpf.org/2007/ops" display="inline"><semantics><mrow><mn>3.79</mn><mo>×</mo><msup><mn>10</mn><mrow><mo></mo><mn>182</mn></mrow></msup></mrow><annotation encoding="application/x-tex">3.79 \次 10^{-182}<annotation encoding="application/x-tex">这表明,如果种族和警察搜查之间真的没有关系,观察到的数据将是极不可能的,因此我们应该拒绝独立性的零假设。</annotation></annotation></semantics></math></mrow></mrow></semantics></math></annotation></mrow></semantics></math>
我们还可以使用我们的统计软件轻松执行该测试:
......@@ -85,12 +85,12 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是
当我们发现卡方检验有显著影响时,这告诉我们数据在零假设下不太可能,但它没有告诉我们*数据如何*不同。为了更深入地了解数据与我们在零假设下的预期有何不同,我们可以检查模型的残差,它反映了每个像元中数据(即观察到的频率)与模型(即预期的频率)的偏差。与其查看原始残差(其变化仅取决于数据中的观测值数量),不如查看*标准化残差*(有时也称为*皮尔逊残差*),其计算方法如下:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>s</mi><mi>t</mi><mi>a</mi><mi>n</mi><mi>d</mi><mi>a</mi><mi>r</mi><mi>d</mi><mi>I</mi><mi>z</mi><mi>e</mi><mi>d</mi>r<mi>e</mi><mi>s</mi> <mi>b</mi><mi>s</mi><mi>e</mi><mi>r</mi><mi>v</mi><mi>e</mi><msub><mi>d</mi><mrow><mi>I</mi><mi>j</mi></mrow></msub><mi>e</mi> <mi><mi>e</mi><mi>c</mi><mi>t</mi><mi>e</mi><msub><mi>d</mi><mrow><mi>I</mi><mi>j</mi></mrow></msub></mi></mrow><annotation encoding="application/x-tex">标准化\残差_{ij} = \frac{observed_{ij} -预期</annotation></semantics></math>
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>s</mi><mi>t</mi><mi>a</mi><mi>n</mi><mi>d</mi><mi>a</mi><mi>r</mi><mi>d</mi><mi>I</mi><mi>z</mi><mi>e</mi><mi>d</mi>r<mi>e</mi><mi>s</mi> <mi>b</mi><mi>s</mi><mi>e</mi><mi>r</mi><mi>v</mi><mi>e</mi><msub><mi>d</mi><mrow><mi>I</mi><mi>j</mi></mrow></msub><mi>e</mi> <mi><mi>e</mi><mi>c</mi><mi>t</mi><mi>e</mi><msub><mi>d</mi><mrow><mi>I</mi><mi>j</mi></mrow></msub></mi></mrow><annotation encoding="application/x-tex">标准化\残 _{ij} = \frac{observed_{ij} -预期</annotation></semantics></math>
[12.3](#tab:stdRes) 显示了这些警察停车数据。这些标准化的残差可以解释为Z分数——在这种情况下,我们看到黑人个体的搜索次数大大高于基于独立性的预期,白人个体的搜索次数大大低于预期。这为我们提供了解释显著的卡方检验结果所需的背景。
[12.3](#tab:stdRes) 显示了这些警察停车数据。这些标准化的残差可以解释为 Z 分数——在这种情况下,我们看到黑人个体的搜索次数大大高于基于独立性的预期,白人个体的搜索次数大大低于预期。这为我们提供了解释显著的卡方检验结果所需的背景。
<caption>Table 12.3: Summary of standardized residuals for police stop data</caption>
| 搜查 | 车手_比赛 | 标准化残差 |
| 搜查 | 车手 _ 比赛 | 标准化残差 |
| --- | --- | --- |
| 错误的 | 黑色 | -3.3 |
| 真实的 | 黑色 | Twenty-six point six |
......@@ -109,7 +109,7 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是
<semantics><mrow><mi></mi><mi><mi><msub><mi><mi><mi>【h】<mi><mi>【我】</mi></mi><mi><mo>=</mo></mi><mi><mspace width="0.222em"><mi>【s】</mi>【e】</mspace></mi><mi>【a】</mi>【r】</mi><mi>【c】</mi> 已搜索\ cap white } } = \ frac { 3108 } { 239241 } = 0.013<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mi><mi><mi><mi><mi>【T1148】</mi> <mi>【b】</mi><mi>【l】</mi><mi>【a】</mi>【c】</mi><mi>【k】</mi></mi></mi></mi></semantics></math></mi></mi></msub></mi></mi></mrow></semantics>
根据这个数据集,赔率显示,黑人司机被搜索的几率是白人司机的2.59倍。
根据这个数据集,赔率显示,黑人司机被搜索的几率是白人司机的 2.59 倍。
......@@ -136,11 +136,11 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是
## 12.7 超出2 X 2表格的分类分析
## 12.7 超出 2 X 2 表格的分类分析
类别分析也可以应用于列联表,其中每个变量有两个以上的类别。
例如,让我们看看NHANES的数据,并比较变量*抑郁*,它表示“参与者自我报告的感到情绪低落、抑郁或绝望的天数”。该变量编码为`None``Several``Most`。让我们来测试这个变量是否与 *SleepTrouble* 变量相关,后者表示个人是否向医生报告了睡眠问题。
例如,让我们看看 NHANES 的数据,并比较变量*抑郁*,它表示“参与者自我报告的感到情绪低落、抑郁或绝望的天数”。该变量编码为`None``Several``Most`。让我们来测试这个变量是否与 *SleepTrouble* 变量相关,后者表示个人是否向医生报告了睡眠问题。
<caption>Table 12.4: Relationship between depression and sleep problems in the NHANES dataset</caption>
| 沮丧的 | 无睡眠问题 | 是睡眠问题 |
......@@ -180,7 +180,7 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是
## 当心辛普森悖论
上面给出的列联表代表了大量观察结果的汇总,但汇总有时会产生误导。让我们举一个棒球的例子。下表显示了德瑞克·基特和大卫·贾斯蒂斯在1995-1997年间的击球数据(击球次数和平均击球率):
上面给出的列联表代表了大量观察结果的汇总,但汇总有时会产生误导。让我们举一个棒球的例子。下表显示了德瑞克·基特和大卫·贾斯蒂斯在 1995-1997 年间的击球数据(击球次数和平均击球率):
<colgroup><col style="width: 12%"> <col style="width: 12%"> <col style="width: 8%"> <col style="width: 12%"> <col style="width: 8%"> <col style="width: 12%"> <col style="width: 8%"> <col style="width: 14%"> <col style="width: 8%"></colgroup>
| 运动员 | One thousand nine hundred and ninety-five | | One thousand nine hundred and ninety-six | | One thousand nine hundred and ninety-seven | | 结合的 | |
......@@ -188,7 +188,7 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是
| 德瑞克·基特 | 12/48 | .250 | 183/582 | .314 | 190/654 | .291 | 385/1284 | **.300** |
| 大卫·贾斯蒂斯 | 104/411 | **.253** | 45/140 | **.321** | 163/495 | **.329** | 312/1046 | .298 |
如果你仔细观察,你会发现一些奇怪的事情正在发生:在每一年,正义的平均打击率都比杰特高,但当我们把三年的数据结合起来,杰特的平均打击率实际上比正义的高!这是一个被称为*辛普森悖论*的现象的例子,在这种现象中,出现在组合数据集中的模式可能不会出现在任何数据子集中。当另一个变量可能在不同的子集之间发生变化时,就会出现这种情况——在这种情况下,击球次数会随着年份的变化而变化,正义在1995年击球次数要多得多(当时击球率很低)。我们称之为*潜伏变量*,每当我们检查分类数据时,关注这些变量总是很重要的。
如果你仔细观察,你会发现一些奇怪的事情正在发生:在每一年,正义的平均打击率都比杰特高,但当我们把三年的数据结合起来,杰特的平均打击率实际上比正义的高!这是一个被称为*辛普森悖论*的现象的例子,在这种现象中,出现在组合数据集中的模式可能不会出现在任何数据子集中。当另一个变量可能在不同的子集之间发生变化时,就会出现这种情况——在这种情况下,击球次数会随着年份的变化而变化,正义在 1995 年击球次数要多得多(当时击球率很低)。我们称之为*潜伏变量*,每当我们检查分类数据时,关注这些变量总是很重要的。
......
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册