From dd4a72b24c762803e17bd06f0e164c4b98d1ddd2 Mon Sep 17 00:00:00 2001 From: wizardforcel <562826179@qq.com> Date: Fri, 8 Jul 2022 12:39:49 +0800 Subject: [PATCH] 2022-07-08 12:39:49 --- docs/00.md | 24 +++++----- docs/01.md | 24 +++++----- docs/02.md | 20 ++++---- docs/03.md | 54 +++++++++++----------- docs/04.md | 72 ++++++++++++++--------------- docs/05.md | 116 +++++++++++++++++++++++----------------------- docs/06.md | 108 +++++++++++++++++++++---------------------- docs/07.md | 26 +++++------ docs/08.md | 30 ++++++------ docs/09.md | 132 ++++++++++++++++++++++++++--------------------------- docs/10.md | 80 ++++++++++++++++---------------- docs/11.md | 96 +++++++++++++++++++------------------- docs/12.md | 34 +++++++------- docs/13.md | 46 +++++++++---------- docs/14.md | 74 +++++++++++++++--------------- docs/15.md | 78 +++++++++++++++---------------- docs/16.md | 98 +++++++++++++++++++-------------------- docs/17.md | 38 +++++++-------- docs/18.md | 90 ++++++++++++++++++------------------ 19 files changed, 620 insertions(+), 620 deletions(-) diff --git a/docs/00.md b/docs/00.md index 643a9dc..2d09d45 100644 --- a/docs/00.md +++ b/docs/00.md @@ -2,17 +2,17 @@ # 前言 -这本书的目标是讲述统计的故事,因为它今天被全世界的研究人员使用。这与大多数统计学入门书籍讲述的故事不同,后者侧重于教授如何使用一套工具来实现非常具体的目标。这本书侧重于理解*统计思维*的基本思想——一种关于我们如何描述世界和使用数据做出决策和预测的系统思维方式,所有这些都是在现实世界中存在的固有不确定性的背景下进行的。它还带来了当前的方法,这些方法只有在过去几十年计算能力惊人增长的情况下才变得可行。在20世纪50年代可能需要几年时间的分析现在可以在标准的笔记本电脑上几秒钟内完成,这种能力释放了使用计算机模拟以新的和强大的方式提出问题的能力。 +这本书的目标是讲述统计的故事,因为它今天被全世界的研究人员使用。这与大多数统计学入门书籍讲述的故事不同,后者侧重于教授如何使用一套工具来实现非常具体的目标。这本书侧重于理解*统计思维*的基本思想——一种关于我们如何描述世界和使用数据做出决策和预测的系统思维方式,所有这些都是在现实世界中存在的固有不确定性的背景下进行的。它还带来了当前的方法,这些方法只有在过去几十年计算能力惊人增长的情况下才变得可行。在 20 世纪 50 年代可能需要几年时间的分析现在可以在标准的笔记本电脑上几秒钟内完成,这种能力释放了使用计算机模拟以新的和强大的方式提出问题的能力。 -这本书也是在自2010年以来席卷许多科学领域的再现性危机之后写的。这场危机的一个重要根源在于研究人员使用(和滥用)统计假设检验的方式(正如我在本书最后一章详述的那样),这与统计教育直接相关。因此,这本书的一个目标是强调当前的统计方法可能有问题的方式,并提出替代方案。 +这本书也是在自 2010 年以来席卷许多科学领域的再现性危机之后写的。这场危机的一个重要根源在于研究人员使用(和滥用)统计假设检验的方式(正如我在本书最后一章详述的那样),这与统计教育直接相关。因此,这本书的一个目标是强调当前的统计方法可能有问题的方式,并提出替代方案。 ## 0.1 这本书为什么会存在? -2018年,我开始在斯坦福大学教授本科统计学课程(Psych 10/Stats 60)。我以前从未教过统计学,这是一个改变现状的机会。我对心理学本科统计教育越来越不满意,我想给班级带来一些新的想法和方法。特别是,我想利用在21世纪的实际统计实践中日益广泛使用的方法。正如Brad Efron和Trevor Hastie在他们的书《计算机时代的统计推断:算法、证据和数据科学》中所描述的那样,这些方法利用了当今日益增长的计算能力来解决统计问题,远远超出了通常在心理学学生的本科统计学课程中教授的更标准的方法。 +2018 年,我开始在斯坦福大学教授本科统计学课程(Psych 10/Stats 60)。我以前从未教过统计学,这是一个改变现状的机会。我对心理学本科统计教育越来越不满意,我想给班级带来一些新的想法和方法。特别是,我想利用在 21 世纪的实际统计实践中日益广泛使用的方法。正如 Brad Efron 和 Trevor Hastie 在他们的书《计算机时代的统计推断:算法、证据和数据科学》中所描述的那样,这些方法利用了当今日益增长的计算能力来解决统计问题,远远超出了通常在心理学学生的本科统计学课程中教授的更标准的方法。 -我教这门课的第一年,我使用了安迪·菲尔德令人惊叹的图形小说《统计学的冒险》作为教材。这本书有很多地方是我非常喜欢的——特别是,我喜欢它围绕模型的构建来构建统计实践的方式,并且非常谨慎地对待零假设检验。不幸的是,我的许多学生不喜欢这本书(除了英语专业的学生,他们喜欢这本书!),主要是因为它涉及涉水通过大量的故事,以获得统计知识。我还发现它不够全面,因为有许多主题(特别是那些来自人工智能新兴领域的主题,被称为*机器学习*)我想包括在内,但没有在他的书中讨论。我最终觉得,学生们最好读一本与我的讲座紧密相关的书,所以我开始把我的讲座写在一套计算笔记本上,这些笔记本最终成为了这本书。这本书的大纲大致遵循菲尔德的书,因为讲座最初在很大程度上是基于那本书的流程,但内容是本质上不同的(几乎可以肯定的是,少得多的乐趣和聪明)。我还为我们在斯坦福使用的10周季度系统量身定制了这本书,这比大多数统计教科书建立的16周学期提供的时间更少。 +我教这门课的第一年,我使用了安迪·菲尔德令人惊叹的图形小说《统计学的冒险》作为教材。这本书有很多地方是我非常喜欢的——特别是,我喜欢它围绕模型的构建来构建统计实践的方式,并且非常谨慎地对待零假设检验。不幸的是,我的许多学生不喜欢这本书(除了英语专业的学生,他们喜欢这本书!),主要是因为它涉及涉水通过大量的故事,以获得统计知识。我还发现它不够全面,因为有许多主题(特别是那些来自人工智能新兴领域的主题,被称为*机器学习*)我想包括在内,但没有在他的书中讨论。我最终觉得,学生们最好读一本与我的讲座紧密相关的书,所以我开始把我的讲座写在一套计算笔记本上,这些笔记本最终成为了这本书。这本书的大纲大致遵循菲尔德的书,因为讲座最初在很大程度上是基于那本书的流程,但内容是本质上不同的(几乎可以肯定的是,少得多的乐趣和聪明)。我还为我们在斯坦福使用的 10 周季度系统量身定制了这本书,这比大多数统计教科书建立的 16 周学期提供的时间更少。 @@ -22,7 +22,7 @@ 在本书中,我尽可能使用真实数据中的例子。这现在非常容易,因为我们正在开放的数据集中游泳,因为政府、科学家和公司越来越多地免费提供数据。我认为使用真实数据集很重要,因为它让学生准备好使用真实数据而不是玩具数据集,我认为这应该是统计培训的主要目标之一。它还帮助我们认识到(正如我们将在整本书的不同地方看到的),数据并不总是随时可供我们分析,通常需要*争论*来帮助它们成形。使用真实数据还表明,统计方法中经常假设的理想化统计分布在现实世界中并不总是成立的——例如,正如我们将在第 [3](#summarizing-data) 章中看到的,一些现实世界数量的分布(如脸书上的朋友数量)可能有非常长的尾部,可以打破许多标准假设。 -我首先道歉,数据集严重以美国为中心。这主要是因为许多演示的最佳数据集是作为R包提供的国家健康和营养检查调查(NHANES)数据集,还因为R包中包含的许多其他复杂数据集(如`fivethirtyeight`包中的数据集)也位于美国。如果你对其他地区的数据集有什么建议,请告诉我! +我首先道歉,数据集严重以美国为中心。这主要是因为许多演示的最佳数据集是作为 R 包提供的国家健康和营养检查调查(NHANES)数据集,还因为 R 包中包含的许多其他复杂数据集(如`fivethirtyeight`包中的数据集)也位于美国。如果你对其他地区的数据集有什么建议,请告诉我! @@ -30,9 +30,9 @@ ## 0.3 做统计的重要性 -真正学好统计学的唯一方法就是*做*统计。虽然历史上许多统计课程是使用点击式统计软件教授的,但统计教育越来越多地使用开源语言,学生可以用这些语言编写自己的分析。我认为,能够对自己的分析进行编码对于深入理解统计分析是至关重要的,这就是为什么我在斯坦福大学的课程中的学生除了从本书中学到的理论知识之外,还应该学习使用R统计编程语言来分析数据。 +真正学好统计学的唯一方法就是*做*统计。虽然历史上许多统计课程是使用点击式统计软件教授的,但统计教育越来越多地使用开源语言,学生可以用这些语言编写自己的分析。我认为,能够对自己的分析进行编码对于深入理解统计分析是至关重要的,这就是为什么我在斯坦福大学的课程中的学生除了从本书中学到的理论知识之外,还应该学习使用 R 统计编程语言来分析数据。 -这本教科书有两个在线伙伴,可以帮助读者开始学习编程;[一个专注于R编程语言](https://statsthinking21.github.io/statsthinking21-R-site/),[另一个专注于Python语言](https://statsthinking21.github.io/statsthinking21-python/)。两者都是目前正在进行中的工作-请随时贡献! +这本教科书有两个在线伙伴,可以帮助读者开始学习编程;[一个专注于 R 编程语言](https://statsthinking21.github.io/statsthinking21-R-site/),[另一个专注于 Python 语言](https://statsthinking21.github.io/statsthinking21-python/)。两者都是目前正在进行中的工作-请随时贡献! @@ -40,9 +40,9 @@ ## 0.4 一本开源的书 -这本书旨在成为一份活的文件,这也是为什么它的来源可以在https://github.com/statsthinking21/statsthinking21-core网上找到。如果您发现书中有任何错误,或者想提出如何改进的建议,请在Github网站上发表。更好的是,提交一个包含您建议的更改的拉请求。 +这本书旨在成为一份活的文件,这也是为什么它的来源可以在 https://github.com/statsthinking21/statsthinking21-core 网上找到。如果您发现书中有任何错误,或者想提出如何改进的建议,请在 Github 网站上发表。更好的是,提交一个包含您建议的更改的拉请求。 -这本书是根据[知识共享署名-非商业性2.0通用(CC BY-NC 2.0)许可](https://creativecommons.org/licenses/by-nc/2.0/)授权的。有关详细信息,请参阅该许可的条款。 +这本书是根据[知识共享署名-非商业性 2.0 通用(CC BY-NC 2.0)许可](https://creativecommons.org/licenses/by-nc/2.0/)授权的。有关详细信息,请参阅该许可的条款。 @@ -50,15 +50,15 @@ ## 0.5 致谢 -我首先要感谢苏珊·霍尔曼,是他第一次激励我考虑写一本自己的统计学书籍。Anna Khazenzon提供了早期的评论和灵感。Lucy King对整本书提供了详细的评论和编辑,并帮助清理代码,使其与Tidyverse保持一致。迈克尔·亨利·特斯勒在贝叶斯分析一章中提供了非常有用的评论。还要特别感谢Bookdown软件包的创建者Yihui Xie,他改进了Bookdown功能的使用(包括用户通过编辑按钮直接生成编辑内容的能力)。最后,珍妮特·芒福德为整本书提供了非常有用的建议。 +我首先要感谢苏珊·霍尔曼,是他第一次激励我考虑写一本自己的统计学书籍。Anna Khazenzon 提供了早期的评论和灵感。Lucy King 对整本书提供了详细的评论和编辑,并帮助清理代码,使其与 Tidyverse 保持一致。迈克尔·亨利·特斯勒在贝叶斯分析一章中提供了非常有用的评论。还要特别感谢 Bookdown 软件包的创建者 Yihui Xie,他改进了 Bookdown 功能的使用(包括用户通过编辑按钮直接生成编辑内容的能力)。最后,珍妮特·芒福德为整本书提供了非常有用的建议。 我还要感谢提供了有益的意见和建议的其他人:Athanassios Protopapas,Wesley Tansey,Jack Van Horn,Thor Aspelund。 感谢以下推特用户的有益建议:@enoriverbend -感谢通过Github或电子邮件提供编辑或问题的以下个人:Isis Anderson、Larissa Bersh、Isil Bilgin、Forrest Dollins、Gao、Nate Guimond、Alan He、吴、、Dan Kessler、Philipp Kuhnke、Leila Madeleine、Lee Matos、Ryan McCormick、Jarod Meng、Kirsten Mettler、Shanaathanan Modchalingam、Martijn Stegeman、Mehdi Rahim、Jassary Rico-Herrera、Mingquian Tan、Tao、Laura Tobar、Albane +感谢通过 Github 或电子邮件提供编辑或问题的以下个人:Isis Anderson、Larissa Bersh、Isil Bilgin、Forrest Dollins、Gao、Nate Guimond、Alan He、吴、、Dan Kessler、Philipp Kuhnke、Leila Madeleine、Lee Matos、Ryan McCormick、Jarod Meng、Kirsten Mettler、Shanaathanan Modchalingam、Martijn Stegeman、Mehdi Rahim、Jassary Rico-Herrera、Mingquian Tan、Tao、Laura Tobar、Albane -特别感谢Isil Bilgin帮助修复了其中的许多问题。 +特别感谢 Isil Bilgin 帮助修复了其中的许多问题。 diff --git a/docs/01.md b/docs/01.md index d8f1e33..18c98b2 100644 --- a/docs/01.md +++ b/docs/01.md @@ -10,7 +10,7 @@ 统计思维是一种理解复杂世界的方式,它用相对简单的术语描述复杂的世界,但仍能捕捉到其结构或功能的基本方面,并让我们知道我们对这些知识有多不确定。统计思维的基础主要来自数学和统计学,但也来自计算机科学、心理学和其他研究领域。 -我们可以将统计思维与其他不太可能准确描述世界的思维形式区分开来。特别是,人类的直觉经常试图回答我们使用统计思维可以回答的相同问题,但经常得到错误的答案。例如,近年来大多数美国人报告说,他们认为暴力犯罪比前一年更严重。然而,对实际犯罪数据的统计分析表明,事实上自20世纪90年代以来,暴力犯罪已经稳步*下降*。直觉让我们失望,因为我们依赖最佳猜测(心理学家称之为*试探法*),而这往往会出错。例如,人类经常使用*可用性试探法*来判断某个事件(如暴力犯罪)的流行程度——也就是说,我们可以多么容易地想到一个暴力犯罪的例子。由于这个原因,我们对犯罪率上升的判断可能更多地反映了新闻报道的增加,尽管犯罪率实际上是下降了。统计思维为我们提供了更准确地理解世界和克服人类判断偏见的工具 +我们可以将统计思维与其他不太可能准确描述世界的思维形式区分开来。特别是,人类的直觉经常试图回答我们使用统计思维可以回答的相同问题,但经常得到错误的答案。例如,近年来大多数美国人报告说,他们认为暴力犯罪比前一年更严重。然而,对实际犯罪数据的统计分析表明,事实上自 20 世纪 90 年代以来,暴力犯罪已经稳步*下降*。直觉让我们失望,因为我们依赖最佳猜测(心理学家称之为*试探法*),而这往往会出错。例如,人类经常使用*可用性试探法*来判断某个事件(如暴力犯罪)的流行程度——也就是说,我们可以多么容易地想到一个暴力犯罪的例子。由于这个原因,我们对犯罪率上升的判断可能更多地反映了新闻报道的增加,尽管犯罪率实际上是下降了。统计思维为我们提供了更准确地理解世界和克服人类判断偏见的工具 @@ -18,7 +18,7 @@ ## 1.2 应对统计焦虑 -许多人带着许多恐惧和焦虑来到他们的第一堂统计学课,尤其是当他们听说为了分析数据他们还必须学习编码时。在我的课堂上,我在第一节课之前给学生做了一个调查,以测量他们对统计数据的态度,要求他们按照1(非常不同意)到7(非常同意)的等级对一些陈述进行评级。调查中有一项是“一想到要参加统计学课程,我就紧张”。在最近的一堂课上,几乎三分之二的学生给出了五分或更高的答案,大约四分之一的学生表示他们非常赞同这一说法。所以如果你对开始学习统计学感到紧张,你并不孤单。 +许多人带着许多恐惧和焦虑来到他们的第一堂统计学课,尤其是当他们听说为了分析数据他们还必须学习编码时。在我的课堂上,我在第一节课之前给学生做了一个调查,以测量他们对统计数据的态度,要求他们按照 1(非常不同意)到 7(非常同意)的等级对一些陈述进行评级。调查中有一项是“一想到要参加统计学课程,我就紧张”。在最近的一堂课上,几乎三分之二的学生给出了五分或更高的答案,大约四分之一的学生表示他们非常赞同这一说法。所以如果你对开始学习统计学感到紧张,你并不孤单。 焦虑让人感觉不舒服,但心理学告诉我们,这种情绪唤醒实际上可以通过集中我们的注意力,帮助我们在许多任务上做得更好。因此,如果你开始对本书中的内容感到焦虑,提醒自己许多其他读者也有类似的感觉,这种情绪激发实际上可以帮助你更好地学习材料(即使看起来不像!). @@ -41,17 +41,17 @@ 我们回答这个问题的另一种方式是听权威人士的意见。美国美国食品药品监督管理局的膳食指南将“健康的饮食模式限制饱和脂肪”作为其主要建议之一。你可能希望这些指南基于良好的科学,在某些情况下确实如此,但正如尼娜·泰科尔兹在她的书《大惊喜》中概述的那样,这一建议似乎更多地基于营养研究人员的长期教条,而不是实际证据。 -最后,我们可以看看实际的科学研究。让我们先来看看一项名为PURE study的大型研究,该研究调查了来自18个不同国家的13.5万多人的饮食和健康结果(包括死亡)。在对这个数据集的分析之一中(发表于2017年*The Lancet*; Dehghan等人( [2017](ch020.xhtml#ref-dehg:ment:zhan:2017) ) ),纯粹的调查者报告了一项分析,分析了在人们被跟踪的时间内,各种类型的宏量营养素(包括饱和脂肪和碳水化合物)的摄入与死亡可能性之间的关系。人们被随访的中位时间为7.4年,这意味着研究中一半的人被随访的时间更短,另一半被随访超过7.4年。图 [1.1](#fig:PureDeathSatFat) 绘制了该研究的一些数据(摘自论文),显示了饱和脂肪和碳水化合物的摄入与任何原因导致的死亡风险之间的关系。 +最后,我们可以看看实际的科学研究。让我们先来看看一项名为 PURE study 的大型研究,该研究调查了来自 18 个不同国家的 13.5 万多人的饮食和健康结果(包括死亡)。在对这个数据集的分析之一中(发表于 2017 年*The Lancet*; Dehghan 等人( [2017](ch020.xhtml#ref-dehg:ment:zhan:2017) ) ),纯粹的调查者报告了一项分析,分析了在人们被跟踪的时间内,各种类型的宏量营养素(包括饱和脂肪和碳水化合物)的摄入与死亡可能性之间的关系。人们被随访的中位时间为 7.4 年,这意味着研究中一半的人被随访的时间更短,另一半被随访超过 7.4 年。图 [1.1](#fig:PureDeathSatFat) 绘制了该研究的一些数据(摘自论文),显示了饱和脂肪和碳水化合物的摄入与任何原因导致的死亡风险之间的关系。 ![A plot of data from the PURE study, showing the relationship between death from any cause and the relative intake of saturated fats and carbohydrates.](img/file0.png) -图1.1:PURE研究的数据图,显示了任何原因导致的死亡与饱和脂肪和碳水化合物的相对摄入量之间的关系。 +图 1.1:PURE 研究的数据图,显示了任何原因导致的死亡与饱和脂肪和碳水化合物的相对摄入量之间的关系。 -这个图是基于十个数字。为了获得这些数据,研究人员将135,335名研究参与者(我们称之为“样本”)分成5组(“五分位数”),根据他们对任一种营养物质的摄入量进行排序;第一个五分位数包含摄入量最低的20%的人,第五个五分位数包含摄入量最高的20%的人。然后,研究人员计算了在他们被跟踪期间,每一组中的人死亡的频率。该图通过与最低五分之一人口相比的相对死亡风险来表达这一点:如果该数字大于1,则意味着该群体中的人比最低五分之一人口更有可能死亡,而如果该数字小于1,则意味着该群体中的人更有可能死亡。数据非常清楚:在研究过程中,摄入更多饱和脂肪的人死亡的可能性更小,死亡率最低的是第四个五分之一人口(也就是说,他们摄入的脂肪比最低的60%多,但比最高的20%少)。碳水化合物则相反;一个人吃的碳水化合物越多,在研究过程中死亡的可能性就越大。这个例子展示了我们如何使用统计数据来用一组简单得多的数字描述复杂的数据集;如果我们必须同时查看来自每个研究参与者的数据,我们将会数据超载,并且很难看到当他们被更简单地描述时出现的模式。 +这个图是基于十个数字。为了获得这些数据,研究人员将 135,335 名研究参与者(我们称之为“样本”)分成 5 组(“五分位数”),根据他们对任一种营养物质的摄入量进行排序;第一个五分位数包含摄入量最低的 20%的人,第五个五分位数包含摄入量最高的 20%的人。然后,研究人员计算了在他们被跟踪期间,每一组中的人死亡的频率。该图通过与最低五分之一人口相比的相对死亡风险来表达这一点:如果该数字大于 1,则意味着该群体中的人比最低五分之一人口更有可能死亡,而如果该数字小于 1,则意味着该群体中的人更有可能死亡。数据非常清楚:在研究过程中,摄入更多饱和脂肪的人死亡的可能性更小,死亡率最低的是第四个五分之一人口(也就是说,他们摄入的脂肪比最低的 60%多,但比最高的 20%少)。碳水化合物则相反;一个人吃的碳水化合物越多,在研究过程中死亡的可能性就越大。这个例子展示了我们如何使用统计数据来用一组简单得多的数字描述复杂的数据集;如果我们必须同时查看来自每个研究参与者的数据,我们将会数据超载,并且很难看到当他们被更简单地描述时出现的模式。 图 [1.1](#fig:PureDeathSatFat) 中的数字似乎表明,死亡随着饱和脂肪的减少而减少,随着碳水化合物的摄入而增加,但我们也知道,数据中存在很大的不确定性;有些人虽然吃了低碳水化合物食物,但还是过早死亡,同样,有些人吃了大量的碳水化合物,却活到了很老。鉴于这种可变性,我们希望*决定*我们在数据中看到的关系是否足够大,如果饮食和长寿之间没有真正的关系,我们不会期望它们随机发生。统计为我们提供了做出这种决定的工具,通常外界的人认为这是统计的主要目的*。但正如我们将在整本书中看到的那样,这种基于模糊证据的黑白决策的需求经常会让研究人员误入歧途。* -基于这些数据,我们还想对未来的结果做出预测。例如,一家人寿保险公司可能希望使用关于特定人的脂肪和碳水化合物摄入量的数据来预测他们可能会活多久。预测的一个重要方面是,它要求我们从已有的数据中归纳出一些其他情况,通常是在未来;如果我们的结论仅限于特定时间研究中的特定人群,那么这项研究就不会很有用。一般来说,研究人员必须假设他们的特定样本代表了更大的*人口*,这要求他们以一种提供人口无偏图像的方式获得样本。例如,如果PURE研究招募了所有来自实践素食主义的宗教派别的参与者,那么我们可能不想将结果推广到遵循不同饮食标准的人。 +基于这些数据,我们还想对未来的结果做出预测。例如,一家人寿保险公司可能希望使用关于特定人的脂肪和碳水化合物摄入量的数据来预测他们可能会活多久。预测的一个重要方面是,它要求我们从已有的数据中归纳出一些其他情况,通常是在未来;如果我们的结论仅限于特定时间研究中的特定人群,那么这项研究就不会很有用。一般来说,研究人员必须假设他们的特定样本代表了更大的*人口*,这要求他们以一种提供人口无偏图像的方式获得样本。例如,如果 PURE 研究招募了所有来自实践素食主义的宗教派别的参与者,那么我们可能不想将结果推广到遵循不同饮食标准的人。 @@ -65,9 +65,9 @@ ### 1.4.1 数据学习 -一种看待统计的方式是将它视为一套工具,使我们能够从数据中学习。在任何情况下,我们都是从一系列想法或假设开始的。在纯粹的研究中,考虑到关于饱和脂肪的普遍负面教条,研究人员可能已经开始预期吃更多的脂肪会导致更高的死亡率。在本课程的后面,我们将介绍*先验知识*的概念,这意味着反映我们对某一情况的了解。这种先验知识的强度可能不同,通常基于我们的经验量;如果我第一次去一家餐馆,我很可能会对它有多好有一个微弱的预期,但如果我去一家我以前吃过十次的餐馆,我的预期会强烈得多。类似地,如果我在一个餐馆评论网站上看到一家餐馆的平均四星评级仅仅基于三个评论,那么我的期望会比基于300个评论时更弱。 +一种看待统计的方式是将它视为一套工具,使我们能够从数据中学习。在任何情况下,我们都是从一系列想法或假设开始的。在纯粹的研究中,考虑到关于饱和脂肪的普遍负面教条,研究人员可能已经开始预期吃更多的脂肪会导致更高的死亡率。在本课程的后面,我们将介绍*先验知识*的概念,这意味着反映我们对某一情况的了解。这种先验知识的强度可能不同,通常基于我们的经验量;如果我第一次去一家餐馆,我很可能会对它有多好有一个微弱的预期,但如果我去一家我以前吃过十次的餐馆,我的预期会强烈得多。类似地,如果我在一个餐馆评论网站上看到一家餐馆的平均四星评级仅仅基于三个评论,那么我的期望会比基于 300 个评论时更弱。 -统计学为我们提供了一种方法来描述新数据如何被最好地用来更新我们的信念,这样统计学和心理学之间就有了很深的联系。事实上,许多来自心理学的人类和动物学习理论都与来自新领域*机器学习*的想法密切相关。机器学习是统计学和计算机科学交界处的一个领域,它专注于如何构建可以从经验中学习的计算机算法。虽然统计学和机器学习经常试图解决相同的问题,但这些领域的研究人员经常采取非常不同的方法;著名的统计学家Leo Breiman曾经称他们为“两种文化”,以反映他们的方法是多么的不同 ( [Breiman 2001](19.html#ref-breiman2001) ) 。在本书中,我将尝试将两种文化融合在一起,因为这两种方法都为思考数据提供了有用的工具。 +统计学为我们提供了一种方法来描述新数据如何被最好地用来更新我们的信念,这样统计学和心理学之间就有了很深的联系。事实上,许多来自心理学的人类和动物学习理论都与来自新领域*机器学习*的想法密切相关。机器学习是统计学和计算机科学交界处的一个领域,它专注于如何构建可以从经验中学习的计算机算法。虽然统计学和机器学习经常试图解决相同的问题,但这些领域的研究人员经常采取非常不同的方法;著名的统计学家 Leo Breiman 曾经称他们为“两种文化”,以反映他们的方法是多么的不同 ( [Breiman 2001](19.html#ref-breiman2001) ) 。在本书中,我将尝试将两种文化融合在一起,因为这两种方法都为思考数据提供了有用的工具。 @@ -75,7 +75,7 @@ ### 1.4.2 聚合 -另一种思考统计学的方式是“丢弃数据的科学”。在上面纯研究的例子中,我们取了100,000多个数字,浓缩成10个。这种聚合是统计学中最重要的概念之一。当它第一次被提出时,这是革命性的:如果我们抛开每个参与者的所有细节,那么我们怎么能确定我们没有遗漏重要的东西呢? +另一种思考统计学的方式是“丢弃数据的科学”。在上面纯研究的例子中,我们取了 100,000 多个数字,浓缩成 10 个。这种聚合是统计学中最重要的概念之一。当它第一次被提出时,这是革命性的:如果我们抛开每个参与者的所有细节,那么我们怎么能确定我们没有遗漏重要的东西呢? 正如我们将看到的,统计学为我们提供了表征数据集合结构的方法,并提供了解释为什么这种方法通常很有效的理论基础。然而,同样重要的是要记住,聚合可能会走得太远,以后我们会遇到这样的情况,汇总可能会提供非常误导性的数据汇总情况。 @@ -85,7 +85,7 @@ ### 1.4.3 不确定性 -世界是一个不确定的地方。我们现在知道吸烟会导致肺癌,但这种因果关系是概率性的:一名68岁的男子在过去50年里每天抽两包烟,并继续吸烟,他患肺癌的风险为15%(7分之一),远远高于不吸烟者患肺癌的风险。然而,这也意味着将有许多人一生都在吸烟,却从未患过肺癌。统计学为我们提供了描述不确定性的工具,在不确定性下做出决策,并做出我们可以量化其不确定性的预测。 +世界是一个不确定的地方。我们现在知道吸烟会导致肺癌,但这种因果关系是概率性的:一名 68 岁的男子在过去 50 年里每天抽两包烟,并继续吸烟,他患肺癌的风险为 15%(7 分之一),远远高于不吸烟者患肺癌的风险。然而,这也意味着将有许多人一生都在吸烟,却从未患过肺癌。统计学为我们提供了描述不确定性的工具,在不确定性下做出决策,并做出我们可以量化其不确定性的预测。 人们经常看到记者写道,科学研究人员已经“证明”了一些假设。但是统计分析永远不能“证明”一个假设,也就是证明它一定是真的(就像逻辑或数学证明那样)。统计数据可以为我们提供证据,但它总是试探性的,并受制于现实世界中始终存在的不确定性。 @@ -95,7 +95,7 @@ ### 1.4.4 从人群中取样 -聚合的概念意味着我们可以通过压缩数据来获得有用的见解——但是我们需要多少数据呢?*抽样*的想法是,只要这些样本是以正确的方式获得的,我们就可以根据人口中的少量样本来总结整个人口。例如,PURE研究招募了约135,000人的样本,但其目标是提供关于构成这些人样本的数十亿人的见解。正如我们上面已经讨论过的,获取研究样本的方式至关重要,因为它决定了我们能够在多大程度上概括研究结果。关于抽样的另一个基本观点是,虽然样本越大越好(就其准确代表整个人口的能力而言),但随着样本越大,回报也越小。事实上,较大样本的好处减少的速度遵循一个简单的数学规则,随着样本大小的平方根增长,因此为了使我们的估计精度加倍,我们需要将样本大小增加四倍。 +聚合的概念意味着我们可以通过压缩数据来获得有用的见解——但是我们需要多少数据呢?*抽样*的想法是,只要这些样本是以正确的方式获得的,我们就可以根据人口中的少量样本来总结整个人口。例如,PURE 研究招募了约 135,000 人的样本,但其目标是提供关于构成这些人样本的数十亿人的见解。正如我们上面已经讨论过的,获取研究样本的方式至关重要,因为它决定了我们能够在多大程度上概括研究结果。关于抽样的另一个基本观点是,虽然样本越大越好(就其准确代表整个人口的能力而言),但随着样本越大,回报也越小。事实上,较大样本的好处减少的速度遵循一个简单的数学规则,随着样本大小的平方根增长,因此为了使我们的估计精度加倍,我们需要将样本大小增加四倍。 @@ -107,7 +107,7 @@ 这项纯粹的研究似乎为吃饱和脂肪和长寿之间的积极关系提供了非常有力的证据,但这并没有告诉我们真正想知道的事情:如果我们吃更多的饱和脂肪,会导致我们长寿吗?这是因为我们不知道吃饱和脂肪和长寿之间是否有直接的因果关系。这些数据与这种关系是一致的,但它们同样与导致更高饱和脂肪和更长寿命的一些其他因素一致。例如,人们可能会想象,更富有的人吃更多的饱和脂肪,更富有的人往往更长寿,但他们更长寿不一定是因为脂肪的摄入——相反,这可能是因为更好的医疗保健,心理压力的减轻,更好的食品质量或许多其他因素。纯研究调查人员试图解释这些因素,但我们不能确定他们的努力完全消除了其他变量的影响。其他因素可能解释饱和脂肪摄入和死亡之间的关系,这一事实是为什么统计学导论课经常教授“相关性并不意味着因果关系”的一个例子,尽管著名的数据可视化专家爱德华·塔夫特补充说,“但它肯定是一个提示。” -虽然观察性研究(像纯研究)不能最终证明因果关系,我们通常认为因果关系可以通过实验控制和操纵特定因素的研究来证明。在医学上,这样的研究被称为*随机对照试验* (RCT)。比方说,我们想做一个RCT来检验增加饱和脂肪摄入量是否会延长寿命。为了做到这一点,我们将对一组人进行抽样,然后将他们分配到治疗组(他们将被告知增加饱和脂肪的摄入量)或对照组(他们将被告知保持和以前一样的饮食)。重要的是,我们要随机地将个人分配到这些组中。否则,选择治疗的人可能在某些方面与选择对照组的人不同——例如,他们可能也更有可能从事其他健康的行为。然后我们会跟踪这些参与者一段时间,看看每组中有多少人死亡。因为我们将参与者随机分配到治疗组或对照组,所以我们有理由相信两组之间没有其他差异会*混淆*治疗效果;然而,我们仍然不能确定,因为有时随机分组产生的治疗组与对照组相比*在某些重要方面有所不同。研究人员经常试图使用统计分析来解决这些混杂因素,但从数据中消除混杂因素的影响可能非常困难。* +虽然观察性研究(像纯研究)不能最终证明因果关系,我们通常认为因果关系可以通过实验控制和操纵特定因素的研究来证明。在医学上,这样的研究被称为*随机对照试验* (RCT)。比方说,我们想做一个 RCT 来检验增加饱和脂肪摄入量是否会延长寿命。为了做到这一点,我们将对一组人进行抽样,然后将他们分配到治疗组(他们将被告知增加饱和脂肪的摄入量)或对照组(他们将被告知保持和以前一样的饮食)。重要的是,我们要随机地将个人分配到这些组中。否则,选择治疗的人可能在某些方面与选择对照组的人不同——例如,他们可能也更有可能从事其他健康的行为。然后我们会跟踪这些参与者一段时间,看看每组中有多少人死亡。因为我们将参与者随机分配到治疗组或对照组,所以我们有理由相信两组之间没有其他差异会*混淆*治疗效果;然而,我们仍然不能确定,因为有时随机分组产生的治疗组与对照组相比*在某些重要方面有所不同。研究人员经常试图使用统计分析来解决这些混杂因素,但从数据中消除混杂因素的影响可能非常困难。* 许多随机对照试验研究了改变饱和脂肪摄入量是否会导致更健康和更长寿的问题。这些试验集中于减少饱和脂肪,因为营养研究人员强烈认为饱和脂肪是致命的;这些研究人员中的大多数可能会争辩说,让人们吃更多的饱和脂肪是不道德的!然而,随机对照试验显示了一个非常一致的模式:总体而言,减少饱和脂肪摄入对死亡率没有明显的影响。 diff --git a/docs/02.md b/docs/02.md index d9cc76f..f8c7c2d 100644 --- a/docs/02.md +++ b/docs/02.md @@ -34,13 +34,13 @@ -#### 2.1.2.1数字的种类 +#### 2.1.2.1 数字的种类 -在统计学中,我们使用几种不同类型的数字。理解这些差异很重要,部分原因是统计分析语言(比如R)经常区分它们。 +在统计学中,我们使用几种不同类型的数字。理解这些差异很重要,部分原因是统计分析语言(比如 R)经常区分它们。 -**二进制数字**。最简单的是二进制数,即0或1。我们会经常用二进制数来表示某事物是真还是假,是存在还是不存在。例如,我可能会问10个人他们是否经历过偏头痛,记录他们的回答是“是”还是“不是”。使用*逻辑*值通常是有用的,它接受`TRUE`或`FALSE`的值。当我们开始使用像R这样的编程语言来分析我们的数据时,这可能特别有用,因为这些语言已经理解了真和假的概念。事实上,大多数编程语言都同等对待真值和二进制数。数字1等于逻辑值`TRUE`,数字0等于逻辑值`FALSE`。 +**二进制数字**。最简单的是二进制数,即 0 或 1。我们会经常用二进制数来表示某事物是真还是假,是存在还是不存在。例如,我可能会问 10 个人他们是否经历过偏头痛,记录他们的回答是“是”还是“不是”。使用*逻辑*值通常是有用的,它接受`TRUE`或`FALSE`的值。当我们开始使用像 R 这样的编程语言来分析我们的数据时,这可能特别有用,因为这些语言已经理解了真和假的概念。事实上,大多数编程语言都同等对待真值和二进制数。数字 1 等于逻辑值`TRUE`,数字 0 等于逻辑值`FALSE`。 -**整数**。整数是没有分数或小数部分的整数。我们在计数时最常遇到整数,但它们也经常出现在心理测量中。例如,在我的介绍性调查中,我提出了一系列关于对统计学的态度的问题(例如“统计学对我来说似乎很神秘。”),学生们用1(“强烈反对”)到7(“强烈同意”)之间的数字来回答。 +**整数**。整数是没有分数或小数部分的整数。我们在计数时最常遇到整数,但它们也经常出现在心理测量中。例如,在我的介绍性调查中,我提出了一系列关于对统计学的态度的问题(例如“统计学对我来说似乎很神秘。”),学生们用 1(“强烈反对”)到 7(“强烈同意”)之间的数字来回答。 **实数**。在统计学中,我们最常见的是处理实数,它有一个分数/小数部分。例如,我们可以测量某人的体重,这可以测量到任意精度水平,从千克到微克。 @@ -54,7 +54,7 @@ ## 2.2 离散与连续测量 -*离散*测量是取特定值的有限集合中的一个。这些可以是定性值(例如,不同品种的狗)或数值(例如,一个人在脸书上有多少朋友)。重要的是,在测量之间没有中间地带;说一个人有33.7个朋友没有意义。 +*离散*测量是取特定值的有限集合中的一个。这些可以是定性值(例如,不同品种的狗)或数值(例如,一个人在脸书上有多少朋友)。重要的是,在测量之间没有中间地带;说一个人有 33.7 个朋友没有意义。 *连续*测量是根据实数定义的测量。它可以落在特定值范围内的任何地方,尽管通常我们的测量工具会限制我们测量它的精度;例如,尽管理论上可以更精确地测量重量,但地秤可能会精确到千克。 @@ -86,7 +86,7 @@ ![A figure demonstrating the distinction between reliability and validity, using shots at a bullseye. Reliability refers to the consistency of location of shots, and validity refers to the accuracy of the shots with respect to the center of the bullseye. ](img/file1.png) -图2.1:一个展示信度和效度区别的图,使用靶心射击。可靠性指的是射击位置的一致性,而有效性指的是射击相对于靶心中心的准确性。 +图 2.1:一个展示信度和效度区别的图,使用靶心射击。可靠性指的是射击位置的一致性,而有效性指的是射击相对于靶心中心的准确性。 @@ -121,7 +121,7 @@ ## 2.5 建议读数 -* 心理测量理论介绍及其在R 中的应用——关于心理测量的免费在线教材 +* 心理测量理论介绍及其在 R 中的应用——关于心理测量的免费在线教材 @@ -138,16 +138,16 @@ * *恒等式*:变量的每个值都有唯一的意义。 * *量级*:变量的值反映了不同的量级,并且彼此之间具有有序的关系——也就是说,一些值较大,一些值较小。 -* *等间距*:测量刻度上的单位彼此相等。这意味着,例如,1和2之间的差在数量上等于19和20之间的差。 +* *等间距*:测量刻度上的单位彼此相等。这意味着,例如,1 和 2 之间的差在数量上等于 19 和 20 之间的差。 * *绝对零点*:秤有一个真正有意义的零点。例如,对于许多物理量的测量,如身高或体重,这是完全没有被测量的东西。 有四种不同的测量尺度,伴随着变量值的不同方式。 *标称刻度*。名义变量满足恒等式的标准,因此变量的每个值都代表不同的东西,但是数字只是作为上面讨论的定性标签。例如,我们可能会询问人们的政党归属,然后用数字编码:1 =“共和党”,2 =“民主党”,3 =“自由主义者”,等等。然而,不同的数字彼此之间没有任何有序的关系。 -*序数刻度*。序数变量满足同一性和大小的标准,因此值可以根据它们的大小排序。例如,我们可能会要求一个患有慢性疼痛的人每天填写一份表格,使用1-7的数字量表评估他们的疼痛程度。请注意,虽然人们在报告6分的一天比报告3分的一天可能感觉到更多的疼痛,但说他们在前一天比后一天疼痛两倍是没有意义的;排序为我们提供了关于相对大小的信息,但是值之间的差异不一定在大小上相等。 +*序数刻度*。序数变量满足同一性和大小的标准,因此值可以根据它们的大小排序。例如,我们可能会要求一个患有慢性疼痛的人每天填写一份表格,使用 1-7 的数字量表评估他们的疼痛程度。请注意,虽然人们在报告 6 分的一天比报告 3 分的一天可能感觉到更多的疼痛,但说他们在前一天比后一天疼痛两倍是没有意义的;排序为我们提供了关于相对大小的信息,但是值之间的差异不一定在大小上相等。 -*区间刻度*。区间标尺具有顺序标尺的所有特征,但是除此之外,度量标尺上单位之间的区间可以被视为相等。一个标准的例子是用摄氏度或华氏度测量的物理温度;10度和20度之间的物理差异与90度和100度之间的物理差异相同,但是每个标度也可以取负值。 +*区间刻度*。区间标尺具有顺序标尺的所有特征,但是除此之外,度量标尺上单位之间的区间可以被视为相等。一个标准的例子是用摄氏度或华氏度测量的物理温度;10 度和 20 度之间的物理差异与 90 度和 100 度之间的物理差异相同,但是每个标度也可以取负值。 *比例刻度*。比率标度变量具有上述所有四个特征:同一性、量值、等间隔和绝对零度。比率标度变量和间隔标度变量的区别在于比率标度变量有一个真正的零点。比例变量的例子包括身体高度和体重,以及以开尔文测量的温度。 diff --git a/docs/03.md b/docs/03.md index 0fa58be..77e79f3 100644 --- a/docs/03.md +++ b/docs/03.md @@ -10,7 +10,7 @@ 当我们总结数据时,我们必然会丢弃信息,有人可能会反对这一点。作为一个例子,让我们回到我们在第一章中讨论的纯研究。难道我们不应该相信除了数据集中总结的那些细节之外,关于每个个体的所有细节吗?数据是如何收集的具体细节呢,比如一天中的时间或者参与者的情绪?当我们汇总数据时,所有这些细节都丢失了。 -我们总结数据的一个原因是,它为我们提供了一种概括的方式——也就是说,做出超越具体观察的一般性陈述。作家豪尔赫·路易斯·博尔赫斯在他的短篇小说《纪念的Funes》中强调了概括的重要性,该小说描述了一个失去遗忘能力的人。博尔赫斯关注概括(即丢弃数据)和思考之间的关系:“思考就是忘记差异、概括、抽象。在这个充满乐趣的世界里,除了细节什么都没有。” +我们总结数据的一个原因是,它为我们提供了一种概括的方式——也就是说,做出超越具体观察的一般性陈述。作家豪尔赫·路易斯·博尔赫斯在他的短篇小说《纪念的 Funes》中强调了概括的重要性,该小说描述了一个失去遗忘能力的人。博尔赫斯关注概括(即丢弃数据)和思考之间的关系:“思考就是忘记差异、概括、抽象。在这个充满乐趣的世界里,除了细节什么都没有。” 心理学家长期以来一直在研究概括对思维至关重要的所有方式。一个例子是分类:我们能够很容易地识别“鸟类”类别的不同例子,即使单个例子的表面特征可能非常不同(如鸵鸟、知更鸟和鸡)。重要的是,概括让我们对这些个体做出预测——在鸟类的例子中,我们可以预测它们会飞,会吃种子,可能不会开车,也不会说英语。这些预测并不总是正确的,但它们往往足够好,对世界有用。 @@ -24,9 +24,9 @@ ![A Sumerian tablet from the Louvre, showing a sales contract for a house and field. Public domain, via Wikimedia Commons.](img/file2.jpg) -图3.1:一块来自卢浮宫的苏美尔石碑,显示了一份房屋和田地的销售合同。公共领域,通过维基共享。 +图 3.1:一块来自卢浮宫的苏美尔石碑,显示了一份房屋和田地的销售合同。公共领域,通过维基共享。 -让我们用一个更真实的数据集来看一些使用表的例子。在本书中,我们将使用[国家健康和营养调查(NHANES)](https://www.cdc.gov/nchs/nhanes/index.htm) 数据集。这是一项正在进行的研究,它根据许多不同的变量评估了美国个体样本的健康和营养状况。我们将使用可用于R统计软件包的数据集版本。对于这个例子,我们将看一个简单的变量,在数据集中称为 *PhysActive* 。此变量包含三个不同值中的一个:“是”或“否”(表示此人是否报告从事“中等或剧烈强度的运动、健身或娱乐活动”),如果此人的数据缺失,则为“不”。数据可能丢失有不同的原因;例如,这个问题不是向12岁以下的儿童提出的,而在其他情况下,成年人可能拒绝在访谈中回答这个问题,或者访谈者在他们的表格上记录的答案可能无法阅读。 +让我们用一个更真实的数据集来看一些使用表的例子。在本书中,我们将使用[国家健康和营养调查(NHANES)](https://www.cdc.gov/nchs/nhanes/index.htm) 数据集。这是一项正在进行的研究,它根据许多不同的变量评估了美国个体样本的健康和营养状况。我们将使用可用于 R 统计软件包的数据集版本。对于这个例子,我们将看一个简单的变量,在数据集中称为 *PhysActive* 。此变量包含三个不同值中的一个:“是”或“否”(表示此人是否报告从事“中等或剧烈强度的运动、健身或娱乐活动”),如果此人的数据缺失,则为“不”。数据可能丢失有不同的原因;例如,这个问题不是向 12 岁以下的儿童提出的,而在其他情况下,成年人可能拒绝在访谈中回答这个问题,或者访谈者在他们的表格上记录的答案可能无法阅读。 @@ -41,11 +41,11 @@ | 是 | Two thousand nine hundred and seventy-two | | 钠 | One thousand three hundred and thirty-four | -表 [3.1](#tab:PhysActiveTable) 显示了每个不同值的频率;有2473人对该问题回答“否”,2972人回答“是”,1334人没有回答。我们称之为*频率分布*,因为它告诉我们每个可能值在样本中出现的频率。 +表 [3.1](#tab:PhysActiveTable) 显示了每个不同值的频率;有 2473 人对该问题回答“否”,2972 人回答“是”,1334 人没有回答。我们称之为*频率分布*,因为它告诉我们每个可能值在样本中出现的频率。 这向我们展示了两个回答的绝对频率,对于每个实际给出回答的人来说。由此我们可以看出,说“是”的人比说“不是”的人多,但从绝对数字上很难看出相对数字上的差别有多大。出于这个原因,我们通常宁愿使用*相对频率*来表示数据,相对频率是通过将每个频率除以所有频率的总和而获得的: -relatIvefrequen utefrequeNcyI tefrequencyj 我们也可以将相对频率乘以100,解释为百分比。在本例中,我们也将去掉NA值,因为我们希望能够解释活跃人群与不活跃人群的相对频率。然而,为了使这有意义,我们必须假设NA值是“随机”缺失的,这意味着它们的存在与否与该人变量的真实值无关。例如,如果不活跃的参与者比活跃的参与者更有可能拒绝回答问题,那么这将使我们对身体活动频率的估计产生偏差,这意味着我们的估计将与真实值不同。 +relatIvefrequen utefrequeNcyI tefrequencyj 我们也可以将相对频率乘以 100,解释为百分比。在本例中,我们也将去掉 NA 值,因为我们希望能够解释活跃人群与不活跃人群的相对频率。然而,为了使这有意义,我们必须假设 NA 值是“随机”缺失的,这意味着它们的存在与否与该人变量的真实值无关。例如,如果不活跃的参与者比活跃的参与者更有可能拒绝回答问题,那么这将使我们对身体活动频率的估计产生偏差,这意味着我们的估计将与真实值不同。 Table 3.2: Absolute and relative frequencies and percentages for PhysActive variable | 物理活性的 | 绝对频率 | 相对频率 | 百分率 | @@ -53,7 +53,7 @@ | 不 | Two thousand four hundred and seventy-three | Zero point four five | Forty-five | | 是 | Two thousand nine hundred and seventy-two | Zero point five five | Fifty-five | -表 [3.2](#tab:PhysActiveTableFiltered) 让我们看到,NHANES样本中45.4%的人回答“否”,54.6%的人回答“是”。 +表 [3.2](#tab:PhysActiveTableFiltered) 让我们看到,NHANES 样本中 45.4%的人回答“否”,54.6%的人回答“是”。 @@ -63,7 +63,7 @@ 我们上面检查的*physical active*变量只有两个可能的值,但我们通常希望汇总具有更多可能值的数据。当这些值是定量的时,那么总结它们的一个有用的方法是通过我们所谓的*累积*频率表示:不是问有多少观察值具有特定值,而是问有多少具有某个特定值*或更少*。 -让我们看看NHANES数据集中的另一个变量,名为 *SleepHrsNight* ,它记录了参与者报告在平常工作日睡眠的时间。表 [3.3](#tab:sleepTable) 显示了我们如上所述创建的频率表,在此问题中删除了任何缺失数据。我们已经可以通过查看表格来总结数据集;例如,我们可以看到大多数人报告的睡眠时间在6到8小时之间。为了更清楚地看到这一点,我们可以绘制一个*直方图*,它显示了具有不同值的情况的数量;见图 [3.2](#fig:sleepHist) 左图。我们还可以绘制相对频率,我们通常称之为*密度* -参见图 [3.2](#fig:sleepHist) 的右图。 +让我们看看 NHANES 数据集中的另一个变量,名为 *SleepHrsNight* ,它记录了参与者报告在平常工作日睡眠的时间。表 [3.3](#tab:sleepTable) 显示了我们如上所述创建的频率表,在此问题中删除了任何缺失数据。我们已经可以通过查看表格来总结数据集;例如,我们可以看到大多数人报告的睡眠时间在 6 到 8 小时之间。为了更清楚地看到这一点,我们可以绘制一个*直方图*,它显示了具有不同值的情况的数量;见图 [3.2](#fig:sleepHist) 左图。我们还可以绘制相对频率,我们通常称之为*密度* -参见图 [3.2](#fig:sleepHist) 的右图。 Table 3.3: Frequency distribution for number of hours of sleep per night in the NHANES dataset | 睡眠之夜 | 绝对频率 | 相对频率 | 百分率 | @@ -82,9 +82,9 @@ ![Left: Histogram showing the number (left) and proportion (right) of people reporting each possible value of the SleepHrsNight variable.](img/file3.png) -图3.2:左:显示报告SleepHrsNight变量的每个可能值的人数(左)和比例(右)的直方图。 +图 3.2:左:显示报告 SleepHrsNight 变量的每个可能值的人数(左)和比例(右)的直方图。 -如果我们想知道有多少人报告睡眠时间为5小时或更少呢?为了找到这一点,我们可以计算一个*累积分布*。为了计算某个值j的累积频率,我们将j之前(包括j)的所有值的频率相加: +如果我们想知道有多少人报告睡眠时间为 5 小时或更少呢?为了找到这一点,我们可以计算一个*累积分布*。为了计算某个值 j 的累积频率,我们将 j 之前(包括 j)的所有值的频率相加: 【c】【u】【m】【u】【a】 1【j】【a】【b】 @@ -107,7 +107,7 @@ ![A plot of the relative (solid) and cumulative relative (dashed) values for frequency (left) and proportion (right) for the possible values of SleepHrsNight.](img/file4.png) -图3.3:sleep hrs night可能值的频率(左)和比例(右)的相对值(实线)和累积相对值(虚线)图。 +图 3.3:sleep hrs night 可能值的频率(左)和比例(右)的相对值(实线)和累积相对值(虚线)图。 @@ -117,19 +117,19 @@ ![A histogram of the Age (left) and Height (right) variables in NHANES.](img/file5.png) -图3.4:NHANES中年龄(左)和身高(右)变量的直方图。 +图 3.4:NHANES 中年龄(左)和身高(右)变量的直方图。 -我们上面检查的变量相当简单,只有几个可能的值。现在我们来看一个更复杂的变量:年龄。首先让我们绘制NHANES数据集中所有个体的*年龄*变量(见图 [3.4](#fig:ageHist) 的左图)。你在那里看到了什么?首先,你应该注意到,随着时间的推移,每个年龄组的人数都在下降。这是有道理的,因为人口是随机抽样的,因此随着时间的推移,死亡导致越来越少的人进入老年范围。第二,你可能会注意到在80岁时图表中有一个很大的峰值。你觉得这是怎么回事? +我们上面检查的变量相当简单,只有几个可能的值。现在我们来看一个更复杂的变量:年龄。首先让我们绘制 NHANES 数据集中所有个体的*年龄*变量(见图 [3.4](#fig:ageHist) 的左图)。你在那里看到了什么?首先,你应该注意到,随着时间的推移,每个年龄组的人数都在下降。这是有道理的,因为人口是随机抽样的,因此随着时间的推移,死亡导致越来越少的人进入老年范围。第二,你可能会注意到在 80 岁时图表中有一个很大的峰值。你觉得这是怎么回事? -如果我们要查找关于NHANES数据集的信息,我们会看到对*年龄*变量的如下定义:“研究参与者筛选时的年龄。注:80岁以上的受试者记录为80岁。这样做的原因是,如果您知道数据集中特定人的确切年龄,那么相对较少的年龄很大的人可能更容易识别他们;研究人员通常向他们的参与者承诺对他们的身份保密,这是他们可以帮助保护他们的研究对象的事情之一。这也强调了这样一个事实,即知道一个人的数据来自哪里以及它们是如何被处理的总是很重要的;否则我们可能会不恰当地解释它们,认为80岁的人在样本中不知何故被过多地代表了。 +如果我们要查找关于 NHANES 数据集的信息,我们会看到对*年龄*变量的如下定义:“研究参与者筛选时的年龄。注:80 岁以上的受试者记录为 80 岁。这样做的原因是,如果您知道数据集中特定人的确切年龄,那么相对较少的年龄很大的人可能更容易识别他们;研究人员通常向他们的参与者承诺对他们的身份保密,这是他们可以帮助保护他们的研究对象的事情之一。这也强调了这样一个事实,即知道一个人的数据来自哪里以及它们是如何被处理的总是很重要的;否则我们可能会不恰当地解释它们,认为 80 岁的人在样本中不知何故被过多地代表了。 -让我们看看NHANES数据集中另一个更复杂的变量:Height。在图 [3.4](#fig:ageHist) 的右侧面板中绘制了高度值的直方图。关于这个分布,你应该注意到的第一件事是,它的密度大部分集中在170 cm左右,但分布在左侧有一个“尾巴”;有少数个体的高度要小得多。你认为这是怎么回事? +让我们看看 NHANES 数据集中另一个更复杂的变量:Height。在图 [3.4](#fig:ageHist) 的右侧面板中绘制了高度值的直方图。关于这个分布,你应该注意到的第一件事是,它的密度大部分集中在 170 cm 左右,但分布在左侧有一个“尾巴”;有少数个体的高度要小得多。你认为这是怎么回事? -您可能凭直觉认为小的高度来自数据集中的孩子。检验这一点的一种方法是用儿童和成人的不同颜色绘制直方图(图 [3.5](#fig:heightHistSep) 的左图)。这表明所有非常矮的身高确实来自样本中的儿童。让我们创建一个新版本的NHANES,它只包含成年人,然后为他们绘制直方图(图 [3.5](#fig:heightHistSep) 的右面板)。在那张图中,分布看起来更加对称。正如我们将在后面看到的,这是一个很好的*正态*(或*高斯*)分布的例子。 +您可能凭直觉认为小的高度来自数据集中的孩子。检验这一点的一种方法是用儿童和成人的不同颜色绘制直方图(图 [3.5](#fig:heightHistSep) 的左图)。这表明所有非常矮的身高确实来自样本中的儿童。让我们创建一个新版本的 NHANES,它只包含成年人,然后为他们绘制直方图(图 [3.5](#fig:heightHistSep) 的右面板)。在那张图中,分布看起来更加对称。正如我们将在后面看到的,这是一个很好的*正态*(或*高斯*)分布的例子。 ![Histogram of heights for NHANES. A: values plotted separately for children (gray) and adults (black). B: values for adults only. C: Same as B, but with bin width = 0.1](img/file6.png) -图3.5:NHANES的高度直方图。答:分别为儿童(灰色)和成人(黑色)绘制的值。b:仅供成人使用。c:与B相同,但箱宽度= 0.1 +图 3.5:NHANES 的高度直方图。答:分别为儿童(灰色)和成人(黑色)绘制的值。b:仅供成人使用。c:与 B 相同,但箱宽度= 0.1 @@ -137,7 +137,7 @@ ### 3.2.4 柱状图箱 -在我们之前关于睡眠变量的例子中,数据是以整数报告的,我们简单地计算了报告每个可能值的人数。但是,如果您查看NHANES中Height变量的几个值(如表 [3.5](#tab:heightVals) 所示),您会发现它是以厘米为单位测量的,精确到第一个小数位。 +在我们之前关于睡眠变量的例子中,数据是以整数报告的,我们简单地计算了报告每个可能值的人数。但是,如果您查看 NHANES 中 Height 变量的几个值(如表 [3.5](#tab:heightVals) 所示),您会发现它是以厘米为单位测量的,精确到第一个小数位。 Table 3.5: A few values of Height from the NHANES data frame. | 高度 | @@ -149,15 +149,15 @@ | One hundred and seventy-three point eight | | One hundred and seventy-four point five | -图 [3.5](#fig:heightHistSep) 的面板C显示了一个直方图,该直方图计算了第一个小数位以下的每个可能值的密度。该直方图看起来确实参差不齐,这是因为特定小数位值的可变性。例如,值173.2出现32次,而值173.3只出现15次。我们大概不会认为这两种身高的患病率真的有这么大的差别;更有可能的是,这只是由于我们的样本中的随机可变性。 +图 [3.5](#fig:heightHistSep) 的面板 C 显示了一个直方图,该直方图计算了第一个小数位以下的每个可能值的密度。该直方图看起来确实参差不齐,这是因为特定小数位值的可变性。例如,值 173.2 出现 32 次,而值 173.3 只出现 15 次。我们大概不会认为这两种身高的患病率真的有这么大的差别;更有可能的是,这只是由于我们的样本中的随机可变性。 -一般来说,当我们创建一个连续的或有许多可能值的数据直方图时,我们将对这些值进行*分类*,这样我们就不会对每个特定值的频率进行计数和绘图,而是对落在特定范围内的值的频率进行计数和绘图。这就是为什么上面的 [3.5](#fig:heightHistSep) 的B画面中剧情看起来没那么参差不齐;在此面板中,我们将面元宽度设置为1,这意味着通过组合宽度为1的面元内的值来计算直方图;因此,值1.3、1.5和1.6都将计入同一频段的频率,该频段的值从等于1一直到小于2。 +一般来说,当我们创建一个连续的或有许多可能值的数据直方图时,我们将对这些值进行*分类*,这样我们就不会对每个特定值的频率进行计数和绘图,而是对落在特定范围内的值的频率进行计数和绘图。这就是为什么上面的 [3.5](#fig:heightHistSep) 的 B 画面中剧情看起来没那么参差不齐;在此面板中,我们将面元宽度设置为 1,这意味着通过组合宽度为 1 的面元内的值来计算直方图;因此,值 1.3、1.5 和 1.6 都将计入同一频段的频率,该频段的值从等于 1 一直到小于 2。 请注意,一旦选择了箱的大小,箱的数量就由数据决定: 【n】【u】【m】【b】【e】【r】 e【s】【b】【I】【n】【w】 -对于如何选择最佳箱宽度,没有硬性规定。有时这是显而易见的(当只有几个可能的值时),但在许多情况下,这需要反复试验。有一些方法试图自动找到一个最佳的bin大小,比如我们将在后面的例子中使用的Freedman-Diaconis方法。 +对于如何选择最佳箱宽度,没有硬性规定。有时这是显而易见的(当只有几个可能的值时),但在许多情况下,这需要反复试验。有一些方法试图自动找到一个最佳的 bin 大小,比如我们将在后面的例子中使用的 Freedman-Diaconis 方法。 @@ -167,11 +167,11 @@ ## 3.3 分布的理想化表示 -数据集就像雪花一样,每一个都是不同的,但尽管如此,在不同类型的数据中还是有一些常见的模式。这允许我们使用数据的理想化表示来进一步总结它们。让我们将成人身高数据绘制在 [3.5](#fig:heightHistSep) 中,并将它们与一个非常不同的变量一起绘制:脉率(每分钟心跳数),也是用NHANES测量的(见图 [3.6](#fig:NormalDistPlotsWithDist) )。 +数据集就像雪花一样,每一个都是不同的,但尽管如此,在不同类型的数据中还是有一些常见的模式。这允许我们使用数据的理想化表示来进一步总结它们。让我们将成人身高数据绘制在 [3.5](#fig:heightHistSep) 中,并将它们与一个非常不同的变量一起绘制:脉率(每分钟心跳数),也是用 NHANES 测量的(见图 [3.6](#fig:NormalDistPlotsWithDist) )。 ![Histograms for height (left) and pulse (right) in the NHANES dataset, with the normal distribution overlaid for each dataset.](img/file7.png) -图3.6:NHANES数据集中高度(左)和脉搏(右)的直方图,每个数据集都覆盖了正态分布。 +图 3.6:NHANES 数据集中高度(左)和脉搏(右)的直方图,每个数据集都覆盖了正态分布。 虽然这些图看起来肯定不完全相同,但两者都具有围绕中间圆形峰值相对对称的一般特征。这个形状实际上是我们收集数据时常见的分布形状之一,我们称之为*正态*(或*高斯*)分布。该分布由两个值定义(我们称之为分布的*参数*):中心峰值的位置(我们称之为*均值*)和分布的宽度(用称为*标准差*的参数描述)。图 [3.6](#fig:NormalDistPlotsWithDist) 显示了绘制在每个历史程序顶部的适当正态分布。你可以看到,虽然曲线不完全符合数据,但它们很好地描述了分布的特征——只有两个数字! @@ -183,11 +183,11 @@ 图 [3.6](#fig:NormalDistPlotsWithDist) 中的示例很好地遵循了正态分布,但在许多情况下,数据会以系统的方式偏离正态分布。数据可能偏离的一种方式是当它们不对称时,例如分布的一个尾部比另一个更密集。我们称之为“偏斜度”。当度量被约束为非负时,通常会出现偏斜,例如当我们计算事物或测量经过的时间时(因此变量不能呈现负值)。 -图 [3.7](#fig:SFOWaitTimes) 的左图显示了旧金山国际机场安检线的平均等待时间,这是一个相对轻微偏斜的例子。您可以看到,虽然大多数等待时间不到20分钟,但也有很多情况下等待时间要长得多,超过60分钟!这是一个“右偏”分布的例子,右尾比左尾长;当查看计数或测量时间时,这些是常见的,它们不能小于零。“左偏”分布不太常见,但可能会发生,例如在查看值不能大于1的小数值时。 +图 [3.7](#fig:SFOWaitTimes) 的左图显示了旧金山国际机场安检线的平均等待时间,这是一个相对轻微偏斜的例子。您可以看到,虽然大多数等待时间不到 20 分钟,但也有很多情况下等待时间要长得多,超过 60 分钟!这是一个“右偏”分布的例子,右尾比左尾长;当查看计数或测量时间时,这些是常见的,它们不能小于零。“左偏”分布不太常见,但可能会发生,例如在查看值不能大于 1 的小数值时。 ![Examples of right-skewed and long-tailed distributions. Left: Average wait times for security at SFO Terminal A (Jan-Oct 2017), obtained from https://awt.cbp.gov/ . Right: A histogram of the number of Facebook friends amongst 3,663 individuals, obtained from the Stanford Large Network Database. The person with the maximum number of friends is indicated by the diamond.](img/file8.png) -图3.7:右偏和长尾分布的例子。左图:SFO终端A的平均安检等待时间(2017年1月至10月),从[https://awt.cbp.gov/](https://awt.cbp.gov/)获得。右图:从斯坦福大学大型网络数据库获得的3663个人中脸书朋友数量的直方图。菱形表示拥有最多朋友的人。 +图 3.7:右偏和长尾分布的例子。左图:SFO 终端 A 的平均安检等待时间(2017 年 1 月至 10 月),从[https://awt.cbp.gov/](https://awt.cbp.gov/)获得。右图:从斯坦福大学大型网络数据库获得的 3663 个人中脸书朋友数量的直方图。菱形表示拥有最多朋友的人。 @@ -195,15 +195,15 @@ ### 3.3.2 长尾分布 -从历史上看,统计学主要关注正态分布的数据,但是有许多数据类型看起来一点也不像正态分布。特别是,许多现实世界的分布是“长尾”的,这意味着右尾远远超出了分布中最典型的成员;也就是说,它们是极度倾斜的。出现长尾分布的最有趣的数据类型之一来自于对社交网络的分析。举个例子,让我们看看来自[斯坦福大型网络数据库](https://snap.stanford.edu/data/egonets-Facebook.html)的脸书朋友数据,并绘制数据库中3663人的朋友数量直方图(见图 [3.7](#fig:SFOWaitTimes) 的右图)。正如我们所看到的,这个分布有一个很长的右尾巴——平均每个人有24.09个朋友,而拥有最多朋友的人(用蓝点表示)有1043个! +从历史上看,统计学主要关注正态分布的数据,但是有许多数据类型看起来一点也不像正态分布。特别是,许多现实世界的分布是“长尾”的,这意味着右尾远远超出了分布中最典型的成员;也就是说,它们是极度倾斜的。出现长尾分布的最有趣的数据类型之一来自于对社交网络的分析。举个例子,让我们看看来自[斯坦福大型网络数据库](https://snap.stanford.edu/data/egonets-Facebook.html)的脸书朋友数据,并绘制数据库中 3663 人的朋友数量直方图(见图 [3.7](#fig:SFOWaitTimes) 的右图)。正如我们所看到的,这个分布有一个很长的右尾巴——平均每个人有 24.09 个朋友,而拥有最多朋友的人(用蓝点表示)有 1043 个! 长尾分布在现实世界中越来越被认可。特别是,复杂系统的许多特征都是由这些分布来表征的,从文本中单词的频率,到进出不同机场的航班数量,到大脑网络的连通性。长尾分布有许多不同的方式,但一个常见的方式是基督教圣经中所谓的“马太效应”: -> 因为凡有的,还要加给他,叫他有馀。没有的,连他所有的也要夺去。——马太福音25:29,修订标准版 +> 因为凡有的,还要加给他,叫他有馀。没有的,连他所有的也要夺去。——马太福音 25:29,修订标准版 这通常被解释为“富人越来越富”。在这种情况下,优势是复合的,有更多朋友的人可以结交更多的新朋友,有更多钱的人有能力做更多的事情来增加他们的财富。 -随着课程的进行,我们将看到几个长尾分布的例子,我们应该记住,当面对长尾数据时,许多统计工具可能会失败。正如纳西姆·尼古拉斯·塔勒布在他的著作《黑天鹅》中指出的,这种长尾分布在2008年金融危机中发挥了关键作用,因为交易员使用的许多金融模型都假设金融系统将遵循正态分布,而事实显然并非如此。 +随着课程的进行,我们将看到几个长尾分布的例子,我们应该记住,当面对长尾数据时,许多统计工具可能会失败。正如纳西姆·尼古拉斯·塔勒布在他的著作《黑天鹅》中指出的,这种长尾分布在 2008 年金融危机中发挥了关键作用,因为交易员使用的许多金融模型都假设金融系统将遵循正态分布,而事实显然并非如此。 diff --git a/docs/04.md b/docs/04.md index f689dd4..24515eb 100644 --- a/docs/04.md +++ b/docs/04.md @@ -2,41 +2,41 @@ # 4 数据可视化 -1986年1月28日,挑战者号航天飞机在起飞后73秒爆炸,机上7名宇航员全部遇难。正如任何此类灾难发生时一样,官方对事故原因进行了调查,发现连接固体火箭助推器两段的O形环泄漏,导致接头失效和大型液体燃料箱爆炸(见图 [4.1](#fig:srbLeak) )。 +1986 年 1 月 28 日,挑战者号航天飞机在起飞后 73 秒爆炸,机上 7 名宇航员全部遇难。正如任何此类灾难发生时一样,官方对事故原因进行了调查,发现连接固体火箭助推器两段的 O 形环泄漏,导致接头失效和大型液体燃料箱爆炸(见图 [4.1](#fig:srbLeak) )。 ![An image of the solid rocket booster leaking fuel, seconds before the explosion. The small flame visible on the side of the rocket is the site of the O-ring failure. By NASA (Great Images in NASA Description) [Public domain], via Wikimedia Commons](img/file9.jpg) -图4.1:爆炸前几秒钟,固体火箭助推器泄漏燃料的图像。火箭侧面可见的小火焰就是O型圈失效的地方。由NASA(NASA描述中的伟大图像)[公共领域],通过维基共享 +图 4.1:爆炸前几秒钟,固体火箭助推器泄漏燃料的图像。火箭侧面可见的小火焰就是 O 型圈失效的地方。由 NASA(NASA 描述中的伟大图像)[公共领域],通过维基共享 -调查发现,美国宇航局决策过程的许多方面都存在缺陷,并特别关注美国宇航局工作人员与建造固体火箭助推器的承包商Morton Thiokol的工程师之间的会议。这些工程师特别担心,因为预计发射当天早上的温度会非常低,而且他们从以前的发射中获得的数据显示,O形圈的性能在较低的温度下会受到影响。在发射前一天晚上的一次会议上,工程师们向美国国家航空航天局的管理人员展示了他们的数据,但无法说服他们推迟发射。他们的证据是一组手写的幻灯片,显示了过去各次发射的数据。 +调查发现,美国宇航局决策过程的许多方面都存在缺陷,并特别关注美国宇航局工作人员与建造固体火箭助推器的承包商 Morton Thiokol 的工程师之间的会议。这些工程师特别担心,因为预计发射当天早上的温度会非常低,而且他们从以前的发射中获得的数据显示,O 形圈的性能在较低的温度下会受到影响。在发射前一天晚上的一次会议上,工程师们向美国国家航空航天局的管理人员展示了他们的数据,但无法说服他们推迟发射。他们的证据是一组手写的幻灯片,显示了过去各次发射的数据。 -可视化专家爱德华·塔夫特认为,如果恰当地展示所有数据,工程师们会更有说服力。特别是,他们可以展示类似于图 [4.2](#fig:challengerTemps) 中的图,这突出了两个重要的事实。首先,它表明O形环的损坏程度(由在以前的飞行中从海洋中回收固体火箭助推器后在环外发现的腐蚀和烟灰的数量来定义)与起飞时的温度密切相关。第二,它显示了1月28日早晨的预测温度范围(显示在阴影区域)远远超出了所有先前发射的范围。虽然我们不能确定,但至少看起来这可能更有说服力。 +可视化专家爱德华·塔夫特认为,如果恰当地展示所有数据,工程师们会更有说服力。特别是,他们可以展示类似于图 [4.2](#fig:challengerTemps) 中的图,这突出了两个重要的事实。首先,它表明 O 形环的损坏程度(由在以前的飞行中从海洋中回收固体火箭助推器后在环外发现的腐蚀和烟灰的数量来定义)与起飞时的温度密切相关。第二,它显示了 1 月 28 日早晨的预测温度范围(显示在阴影区域)远远超出了所有先前发射的范围。虽然我们不能确定,但至少看起来这可能更有说服力。 ![A replotting of Tufte's damage index data. The line shows the trend in the data, and the shaded patch shows the projected temperatures for the morning of the launch.](img/file10.png) -图4.2:Tufte损坏指数数据的重新绘制。这条线显示了数据的趋势,阴影部分显示了发射当天早上的预计温度。 +图 4.2:Tufte 损坏指数数据的重新绘制。这条线显示了数据的趋势,阴影部分显示了发射当天早上的预计温度。 ## 4.1 剧情剖析 -绘制数据的目的是以二维(有时是三维)形式呈现数据集的摘要。我们将尺寸称为*轴*——横轴称为 *X轴*,纵轴称为 *Y轴*。我们可以沿着轴排列数据,突出显示数据值。这些值可以是连续的,也可以是分类的。 +绘制数据的目的是以二维(有时是三维)形式呈现数据集的摘要。我们将尺寸称为*轴*——横轴称为 *X 轴*,纵轴称为 *Y 轴*。我们可以沿着轴排列数据,突出显示数据值。这些值可以是连续的,也可以是分类的。 -有许多不同类型的情节,我们可以使用,它们有不同的优点和缺点。假设我们对NHANES数据集中描述男女身高差异感兴趣。图 [4.3](#fig:plotHeight) 显示了绘制这些数据的四种不同方式。 +有许多不同类型的情节,我们可以使用,它们有不同的优点和缺点。假设我们对 NHANES 数据集中描述男女身高差异感兴趣。图 [4.3](#fig:plotHeight) 显示了绘制这些数据的四种不同方式。 -1. 面板A中的条形图显示了平均值的差异,但没有向我们显示这些平均值周围的数据分布有多大——正如我们稍后将看到的,了解这一点对于确定我们是否认为两组之间的差异足够大而重要是至关重要的。 +1. 面板 A 中的条形图显示了平均值的差异,但没有向我们显示这些平均值周围的数据分布有多大——正如我们稍后将看到的,了解这一点对于确定我们是否认为两组之间的差异足够大而重要是至关重要的。 2. 第二张图显示了所有数据点重叠的条形图——这使得男性和女性的身高分布重叠变得更加清晰,但由于数据点的数量很大,仍然很难看到。 总的来说,我们更喜欢使用一种绘图技术,这种技术可以提供数据点分布的更清晰的视图。 -3. 在面板C中,我们看到一个*小提琴图*的例子,它绘制了每种条件下的数据分布(稍微平滑后)。 +3. 在面板 C 中,我们看到一个*小提琴图*的例子,它绘制了每种条件下的数据分布(稍微平滑后)。 -4. 另一个选项是面板D中显示的*盒图*,它显示了中位数(中心线)、可变性的度量(盒的宽度,基于称为四分位距的度量)和任何异常值(由线末端的点标注)。这些都是显示数据的有效方法,为数据的分布提供了良好的感觉。 +4. 另一个选项是面板 D 中显示的*盒图*,它显示了中位数(中心线)、可变性的度量(盒的宽度,基于称为四分位距的度量)和任何异常值(由线末端的点标注)。这些都是显示数据的有效方法,为数据的分布提供了良好的感觉。 ![Four different ways of plotting the difference in height between men and women in the NHANES dataset. Panel A plots the means of the two groups, which gives no way to assess the relative overlap of the two distributions. Panel B shows the same bars, but also overlays the data points, jittering them so that we can see their overall distribution. Panel C shows a violin plot, which shows the distribution of the datasets for each group. Panel D shows a box plot, which highlights the spread of the distribution along with any outliers (which are shown as individual points).](img/file11.png) -图4.3:绘制NHANES数据集中男女身高差异的四种不同方法。图A绘出了两组的平均值,这没有给出评估两个分布的相对重叠的方法。图B显示了相同的条形,但也覆盖了数据点,使它们抖动,以便我们可以看到它们的总体分布。面板C显示了小提琴图,其显示了每个组的数据集的分布。图D显示了一个箱形图,该图突出显示了分布范围以及任何异常值(显示为单个点)。 +图 4.3:绘制 NHANES 数据集中男女身高差异的四种不同方法。图 A 绘出了两组的平均值,这没有给出评估两个分布的相对重叠的方法。图 B 显示了相同的条形,但也覆盖了数据点,使它们抖动,以便我们可以看到它们的总体分布。面板 C 显示了小提琴图,其显示了每个组的数据集的分布。图 D 显示了一个箱形图,该图突出显示了分布范围以及任何异常值(显示为单个点)。 @@ -52,19 +52,19 @@ 假设我进行了一项研究,调查了牙齿健康和使用牙线时间之间的关系,我想将我的数据可视化。图 [4.4](#fig:dentalFigs) 显示了这些数据的四种可能呈现方式。 -1. 在面板A中,我们实际上没有显示数据,只是用一条线来表示数据之间的关系。这显然不是最优的,因为我们实际上看不到底层数据是什么样的。 +1. 在面板 A 中,我们实际上没有显示数据,只是用一条线来表示数据之间的关系。这显然不是最优的,因为我们实际上看不到底层数据是什么样的。 -面板B-D显示了绘制实际数据的三种可能的结果,其中每个图显示了数据可能出现的不同方式。 +面板 B-D 显示了绘制实际数据的三种可能的结果,其中每个图显示了数据可能出现的不同方式。 -2. 如果我们看到面板B中的图,我们可能会怀疑——真实数据很少遵循如此精确的模式。 +2. 如果我们看到面板 B 中的图,我们可能会怀疑——真实数据很少遵循如此精确的模式。 -3. 另一方面,C图中的数据看起来像真实的数据——它们显示了总体趋势,但它们是杂乱的,就像世界上的数据通常是这样。 +3. 另一方面,C 图中的数据看起来像真实的数据——它们显示了总体趋势,但它们是杂乱的,就像世界上的数据通常是这样。 -4. 面板D中的数据向我们展示了这两个变量之间的明显关系完全是由一个个体引起的,我们称这个个体为*异常值*,因为他们远远落在群体中其他人的模式之外。应该清楚的是,我们可能不想从一个数据点驱动的效应中得出太多结论。这个数字强调了为什么*总是*在过于相信任何数据摘要之前查看原始数据是重要的。 +4. 面板 D 中的数据向我们展示了这两个变量之间的明显关系完全是由一个个体引起的,我们称这个个体为*异常值*,因为他们远远落在群体中其他人的模式之外。应该清楚的是,我们可能不想从一个数据点驱动的效应中得出太多结论。这个数字强调了为什么*总是*在过于相信任何数据摘要之前查看原始数据是重要的。 ![Four different possible presentations of data for the dental health example. Each point in the scatter plot represents one data point in the dataset, and the line in each plot represents the linear trend in the data.](img/file12.png) -图4.4:牙齿健康示例的四种不同的可能数据表示。散点图中的每个点代表数据集中的一个数据点,每个图中的线条代表数据中的线性趋势。 +图 4.4:牙齿健康示例的四种不同的可能数据表示。散点图中的每个点代表数据集中的一个数据点,每个图中的线条代表数据中的线性趋势。 @@ -74,11 +74,11 @@ 爱德华·塔夫特提出了一个叫做数据/墨水比率的想法: -T3】dT5】ata/ InkratIo=amon ondatatotala used\,on\,data}{total\,amount\,of\,ink} 这样做的目的是尽量减少视觉上的杂乱,让数据透显出来。 例如,以图 [4.5](#fig:dataInkExample) 中牙齿健康数据的两个展示为例。两个面板显示相同的数据,但面板A更容易理解,因为它的数据/油墨比率相对较高。 +T3】dT5】ata/ InkratIo=amon ondatatotala used\,on\,data}{total\,amount\,of\,ink} 这样做的目的是尽量减少视觉上的杂乱,让数据透显出来。 例如,以图 [4.5](#fig:dataInkExample) 中牙齿健康数据的两个展示为例。两个面板显示相同的数据,但面板 A 更容易理解,因为它的数据/油墨比率相对较高。 ![An example of the same data plotted with two different data/ink ratios.](img/file13.png) -图4.5:用两种不同的数据/油墨比例绘制的相同数据的示例。 +图 4.5:用两种不同的数据/油墨比例绘制的相同数据的示例。 @@ -88,7 +88,7 @@ 在流行媒体上看到的数据展示中,有许多与内容主题相关但与实际数据无关的视觉元素,这种情况尤其常见。这就是所谓的 *chartjunk* ,应该不惜一切代价避免。 -避免图表垃圾的一个好方法是避免使用流行的电子表格程序来绘制数据。例如,图 [4.6](#fig:chartJunk) (使用Microsoft Excel创建)中的图表绘制了不同宗教在美国的相对受欢迎程度。这个数字至少有三个问题: +避免图表垃圾的一个好方法是避免使用流行的电子表格程序来绘制数据。例如,图 [4.6](#fig:chartJunk) (使用 Microsoft Excel 创建)中的图表绘制了不同宗教在美国的相对受欢迎程度。这个数字至少有三个问题: * 它有图形覆盖在每个条上,与实际数据无关 * 它有一个令人分心的背景纹理 @@ -96,7 +96,7 @@ ![An example of chart junk.](img/file14.png) -图4.6:图表垃圾的一个例子。 +图 4.6:图表垃圾的一个例子。 @@ -108,25 +108,25 @@ ![Crime data from 1990 to 2014 plotted over time. Panels A and B show the same data, but with different ranges of values along the Y axis. Data obtained from https://www.ucrdatatool.gov/Search/Crime/State/RunCrimeStatebyState.cfm](img/file15.png) -图4.7:1990年至2014年的犯罪数据随时间的变化。图A和B显示了相同的数据,但是沿Y轴的数值范围不同。数据来源于[https://www . ucrdatool . gov/Search/Crime/State/runcrimestatebystate . cfm](https://www.ucrdatatool.gov/Search/Crime/State/RunCrimeStatebyState.cfm) +图 4.7:1990 年至 2014 年的犯罪数据随时间的变化。图 A 和 B 显示了相同的数据,但是沿 Y 轴的数值范围不同。数据来源于[https://www . ucrdatool . gov/Search/Crime/State/runcrimestatebystate . cfm](https://www.ucrdatatool.gov/Search/Crime/State/RunCrimeStatebyState.cfm) -统计数据可视化中的一个主要争议是如何选择Y轴,特别是它是否应该总是包含零。在他的名著《如何用统计数据撒谎》中,达雷尔·赫夫强烈主张人们应该总是把零点放在Y轴上。另一方面,爱德华·塔夫特对此进行了反驳: +统计数据可视化中的一个主要争议是如何选择 Y 轴,特别是它是否应该总是包含零。在他的名著《如何用统计数据撒谎》中,达雷尔·赫夫强烈主张人们应该总是把零点放在 Y 轴上。另一方面,爱德华·塔夫特对此进行了反驳: > “一般来说,在时间序列中,使用显示数据的基线,而不是零点;不要以隐藏数据线本身的情况为代价,花费大量空的垂直空间试图向下到达零点。”(来自[https://qz . com/418083/its-ok-not-to-start-your-y-axis-at-zero/](https://qz.com/418083/its-ok-not-to-start-your-y-axis-at-zero/)) -肯定有使用零点毫无意义的情况。假设我们对绘制一段时间内个体的体温感兴趣。在图 [4.8](#fig:bodyTempAxis) 中,我们绘制了Y轴上有零或没有零的相同(模拟)数据。显而易见的是,通过将这些数据标绘为Y轴上的零点(图A ),我们在图中浪费了大量的空间,因为一个活人的体温不可能达到零点!通过将零度包括在内,我们也使第21-30天的温度明显上升变得不那么明显。一般来说,我倾向于使用线图和散点图中的所有空间,除非零点真的非常重要。 +肯定有使用零点毫无意义的情况。假设我们对绘制一段时间内个体的体温感兴趣。在图 [4.8](#fig:bodyTempAxis) 中,我们绘制了 Y 轴上有零或没有零的相同(模拟)数据。显而易见的是,通过将这些数据标绘为 Y 轴上的零点(图 A ),我们在图中浪费了大量的空间,因为一个活人的体温不可能达到零点!通过将零度包括在内,我们也使第 21-30 天的温度明显上升变得不那么明显。一般来说,我倾向于使用线图和散点图中的所有空间,除非零点真的非常重要。 ![Body temperature over time, plotted with or without the zero point in the Y axis.](img/file16.png) -图4.8:体温随时间的变化,在Y轴上有或没有零点的情况下绘制。 +图 4.8:体温随时间的变化,在 Y 轴上有或没有零点的情况下绘制。 -爱德华·塔夫特引入了*寿命因子*的概念来描述可视化中的物理差异对应于数据差异的程度。如果图形的李氏因子接近1,那么它可以恰当地表示数据,而李氏因子远离1则反映了基础数据的失真。 +爱德华·塔夫特引入了*寿命因子*的概念来描述可视化中的物理差异对应于数据差异的程度。如果图形的李氏因子接近 1,那么它可以恰当地表示数据,而李氏因子远离 1 则反映了基础数据的失真。 -在许多情况下,谎言因素支持应该在条形图中包含零点的论点。在图 [4.9](#fig:barCharLieFactor) 中,我们绘制了Y轴上有无零点的相同数据。在图A中,两个条形之间的面积比例差与数值之间的面积比例差完全相同(即lie因子= 1),而在图B中(其中不包括零),两个条形之间的面积比例差大约是数值比例差的2.8倍,因此在视觉上夸大了差异的大小。 +在许多情况下,谎言因素支持应该在条形图中包含零点的论点。在图 [4.9](#fig:barCharLieFactor) 中,我们绘制了 Y 轴上有无零点的相同数据。在图 A 中,两个条形之间的面积比例差与数值之间的面积比例差完全相同(即 lie 因子= 1),而在图 B 中(其中不包括零),两个条形之间的面积比例差大约是数值比例差的 2.8 倍,因此在视觉上夸大了差异的大小。 ![Two bar charts with associated lie factors.](img/file17.png) -图4.9:两个带有相关寿命因子的条形图。 +图 4.9:两个带有相关寿命因子的条形图。 @@ -146,23 +146,23 @@ ![Example of a bad figure that relies solely on color contrast.](img/file18.png) -图4.10:仅仅依靠颜色对比的坏图的例子。 +图 4.10:仅仅依靠颜色对比的坏图的例子。 即使是色觉完美的人,也有感知上的局限,可以让一些情节失效。这就是为什么统计学家从不使用饼状图的原因之一:人类很难准确感知形状体积的差异。图 [4.11](#fig:pieChart) 中的饼状图(展示了我们上面展示的相同的宗教信仰数据)显示了这有多棘手。 ![An example of a pie chart, highlighting the difficulty in apprehending the relative volume of the different pie slices.](img/file19.png) -图4.11:一个饼图的例子,突出了理解不同饼图切片的相对体积的困难。 +图 4.11:一个饼图的例子,突出了理解不同饼图切片的相对体积的困难。 -这个情节很可怕,有几个原因。首先,它需要从图形底部非常小的斑块中区分大量的颜色。第二,视觉视角扭曲了相对数字,因此天主教的饼图楔形看起来比无的饼图楔形大得多,而事实上无的数字略大(22.8%比20.8%),如图 [4.6](#fig:chartJunk) 所示。第三,通过将图例从图形中分离出来,它要求观察者将信息保存在他们的工作记忆中,以便在图形和图例之间进行映射,并且进行许多“表格查找”,以便持续地将图例标签与可视化相匹配。最后,它使用的文本太小,不放大就无法阅读。 +这个情节很可怕,有几个原因。首先,它需要从图形底部非常小的斑块中区分大量的颜色。第二,视觉视角扭曲了相对数字,因此天主教的饼图楔形看起来比无的饼图楔形大得多,而事实上无的数字略大(22.8%比 20.8%),如图 [4.6](#fig:chartJunk) 所示。第三,通过将图例从图形中分离出来,它要求观察者将信息保存在他们的工作记忆中,以便在图形和图例之间进行映射,并且进行许多“表格查找”,以便持续地将图例标签与可视化相匹配。最后,它使用的文本太小,不放大就无法阅读。 -使用更合理的方法绘制数据(图 [4.12](#fig:religionBars) ),我们可以更清楚地看到模式。该图可能看起来不像使用Excel生成的饼图那样华丽,但它是更有效、更准确的数据表示。 +使用更合理的方法绘制数据(图 [4.12](#fig:religionBars) ),我们可以更清楚地看到模式。该图可能看起来不像使用 Excel 生成的饼图那样华丽,但它是更有效、更准确的数据表示。 ![A clearer presentation of the religious affiliation data (obtained from http://www.pewforum.org/religious-landscape-study/).](img/file20.png) -图4.12:宗教归属数据的更清晰展示(从[http://www.pewforum.org/religious-landscape-study/](http://www.pewforum.org/religious-landscape-study/)获得)。 +图 4.12:宗教归属数据的更清晰展示(从[http://www.pewforum.org/religious-landscape-study/](http://www.pewforum.org/religious-landscape-study/)获得)。 -该图允许观察者基于沿公共刻度(y轴)的条形长度进行比较。当基于这些感知元素解码差异时,人类往往比基于面积或颜色更准确。 +该图允许观察者基于沿公共刻度(y 轴)的条形长度进行比较。当基于这些感知元素解码差异时,人类往往比基于面积或颜色更准确。 @@ -176,7 +176,7 @@ ![The price of gasoline in the US from 1930 to 2013 (obtained from http://www.thepeoplehistory.com/70yearsofpricechange.html) with or without correction for inflation (based on Consumer Price Index).](img/file21.png) -图4.13:1930年至2013年美国汽油价格(从[http://www.thepeoplehistory.com/70yearsofpricechange.html](http://www.thepeoplehistory.com/70yearsofpricechange.html)获得),有无通货膨胀修正(基于消费者价格指数)。 +图 4.13:1930 年至 2013 年美国汽油价格(从[http://www.thepeoplehistory.com/70yearsofpricechange.html](http://www.thepeoplehistory.com/70yearsofpricechange.html)获得),有无通货膨胀修正(基于消费者价格指数)。 @@ -197,7 +197,7 @@ ## 4.6 建议阅读和视频 * [](https://serialmentor.com/dataviz/)*数据可视化基础,Claus Wilke* -** 视觉解说,爱德华·塔夫特* *可视化数据*,作者威廉·s·克利夫兰* Stephen M. Kosslyn的《眼睛和心灵的图形设计》* [*人类如何看待数据*](https://www.youtube.com/watch?v=fSgEeI2Xpdc&feature=youtu.be) ,作者约翰·劳瑟* +** 视觉解说,爱德华·塔夫特* *可视化数据*,作者威廉·s·克利夫兰* Stephen M. Kosslyn 的《眼睛和心灵的图形设计》* [*人类如何看待数据*](https://www.youtube.com/watch?v=fSgEeI2Xpdc&feature=youtu.be) ,作者约翰·劳瑟* diff --git a/docs/05.md b/docs/05.md index c3b9158..7036270 100644 --- a/docs/05.md +++ b/docs/05.md @@ -30,11 +30,11 @@ ## 5.2 统计建模:示例 -让我们来看一个使用NHANES中的数据构建数据模型的例子。特别是,我们将尝试在NHANES样本中建立一个儿童身高模型。首先,让我们加载数据并绘制它们(见图 [5.1](#fig:childHeight) )。 +让我们来看一个使用 NHANES 中的数据构建数据模型的例子。特别是,我们将尝试在 NHANES 样本中建立一个儿童身高模型。首先,让我们加载数据并绘制它们(见图 [5.1](#fig:childHeight) )。 ![Histogram of height of children in NHANES.](img/file22.png) -图5.1:NHANES儿童身高直方图。 +图 5.1:NHANES 儿童身高直方图。 请记住,我们希望尽可能简单地描述数据,同时仍然捕获它们的重要特征。我们能想象到的最简单的模型只包含一个数字;也就是说,该模型将为每个观察值预测相同的值,而不管我们对这些观察值还知道什么。我们通常根据模型的*参数*来描述模型,这些参数是我们可以改变的值,以便修改模型的预测。在整本书中我们将引用这些使用希腊字母β(【β】);当模型有多个参数时,我们将使用带下标的数字来表示不同的贝塔系数(例如β1\ beta _ 1)。习惯上也是用字母yy来指代数据的值,用下标版本yIy _ I来指代个体观察值。 @@ -44,13 +44,13 @@ 下标II并没有出现在方程的右侧,这意味着模型的预测并不取决于我们在看哪一个观测值——对它们都是一样的。问题就变成了:我们如何估计模型中参数的最佳值?在这种特殊情况下,β的最佳估计值是什么?更重要的是,我们如何定义最好的? -我们可以想象的一个非常简单的估计器是*模式*,它只是数据集中最常见的值。这用一个数字重新描述了1691个孩子的全部集合。如果我们想预测任何新生儿的身高,那么我们的预测值将是相同的数字: +我们可以想象的一个非常简单的估计器是*模式*,它只是数据集中最常见的值。这用一个数字重新描述了 1691 个孩子的全部集合。如果我们想预测任何新生儿的身高,那么我们的预测值将是相同的数字: yÎ=166.5\ hat { y _ I } = 166.5那么每个个体的误差就是预测值之间的差(y 【e】【r】【r】【r】【o】【r】 -这个模型有多好?一般来说,我们根据误差的大小来定义模型的好坏,误差代表数据偏离模型预测的程度;在所有条件相同的情况下,产生较低误差的模型是较好的模型。(尽管我们将在后面看到,所有的事情通常都不相等……)我们在这种情况下发现,当我们使用该模式作为我们对【β】\ beta的估计值时,平均个体有相当大的误差-28.8厘米,这从表面上看似乎不太好。 +这个模型有多好?一般来说,我们根据误差的大小来定义模型的好坏,误差代表数据偏离模型预测的程度;在所有条件相同的情况下,产生较低误差的模型是较好的模型。(尽管我们将在后面看到,所有的事情通常都不相等……)我们在这种情况下发现,当我们使用该模式作为我们对【β】\ beta的估计值时,平均个体有相当大的误差-28.8 厘米,这从表面上看似乎不太好。 我们如何为我们的模型参数找到一个更好的估计量?我们可以从寻找一个平均误差为零的估计量开始。一个很好的选择是算术平均值(即*平均值*,通常用变量上的横线表示,如x\ bar { x }),计算为所有值的总和除以值的个数。数学上,我们将其表达为: @@ -60,25 +60,25 @@ ![Distribution of errors from the mean.](img/file23.png) -图5.2:平均值的误差分布。 +图 5.2:平均值的误差分布。 负误差和正误差相互抵消的事实意味着两个不同的模型可能具有绝对值非常不同的误差,但仍然具有相同的平均误差。这正是为什么平均误差不是我们估计量的一个好标准;我们希望有一个标准,无论误差方向如何,都能尽量减小总误差。出于这个原因,我们通常根据某种度量来总结错误,这种度量将正错误和负错误都算作是不好的。我们可以使用每个误差值的绝对值,但更常见的是使用平方误差,原因我们将在本书后面看到。 -有几种常见的方法来总结你将在本书的不同点上遇到的平方误差,所以理解它们之间的关系是很重要的。首先,我们可以简单地将它们相加;这被称为*误差平方和*。我们通常不使用它的原因是,它的大小取决于数据点的数量,因此它可能很难解释,除非我们正在查看相同数量的观察值。第二,我们可以取平方误差值的平均值,这被称为*均方误差(MSE)* 。然而,因为我们在取平均值之前对这些值进行了平方,所以它们与原始数据不在同一尺度上;他们分别是centImeters2centimeters^2出于这个原因,通常也取MSE的平方根,我们称之为*均方根误差(RMSE)* ,这样误差的测量单位与原始值相同(本例中为厘米)。 +有几种常见的方法来总结你将在本书的不同点上遇到的平方误差,所以理解它们之间的关系是很重要的。首先,我们可以简单地将它们相加;这被称为*误差平方和*。我们通常不使用它的原因是,它的大小取决于数据点的数量,因此它可能很难解释,除非我们正在查看相同数量的观察值。第二,我们可以取平方误差值的平均值,这被称为*均方误差(MSE)* 。然而,因为我们在取平均值之前对这些值进行了平方,所以它们与原始数据不在同一尺度上;他们分别是centImeters2centimeters^2出于这个原因,通常也取 MSE 的平方根,我们称之为*均方根误差(RMSE)* ,这样误差的测量单位与原始值相同(本例中为厘米)。 -平均值有相当大的误差——任何单独的数据点平均距离平均值约27厘米——但它仍然比模式好得多,后者的均方根误差约为39厘米。 +平均值有相当大的误差——任何单独的数据点平均距离平均值约 27 厘米——但它仍然比模式好得多,后者的均方根误差约为 39 厘米。 ### 5.2.1 改进我们的模型 -我们能想象出更好的模式吗?请记住,这些数据来自NHANES样本中的所有儿童,年龄从2岁到17岁不等。考虑到这一广泛的年龄范围,我们可能期望我们的身高模型也应该包括年龄。让我们把身高和年龄的数据画出来,看看这种关系是否真的存在。 +我们能想象出更好的模式吗?请记住,这些数据来自 NHANES 样本中的所有儿童,年龄从 2 岁到 17 岁不等。考虑到这一广泛的年龄范围,我们可能期望我们的身高模型也应该包括年龄。让我们把身高和年龄的数据画出来,看看这种关系是否真的存在。 ![Height of children in NHANES, plotted without a model (A), with a linear model including only age (B) or age and a constant (C), and with a linear model that fits separate effects of age for males and females (D).](img/file24.png) -图5.3:NHANES儿童的身高,绘制时未使用模型(A),线性模型仅包含年龄(B)或年龄和常数(C),线性模型适用于男性和女性的不同年龄效应(D)。 +图 5.3:NHANES 儿童的身高,绘制时未使用模型(A),线性模型仅包含年龄(B)或年龄和常数(C),线性模型适用于男性和女性的不同年龄效应(D)。 -图 [5.3](#fig:childHeightLine) 面板A中的黑点显示了数据集中的个体,正如我们所料,身高和年龄之间似乎有很强的关系。因此,我们可以建立一个将身高和年龄联系起来的模型: +图 [5.3](#fig:childHeightLine) 面板 A 中的黑点显示了数据集中的个体,正如我们所料,身高和年龄之间似乎有很强的关系。因此,我们可以建立一个将身高和年龄联系起来的模型: 【I】= @@ -88,17 +88,17 @@ =【p】 -如果年龄是XX变量,那么这意味着我们根据年龄对身高的预测将是一条斜率为β且截距为零的线——为了查看这一点,让我们在数据顶部用蓝色绘制最佳拟合线(图 [5.3](#fig:childHeightLine) 中的B图)。这个模型显然有问题,因为这条线似乎没有很好地遵循数据。事实上,该模型的RMSE(39.16)实际上高于仅包括平均值的模型!问题在于我们的模型只包括年龄,这意味着当年龄为零时,模型预测的身高值必须为零。即使数据不包括任何年龄为零的孩子,当x为零时,该线在数学上需要具有为零的y值,这解释了为什么该线被下拉到较年轻的数据点之下。我们可以通过在我们的模型中包含一个截距来解决这个问题,截距基本上代表年龄等于零时的估计身高;尽管零年龄在该数据集中是不合理的,但这是一个数学技巧,允许模型考虑数据的总体大小。模型是: +如果年龄是XX变量,那么这意味着我们根据年龄对身高的预测将是一条斜率为β且截距为零的线——为了查看这一点,让我们在数据顶部用蓝色绘制最佳拟合线(图 [5.3](#fig:childHeightLine) 中的 B 图)。这个模型显然有问题,因为这条线似乎没有很好地遵循数据。事实上,该模型的 RMSE(39.16)实际上高于仅包括平均值的模型!问题在于我们的模型只包括年龄,这意味着当年龄为零时,模型预测的身高值必须为零。即使数据不包括任何年龄为零的孩子,当 x 为零时,该线在数学上需要具有为零的 y 值,这解释了为什么该线被下拉到较年轻的数据点之下。我们可以通过在我们的模型中包含一个截距来解决这个问题,截距基本上代表年龄等于零时的估计身高;尽管零年龄在该数据集中是不合理的,但这是一个数学技巧,允许模型考虑数据的总体大小。模型是: 【I】= -其中β0̂\ hat { \ beta _ 0 }是我们对*截距*的估计值,它是一个常数值,加到对每个个体的预测中;我们称之为截距,因为它映射到直线方程的截距上。我们将在后面了解我们实际上是如何为一个特定的数据集估计这些参数值的;现在,我们将使用我们的统计软件来估计参数值,使我们对这些特定数据的误差最小。图 [5.3](#fig:childHeightLine) 中的子图C显示了应用于NHANES数据的模型,其中我们看到该线比没有常数的线更好地匹配了数据。 +其中β0̂\ hat { \ beta _ 0 }是我们对*截距*的估计值,它是一个常数值,加到对每个个体的预测中;我们称之为截距,因为它映射到直线方程的截距上。我们将在后面了解我们实际上是如何为一个特定的数据集估计这些参数值的;现在,我们将使用我们的统计软件来估计参数值,使我们对这些特定数据的误差最小。图 [5.3](#fig:childHeightLine) 中的子图 C 显示了应用于 NHANES 数据的模型,其中我们看到该线比没有常数的线更好地匹配了数据。 -使用这个模型,我们的误差要小得多——平均只有8.36厘米。你能想到其他可能与身高有关的变量吗?性别呢?在图 [5.3](#fig:childHeightLine) 的D图中,我们用分别适合男性和女性的线绘制数据。从剧情上看,似乎是有雌雄之分的,但比较小,只在青春期年龄后才出现。在图 [5.4](#fig:msePlot) 中,我们绘制了不同模型的均方根误差值,包括一个带有模拟性别影响的附加参数的模型。从这里我们可以看到,从众数到平均数,模型变得更好了一点,从平均数到平均数+年龄,模型变得更好了一点,并且通过包括性别也变得稍微好了一点。 +使用这个模型,我们的误差要小得多——平均只有 8.36 厘米。你能想到其他可能与身高有关的变量吗?性别呢?在图 [5.3](#fig:childHeightLine) 的 D 图中,我们用分别适合男性和女性的线绘制数据。从剧情上看,似乎是有雌雄之分的,但比较小,只在青春期年龄后才出现。在图 [5.4](#fig:msePlot) 中,我们绘制了不同模型的均方根误差值,包括一个带有模拟性别影响的附加参数的模型。从这里我们可以看到,从众数到平均数,模型变得更好了一点,从平均数到平均数+年龄,模型变得更好了一点,并且通过包括性别也变得稍微好了一点。 ![Mean squared error plotted for each of the models tested above.](img/file25.png) -图5.4:上面测试的每个模型的均方误差图。 +图 5.4:上面测试的每个模型的均方误差图。 @@ -112,17 +112,17 @@ 为了理解这一点,我们来考虑一下误差来自哪里。首先,如果我们的模型是错误的,它就会发生;例如,如果我们不准确地说身高随着年龄的增长而下降,而不是上升,那么我们的误差将高于正确模型的误差。类似地,如果我们的模型中缺少了一个重要的因素,这也会增加我们的误差(就像我们在身高模型中忽略年龄时一样)。然而,由于数据中的随机变化,即使模型是正确的,也可能出现误差,我们通常称之为“测量误差”或“噪声”。有时这真的是由于我们的测量中的误差——例如,当测量依赖于人时,比如使用秒表来测量赛跑中所用的时间。在其他情况下,我们的测量设备是高度精确的(就像测量体重的数字秤),但被测量的东西受到许多不同因素的影响,导致它是可变的。如果我们知道所有这些因素,那么我们可以建立一个更准确的模型,但在现实中这几乎是不可能的。 -让我们用一个例子来说明这一点。我们将使用计算机模拟来生成一些数据,而不是使用真实的数据(关于这一点,我们将在几章中详细介绍)。假设我们想要了解一个人的血液酒精含量(BAC)与他们在模拟驾驶测试中的反应时间之间的关系。我们可以生成一些模拟数据并绘制关系图(见图 [5.5](#fig:BACrt) 的A图)。 +让我们用一个例子来说明这一点。我们将使用计算机模拟来生成一些数据,而不是使用真实的数据(关于这一点,我们将在几章中详细介绍)。假设我们想要了解一个人的血液酒精含量(BAC)与他们在模拟驾驶测试中的反应时间之间的关系。我们可以生成一些模拟数据并绘制关系图(见图 [5.5](#fig:BACrt) 的 A 图)。 ![Simulated relationship between blood alcohol content and reaction time on a driving test, with best-fitting linear model represented by the line. A: linear relationship with low measurement error. B: linear relationship with higher measurement error. C: Nonlinear relationship with low measurement error and (incorrect) linear model](img/file26.png) -图5.5:驾驶测试中血液酒精含量和反应时间之间的模拟关系,最佳拟合线性模型用直线表示。答:线性关系,测量误差小。b:线性关系,测量误差较高。c:具有低测量误差和(不正确的)线性模型的非线性关系 +图 5.5:驾驶测试中血液酒精含量和反应时间之间的模拟关系,最佳拟合线性模型用直线表示。答:线性关系,测量误差小。b:线性关系,测量误差较高。c:具有低测量误差和(不正确的)线性模型的非线性关系 在本例中,反应时间随着血液酒精含量的增加而有系统地增加——这条线显示了最佳拟合模型,我们可以看到误差非常小,这一点在所有的点都非常接近这条线这一事实中是显而易见的。 -我们也可以想象数据显示同样的线性关系,但有更多的误差,如图 [5.5](#fig:BACrt) 的B图所示。在这里,我们看到对BAC的反应时间仍有系统性的增加,但个体之间的差异更大。 +我们也可以想象数据显示同样的线性关系,但有更多的误差,如图 [5.5](#fig:BACrt) 的 B 图所示。在这里,我们看到对 BAC 的反应时间仍有系统性的增加,但个体之间的差异更大。 -在这两个例子中,两个变量之间的关系似乎是线性的,误差反映了我们测量中的噪声。另一方面,在其他情况下,变量之间的关系不是线性的,并且由于没有适当地指定模型,误差会增加。假设我们对咖啡因摄入量和测试成绩之间的关系感兴趣。像咖啡因这样的兴奋剂和测试表现之间的关系通常是非线性的,也就是说,它并不遵循一条直线。这是因为咖啡因用量越少,人的表现越好(因为这个人变得更加警觉),但用量越大,表现就越差(因为这个人变得紧张不安)。我们可以模拟这种形式的数据,然后用线性模型拟合数据(见图 [5.5](#fig:BACrt) 的子图C)。蓝线表示最符合这些数据的直线;很明显,这里有很大的误差。尽管在测试成绩和咖啡因摄入量之间有一个非常合法的关系,它遵循一条曲线而不是一条直线。假设线性关系的模型具有很高的误差,因为它对于这些数据是错误的模型。 +在这两个例子中,两个变量之间的关系似乎是线性的,误差反映了我们测量中的噪声。另一方面,在其他情况下,变量之间的关系不是线性的,并且由于没有适当地指定模型,误差会增加。假设我们对咖啡因摄入量和测试成绩之间的关系感兴趣。像咖啡因这样的兴奋剂和测试表现之间的关系通常是非线性的,也就是说,它并不遵循一条直线。这是因为咖啡因用量越少,人的表现越好(因为这个人变得更加警觉),但用量越大,表现就越差(因为这个人变得紧张不安)。我们可以模拟这种形式的数据,然后用线性模型拟合数据(见图 [5.5](#fig:BACrt) 的子图 C)。蓝线表示最符合这些数据的直线;很明显,这里有很大的误差。尽管在测试成绩和咖啡因摄入量之间有一个非常合法的关系,它遵循一条曲线而不是一条直线。假设线性关系的模型具有很高的误差,因为它对于这些数据是错误的模型。 @@ -136,9 +136,9 @@ ![An example of overfitting. Both datasets were generated using the same model, with different random noise added to generate each set. The left panel shows the data used to fit the model, with a simple linear fit in blue and a complex (8th order polynomial) fit in red. The root mean square error (RMSE) values for each model are shown in the figure; in this case, the complex model has a lower RMSE than the simple model. The right panel shows the second dataset, with the same model overlaid on it and the RMSE values computed using the model obtained from the first dataset. Here we see that the simpler model actually fits the new dataset better than the more complex model, which was overfitted to the first dataset.](img/file27.png) -图5.6:过度拟合的例子。两个数据集都是使用相同的模型生成的,每个数据集都添加了不同的随机噪声。左图显示了用于拟合模型的数据,简单的线性拟合用蓝色表示,复杂的(8阶多项式)拟合用红色表示。每个模型的均方根误差(RMSE)值如图所示;在这种情况下,复杂模型的RMSE低于简单模型。右侧面板显示了第二个数据集,其上覆盖了相同的模型,并且使用从第一个数据集获得的模型计算了RMSE值。在这里,我们看到更简单的模型实际上比更复杂的模型更适合新的数据集,更复杂的模型过度适合第一个数据集。 +图 5.6:过度拟合的例子。两个数据集都是使用相同的模型生成的,每个数据集都添加了不同的随机噪声。左图显示了用于拟合模型的数据,简单的线性拟合用蓝色表示,复杂的(8 阶多项式)拟合用红色表示。每个模型的均方根误差(RMSE)值如图所示;在这种情况下,复杂模型的 RMSE 低于简单模型。右侧面板显示了第二个数据集,其上覆盖了相同的模型,并且使用从第一个数据集获得的模型计算了 RMSE 值。在这里,我们看到更简单的模型实际上比更复杂的模型更适合新的数据集,更复杂的模型过度适合第一个数据集。 -图 [5.6](#fig:Overfitting) 中的左图显示,更复杂的模型(红色)比更简单的模型(蓝色)更符合数据。然而,当相同的模型应用于以相同方式生成的新数据集时,我们看到了相反的情况——在这里,我们看到较简单的模型比较复杂的模型更适合新数据。直观地,我们可以看到,更复杂的模型受第一个数据集中特定数据点的影响很大;由于这些数据点的确切位置是由随机噪声驱动的,这导致更复杂的模型不适合新数据集。这就是我们所说的*过度拟合*现象。现在重要的是要记住我们的模型需要很好,但不能太好。正如艾伯特·爱因斯坦(1933年)所说:“几乎不能否认,所有理论的最高目标是在不放弃一个经验数据的充分表示的情况下,使不可约的基本元素尽可能简单和少。”这句话经常被解释为:“一切都应该尽可能简单,但不能更简单。” +图 [5.6](#fig:Overfitting) 中的左图显示,更复杂的模型(红色)比更简单的模型(蓝色)更符合数据。然而,当相同的模型应用于以相同方式生成的新数据集时,我们看到了相反的情况——在这里,我们看到较简单的模型比较复杂的模型更适合新数据。直观地,我们可以看到,更复杂的模型受第一个数据集中特定数据点的影响很大;由于这些数据点的确切位置是由随机噪声驱动的,这导致更复杂的模型不适合新数据集。这就是我们所说的*过度拟合*现象。现在重要的是要记住我们的模型需要很好,但不能太好。正如艾伯特·爱因斯坦(1933 年)所说:“几乎不能否认,所有理论的最高目标是在不放弃一个经验数据的充分表示的情况下,使不可约的基本元素尽可能简单和少。”这句话经常被解释为:“一切都应该尽可能简单,但不能更简单。” @@ -152,7 +152,7 @@ 【X5】= -请注意,我说过这个公式是专门针对数据的*样本*的,它是从一个更大的总体中选择的一组数据点。使用一个样本,我们希望表征一个更大的群体——我们感兴趣的全部个体。例如,如果我们是一个政治民意测验专家,我们感兴趣的人群可能是所有注册选民,而我们的样本可能只包括从这个人群中抽样的几千人。在第7章中,我们将更详细地讨论抽样,但现在重要的一点是,统计学家通常喜欢使用不同的符号来区分描述样本值的*统计*和描述总体真实值的*参数*;在这种情况下,总体平均值(表示为\ mu)的公式为: +请注意,我说过这个公式是专门针对数据的*样本*的,它是从一个更大的总体中选择的一组数据点。使用一个样本,我们希望表征一个更大的群体——我们感兴趣的全部个体。例如,如果我们是一个政治民意测验专家,我们感兴趣的人群可能是所有注册选民,而我们的样本可能只包括从这个人群中抽样的几千人。在第 7 章中,我们将更详细地讨论抽样,但现在重要的一点是,统计学家通常喜欢使用不同的符号来区分描述样本值的*统计*和描述总体真实值的*参数*;在这种情况下,总体平均值(表示为\ mu)的公式为: μ=I=1nxIn\ mu = \frac{\sum_{i=1}^{n}x_i}{n} @@ -160,9 +160,9 @@ ![A demonstration of the mean as the statistic that minimizes the sum of squared errors. Using the NHANES child height data, we compute the mean (denoted by the blue bar). Then, we test a range of possible parameter estimates, and for each one we compute the sum of squared errors for each data point from that value, which are denoted by the black curve. We see that the mean falls at the minimum of the squared error plot.](img/file28.png) -图5.7:显示了最小化误差平方和的统计平均值。使用NHANES儿童身高数据,我们计算平均值(用蓝色条表示)。然后,我们测试一系列可能的参数估计值,对于每一个估计值,我们根据该值计算每个数据点的误差平方和,用黑色曲线表示。我们看到平均值落在平方误差图的最小值处。 +图 5.7:显示了最小化误差平方和的统计平均值。使用 NHANES 儿童身高数据,我们计算平均值(用蓝色条表示)。然后,我们测试一系列可能的参数估计值,对于每一个估计值,我们根据该值计算每个数据点的误差平方和,用黑色曲线表示。我们看到平均值落在平方误差图的最小值处。 -SSE的最小化是一个很好的特性,这也是为什么平均值是最常用的汇总数据的统计量。然而,中庸也有阴暗面。假设五个人在一个酒吧,我们考察每个人的收入(Table [5.1](#tab:income1) ): +SSE 的最小化是一个很好的特性,这也是为什么平均值是最常用的汇总数据的统计量。然而,中庸也有阴暗面。假设五个人在一个酒吧,我们考察每个人的收入(Table [5.1](#tab:income1) ): Table 5.1: Income for our five bar patrons | 收入 | 人 | @@ -185,7 +185,7 @@ SSE的最小化是一个很好的特性,这也是为什么平均值是最常 | Sixty-six thousand | 轻拍 | | Fifty-four million | 碧昂丝(美国女歌手) | -现在的平均值几乎是1000万美元,这并不真正代表酒吧里的任何人——特别是,它在很大程度上是由碧昂斯的外围价值驱动的。一般来说,平均值对极值非常敏感,这就是为什么在使用平均值汇总数据时确保没有极值总是很重要的原因。 +现在的平均值几乎是 1000 万美元,这并不真正代表酒吧里的任何人——特别是,它在很大程度上是由碧昂斯的外围价值驱动的。一般来说,平均值对极值非常敏感,这就是为什么在使用平均值汇总数据时确保没有极值总是很重要的原因。 @@ -205,9 +205,9 @@ SSE的最小化是一个很好的特性,这也是为什么平均值是最常 3 4 6 6 7 8 9 12 14 ``` -那么中值就是中间值,在这种情况下,是9个值中的第5个。 +那么中值就是中间值,在这种情况下,是 9 个值中的第 5 个。 -平均值最小化误差的平方和,而中值最小化一个稍微不同的量:误差的绝对值之和。这解释了为什么它对异常值不太敏感——与取绝对值相比,平方会加剧大误差的影响。我们可以在收入的例子中看到这一点:中值收入(65,000美元)比平均值(9,051,333美元)更能代表整个群体,而且对一个大的异常值不太敏感。 +平均值最小化误差的平方和,而中值最小化一个稍微不同的量:误差的绝对值之和。这解释了为什么它对异常值不太敏感——与取绝对值相比,平方会加剧大误差的影响。我们可以在收入的例子中看到这一点:中值收入(65,000 美元)比平均值(9,051,333 美元)更能代表整个群体,而且对一个大的异常值不太敏感。 有鉴于此,我们为什么要使用平均值呢?正如我们将在后面的章节中看到的,均值是“最好的”估计量,因为与其他估计量相比,它在样本间的变化较小。这取决于我们来决定是否值得对潜在的异常值敏感——统计学就是关于权衡的。 @@ -219,7 +219,7 @@ SSE的最小化是一个很好的特性,这也是为什么平均值是最常 ## 5.6 模式 -有时我们希望描述一个非数值数据集的中心趋势。比如说,我们想知道iPhone的哪些型号最常用。为了测试这一点,我们可以询问一大群iPhone用户,每个人拥有哪种型号。如果我们取这些值的平均值,我们可能会看到平均iPhone型号为9.51,这显然是无意义的,因为iPhone型号并不意味着定量测量。在这种情况下,更合适的集中趋势度量是众数,这是数据集中最常见的值,正如我们上面讨论的那样。 +有时我们希望描述一个非数值数据集的中心趋势。比如说,我们想知道 iPhone 的哪些型号最常用。为了测试这一点,我们可以询问一大群 iPhone 用户,每个人拥有哪种型号。如果我们取这些值的平均值,我们可能会看到平均 iPhone 型号为 9.51,这显然是无意义的,因为 iPhone 型号并不意味着定量测量。在这种情况下,更合适的集中趋势度量是众数,这是数据集中最常见的值,正如我们上面讨论的那样。 @@ -229,7 +229,7 @@ SSE的最小化是一个很好的特性,这也是为什么平均值是最常 一旦我们描述了数据的中心趋势,我们通常还想描述数据的可变性——这有时也称为“分散”,反映了它描述了数据的分散程度。 -我们已经在上面遇到了误差平方和,这是最常用的可变性测量的基础:方差*和T2标准差*。总体的方差(称为2\sigma^2)就是误差平方和除以观察次数——也就是说,它与您之前遇到的*均方差*完全相同: +我们已经在上面遇到了误差平方和,这是最常用的可变性测量的基础:方差*和 T2 标准差*。总体的方差(称为2\sigma^2)就是误差平方和除以观察次数——也就是说,它与您之前遇到的*均方差*完全相同: = @@ -239,7 +239,7 @@ SSE的最小化是一个很好的特性,这也是为什么平均值是最常 = -这两个方程的唯一区别是我们除以n - 1,而不是n。这涉及到一个基本的统计概念:*自由度*。记住,为了计算样本方差,我们首先必须估计样本均值x\ bar { x }。估计了这一点之后,数据中的一个值就不能再自由变化了。例如,假设我们有变量xx的以下数据点:[3,5,7,9,11],其平均值为7。因为我们知道这个数据集的平均值是7,所以我们可以计算出任何一个特定的值在它丢失的情况下会是多少。例如,假设我们要隐藏第一个值(3)。做了这些,我们仍然知道它的值必须是3, 因为7的平均值意味着所有值的总和是7n=357 * n = 3535( =335-(5+7+9+11)= 3。 +这两个方程的唯一区别是我们除以 n - 1,而不是 n。这涉及到一个基本的统计概念:*自由度*。记住,为了计算样本方差,我们首先必须估计样本均值x\ bar { x }。估计了这一点之后,数据中的一个值就不能再自由变化了。例如,假设我们有变量xx的以下数据点:[3,5,7,9,11],其平均值为 7。因为我们知道这个数据集的平均值是 7,所以我们可以计算出任何一个特定的值在它丢失的情况下会是多少。例如,假设我们要隐藏第一个值(3)。做了这些,我们仍然知道它的值必须是 3, 因为 7 的平均值意味着所有值的总和是7n=357 * n = 3535( =335-(5+7+9+11)= 3。 所以当我们说我们“失去了”一个自由度时,意思是有一个值在拟合模型后不能自由变化。在样本方差的背景下,如果我们不考虑失去的自由度,那么我们对样本方差的估计将*有偏*,导致我们低估了对均值估计的不确定性。 @@ -249,16 +249,16 @@ SSE的最小化是一个很好的特性,这也是为什么平均值是最常 ## 5.8 使用模拟来理解统计数据 -我坚信使用计算机模拟来理解统计概念,在后面的章节中,我们将更深入地挖掘它们的用途。在这里,我们将通过询问是否可以确认在计算样本方差时需要从样本量中减去1来介绍这一思想。 +我坚信使用计算机模拟来理解统计概念,在后面的章节中,我们将更深入地挖掘它们的用途。在这里,我们将通过询问是否可以确认在计算样本方差时需要从样本量中减去 1 来介绍这一思想。 -让我们将NHANES数据中的整个儿童样本视为我们的“总体”,并看看在分母中使用nnn1n-1的样本方差计算有多好,将跨来自数据的大量模拟随机样本来估计该总体的方差。我们将在后面的章节中回到如何做到这一点的细节。 +让我们将 NHANES 数据中的整个儿童样本视为我们的“总体”,并看看在分母中使用nnn1n-1的样本方差计算有多好,将跨来自数据的大量模拟随机样本来估计该总体的方差。我们将在后面的章节中回到如何做到这一点的细节。 Table 5.3: Variance estimates using n versus n-1; the estimate using n-1 is closer to the population value | 估计 | 价值 | | --- | --- | | 总体方差 | Seven hundred and twenty-five | -| 使用n的方差估计 | Seven hundred and ten | -| 使用n-1的方差估计 | Seven hundred and twenty-five | +| 使用 n 的方差估计 | Seven hundred and ten | +| 使用 n-1 的方差估计 | Seven hundred and twenty-five | [5.3](#tab:varsim) 中的结果向我们表明,上面概述的理论是正确的:使用n1n-1作为分母的方差估计值非常接近于根据完整数据(即总体)计算的方差,而使用nn计算的方差 @@ -266,57 +266,57 @@ SSE的最小化是一个很好的特性,这也是为什么平均值是最常 -## 5.9 Z分数 +## 5.9 Z 分数 -根据集中趋势和可变性描述了分布的特征后,根据各个分数相对于总体分布的位置来表示它们通常是有用的。假设我们感兴趣的是描述不同州之间犯罪的相对水平,以确定加州是否是一个特别危险的地方。我们可以使用来自联邦调查局统一犯罪报告网站的2014年数据来问这个问题。图 [5.8](#fig:crimeHist) 的左面显示了各州暴力犯罪数量的直方图,突出显示了加利福尼亚州的数值。看着这些数据,加州似乎非常危险,那一年有153709起犯罪。我们可以通过生成一个显示变量在各州分布的图来可视化这些数据,该图显示在图 [5.8](#fig:crimeHist) 的右侧面板中。 +根据集中趋势和可变性描述了分布的特征后,根据各个分数相对于总体分布的位置来表示它们通常是有用的。假设我们感兴趣的是描述不同州之间犯罪的相对水平,以确定加州是否是一个特别危险的地方。我们可以使用来自联邦调查局统一犯罪报告网站的 2014 年数据来问这个问题。图 [5.8](#fig:crimeHist) 的左面显示了各州暴力犯罪数量的直方图,突出显示了加利福尼亚州的数值。看着这些数据,加州似乎非常危险,那一年有 153709 起犯罪。我们可以通过生成一个显示变量在各州分布的图来可视化这些数据,该图显示在图 [5.8](#fig:crimeHist) 的右侧面板中。 ![Left: Histogram of the number of violent crimes. The value for CA is plotted in blue. Right: A map of the same data, with number of crimes (in thousands) plotted for each state in color.](img/file29.png) -图5.8:左图:暴力犯罪数量直方图。CA的值用蓝色标出。右图:相同数据的地图,用彩色标出了每个州的犯罪数量(以千计)。 +图 5.8:左图:暴力犯罪数量直方图。CA 的值用蓝色标出。右图:相同数据的地图,用彩色标出了每个州的犯罪数量(以千计)。 然而,你可能已经想到,加州也是美国人口最多的州,所以它也有更多的犯罪是合理的。如果我们针对每个州的一个人口绘制犯罪数量图(见图 [5.9](#fig:popVsCrime) 的左图),我们会看到两个变量之间存在直接关系。 ![Left: A plot of number of violent crimes versus population by state. Right: A histogram of per capita violent crime rates, expressed as crimes per 100,000 people.](img/file30.png) -图5.9:左图:各州暴力犯罪数量与人口的关系图。右图:人均暴力犯罪率直方图,以每10万人的犯罪率表示。 +图 5.9:左图:各州暴力犯罪数量与人口的关系图。右图:人均暴力犯罪率直方图,以每 10 万人的犯罪率表示。 -我们不应该使用犯罪的原始数字,而应该使用人均暴力犯罪率,这是通过将每个州的犯罪数量除以每个州的人口数量得到的。美国联邦调查局的数据集已经包含了这一数值(以每100,000人的比率表示)。看一下图 [5.9](#fig:popVsCrime) 的右图,我们会发现加州并不那么危险——它的犯罪率为每10万人中396.10人,略高于各州平均水平346.81人,但仍在许多其他州的范围之内。但是如果我们想更清楚地了解它离分布的其他部分有多远呢? +我们不应该使用犯罪的原始数字,而应该使用人均暴力犯罪率,这是通过将每个州的犯罪数量除以每个州的人口数量得到的。美国联邦调查局的数据集已经包含了这一数值(以每 100,000 人的比率表示)。看一下图 [5.9](#fig:popVsCrime) 的右图,我们会发现加州并不那么危险——它的犯罪率为每 10 万人中 396.10 人,略高于各州平均水平 346.81 人,但仍在许多其他州的范围之内。但是如果我们想更清楚地了解它离分布的其他部分有多远呢? -Z值允许我们以一种方式表达数据,这种方式提供了对每个数据点与总体分布的关系的更深入的了解。假设我们知道总体平均值【mu】和标准差【σ【σ的值,则计算单个数据点的Z值的公式为: +Z 值允许我们以一种方式表达数据,这种方式提供了对每个数据点与总体分布的关系的更深入的了解。假设我们知道总体平均值【mu】和标准差【σ【σ的值,则计算单个数据点的 Z 值的公式为: 【z】()= -直观地说,您可以将Z分数视为告诉您任何数据点离平均值有多远,以标准差为单位。我们可以对犯罪率数据进行计算,如图 [5.10](#fig:crimeZplot) 所示,该图绘制了Z分数与原始分数的关系。 +直观地说,您可以将 Z 分数视为告诉您任何数据点离平均值有多远,以标准差为单位。我们可以对犯罪率数据进行计算,如图 [5.10](#fig:crimeZplot) 所示,该图绘制了 Z 分数与原始分数的关系。 ![Scatterplot of original crime rate data against Z-scored data.](img/file31.png) -图5.10:原始犯罪率数据与Z得分数据的散点图。 +图 5.10:原始犯罪率数据与 Z 得分数据的散点图。 -散点图向我们展示了Z计分的过程并没有改变数据点的相对分布(从原始数据和Z计分的数据在相互标绘时落在一条直线上的事实中可以看出),它只是将它们移动到平均值为0,标准偏差为1。图 [5.11](#fig:crimeZmap) 显示了使用地理视图的Z得分犯罪数据。 +散点图向我们展示了 Z 计分的过程并没有改变数据点的相对分布(从原始数据和 Z 计分的数据在相互标绘时落在一条直线上的事实中可以看出),它只是将它们移动到平均值为 0,标准偏差为 1。图 [5.11](#fig:crimeZmap) 显示了使用地理视图的 Z 得分犯罪数据。 ![Crime data rendered onto a US map, presented as Z-scores.](img/file32.png) -图5.11:呈现在美国地图上的犯罪数据,以Z分数表示。 +图 5.11:呈现在美国地图上的犯罪数据,以 Z 分数表示。 这为我们提供了一个更容易理解的数据视图。例如,我们可以看到内华达州、田纳西州和新墨西哥州的犯罪率都比平均值高出大约两个标准差。 -### 5.9.1 解释Z分数 +### 5.9.1 解释 Z 分数 -“Z-score”中的“Z”来自于标准正态分布(即均值为零、标准差为1的正态分布)通常被称为“Z”分布。我们可以使用标准正态分布来帮助我们理解特定的Z分数告诉我们关于数据点相对于分布的其余部分的位置。 +“Z-score”中的“Z”来自于标准正态分布(即均值为零、标准差为 1 的正态分布)通常被称为“Z”分布。我们可以使用标准正态分布来帮助我们理解特定的 Z 分数告诉我们关于数据点相对于分布的其余部分的位置。 ![Density (top) and cumulative distribution (bottom) of a standard normal distribution, with cutoffs at one standard deviation above/below the mean.](img/file33.png) -图5.12:标准正态分布的密度(上图)和累积分布(下图),截止值在平均值之上/之下的一个标准差处。 +图 5.12:标准正态分布的密度(上图)和累积分布(下图),截止值在平均值之上/之下的一个标准差处。 -图 [5.12](#fig:zDensityCDF) 中的上图显示,我们预计约有16%的值落在Z1Z \ ge 1中,同样比例的值落在Z1 +图 [5.12](#fig:zDensityCDF) 中的上图显示,我们预计约有 16%的值落在Z1Z \ ge 1中,同样比例的值落在Z1 ![Density (top) and cumulative distribution (bottom) of a standard normal distribution, with cutoffs at two standard deviations above/below the mean](img/file34.png) -图5.13:标准正态分布的密度(上图)和累积分布(下图),在高于/低于平均值的两个标准差处有截止值 +图 5.13:标准正态分布的密度(上图)和累积分布(下图),在高于/低于平均值的两个标准差处有截止值 -图 [5.13](#fig:zDensity2SD) 显示了两个标准差的相同曲线。这里我们看到只有大约2.3%的值落在Z—T11】2Z \ le-2Z2Z \ ge 2中因此,如果我们知道特定数据点的Z分数,我们可以估计找到至少与该值一样极端的值的可能性有多大,这使我们可以将值放入更好的上下文中。就犯罪率而言,我们看到加利福尼亚州的人均暴力犯罪率的Z值为0.38,这表明它非常接近其他州的平均值,大约35%的州具有较高的犯罪率,65%的州具有较低的犯罪率。 +图 [5.13](#fig:zDensity2SD) 显示了两个标准差的相同曲线。这里我们看到只有大约 2.3%的值落在Z—T11】2Z \ le-2Z2Z \ ge 2中因此,如果我们知道特定数据点的 Z 分数,我们可以估计找到至少与该值一样极端的值的可能性有多大,这使我们可以将值放入更好的上下文中。就犯罪率而言,我们看到加利福尼亚州的人均暴力犯罪率的 Z 值为 0.38,这表明它非常接近其他州的平均值,大约 35%的州具有较高的犯罪率,65%的州具有较低的犯罪率。 @@ -324,31 +324,31 @@ Z值允许我们以一种方式表达数据,这种方式提供了对每个数 ### 5.9.2 标准化分数 -假设我们想要生成平均值为100、标准差为10的标准化犯罪分数,而不是Z分数。这类似于用智力测验的分数来产生智商(IQ)的标准化。我们可以通过简单地将Z分数乘以10,然后加上100来实现。 +假设我们想要生成平均值为 100、标准差为 10 的标准化犯罪分数,而不是 Z 分数。这类似于用智力测验的分数来产生智商(IQ)的标准化。我们可以通过简单地将 Z 分数乘以 10,然后加上 100 来实现。 ![Crime data presented as standardized scores with mean of 100 and standard deviation of 10.](img/file35.png) -图5.14:犯罪数据显示为标准化分数,平均值为100,标准差为10。 +图 5.14:犯罪数据显示为标准化分数,平均值为 100,标准差为 10。 -#### 5.9.2.1使用Z分数比较分布 +#### 5.9.2.1 使用 Z 分数比较分布 -Z分数的一个有用的应用是比较不同变量的分布。假设我们想比较暴力犯罪和财产犯罪在各州的分布情况。在图 [5.15](#fig:crimeTypePlot) 的左图中,我们用蓝色标出CA。如你所见,财产犯罪的原始比率远远高于暴力犯罪的原始比率,所以我们不能直接比较数字。然而,我们可以绘制这些数据彼此之间的Z分数(图 [5.15](#fig:crimeTypePlot) 的右图)——我们再次看到数据的分布没有变化。将数据放入每个变量的Z分数中,使它们具有可比性,并让我们看到,就暴力犯罪和财产犯罪而言,加州实际上位于分布的中间。 +Z 分数的一个有用的应用是比较不同变量的分布。假设我们想比较暴力犯罪和财产犯罪在各州的分布情况。在图 [5.15](#fig:crimeTypePlot) 的左图中,我们用蓝色标出 CA。如你所见,财产犯罪的原始比率远远高于暴力犯罪的原始比率,所以我们不能直接比较数字。然而,我们可以绘制这些数据彼此之间的 Z 分数(图 [5.15](#fig:crimeTypePlot) 的右图)——我们再次看到数据的分布没有变化。将数据放入每个变量的 Z 分数中,使它们具有可比性,并让我们看到,就暴力犯罪和财产犯罪而言,加州实际上位于分布的中间。 ![Plot of violent vs. property crime rates (left) and Z-scored rates (right).](img/file36.png) -图5.15:暴力与财产犯罪率(左)和Z得分率(右)。 +图 5.15:暴力与财产犯罪率(左)和 Z 得分率(右)。 我们再给剧情加一个因素:人口。在图 [5.16](#fig:crimeTypePopPlot) 的左侧面板中,我们使用绘图符号的大小显示了这一点,这通常是向绘图添加信息的有用方式。 ![Left: Plot of violent vs. property crime rates, with population size presented through the size of the plotting symbol; California is presented in blue. Right: Difference scores for violent vs. property crime, plotted against population. ](img/file37.png) -图5.16:左图:暴力犯罪率与财产犯罪率的对比图,人口数量通过绘图符号的大小表示;加州以蓝色呈现。右图:暴力犯罪与财产犯罪的得分差异,与人口相对照。 +图 5.16:左图:暴力犯罪率与财产犯罪率的对比图,人口数量通过绘图符号的大小表示;加州以蓝色呈现。右图:暴力犯罪与财产犯罪的得分差异,与人口相对照。 -因为Z分数是直接可比的,所以我们也可以计算一个*差异分数*,它表示各州暴力与非暴力(财产)犯罪的相对比率。然后,我们可以绘制这些分数与人口的关系图(见图 [5.16](#fig:crimeTypePopPlot) )。这显示了我们如何使用Z分数将不同的变量放在一个共同的尺度上。 +因为 Z 分数是直接可比的,所以我们也可以计算一个*差异分数*,它表示各州暴力与非暴力(财产)犯罪的相对比率。然后,我们可以绘制这些分数与人口的关系图(见图 [5.16](#fig:crimeTypePopPlot) )。这显示了我们如何使用 Z 分数将不同的变量放在一个共同的尺度上。 -值得注意的是,最小的州似乎在两个方向上的差异最大。虽然看每个州并试图确定为什么它有高或低的差异分数可能是诱人的,但这可能反映了这样一个事实,即从较小的样本中获得的估计必然会更易变,正如我们将在第7章中讨论的那样。 +值得注意的是,最小的州似乎在两个方向上的差异最大。虽然看每个州并试图确定为什么它有高或低的差异分数可能是诱人的,但这可能反映了这样一个事实,即从较小的样本中获得的估计必然会更易变,正如我们将在第 7 章中讨论的那样。 @@ -362,7 +362,7 @@ Z分数的一个有用的应用是比较不同变量的分布。假设我们想 * 描述统计模型的基本方程(数据=模型+误差) * 描述集中趋势和分散的不同度量,它们是如何计算的,以及在什么情况下适合。 -* 计算Z分数并描述它们为什么有用。 +* 计算 Z 分数并描述它们为什么有用。 diff --git a/docs/06.md b/docs/06.md index 277cb5f..9e52b1d 100644 --- a/docs/06.md +++ b/docs/06.md @@ -8,20 +8,20 @@ ## 6.1 什么是概率? -非正式地,我们通常认为概率是一个描述某个事件发生的可能性的数字,范围从零(不可能)到一(确定)。有时概率会用百分比来表示,范围从0到100,例如天气预报预测今天有20%的机会下雨。在每种情况下,这些数字都表达了特定事件发生的可能性,从绝对不可能到绝对肯定。 +非正式地,我们通常认为概率是一个描述某个事件发生的可能性的数字,范围从零(不可能)到一(确定)。有时概率会用百分比来表示,范围从 0 到 100,例如天气预报预测今天有 20%的机会下雨。在每种情况下,这些数字都表达了特定事件发生的可能性,从绝对不可能到绝对肯定。 为了形式化概率论,我们首先需要定义几个术语: * 一个**实验**是产生或观察一个结果的任何活动。例如抛硬币、掷骰子或尝试新的工作路线,看看是否比旧路线快。 * **样本空间**是实验可能结果的集合。我们用一组弯弯曲曲的括号来表示它们。对于抛硬币,样本空间是{正面,反面}。对于六面骰子,样本空间是可能出现的每个数字:{1,2,3,4,5,6}。对于到达工作地点所需的时间,样本空间是所有可能的大于零的实数(因为到达某个地方不会花费负的时间,至少目前不会)。我们不会费心去写出括号内的所有数字。 -* 一个**事件**是样本空间的子集。原则上,它可能是样本空间中的一个或多个可能的结果,但这里我们将主要关注由一个可能的结果组成的*基本事件*。例如,这可能是在一次抛硬币中获得正面,在掷骰子中掷出4,或者花21分钟通过新路线回家。 +* 一个**事件**是样本空间的子集。原则上,它可能是样本空间中的一个或多个可能的结果,但这里我们将主要关注由一个可能的结果组成的*基本事件*。例如,这可能是在一次抛硬币中获得正面,在掷骰子中掷出 4,或者花 21 分钟通过新路线回家。 -既然我们有了这些定义,我们就可以勾勒出概率的形式特征,它是由俄罗斯数学家安德烈·科尔莫戈罗夫首先定义的。如果一个值*成为一个概率,那么这些就是这个值*必须具备的特征。假设我们有一个由N个独立事件定义的样本空间,E1E2 EN{ E _ 1,E_2,...,E_N}XX是随机变量,表示发生了哪个事件。P(X=EI)P(X = E _ I)是事件发生的概率 +既然我们有了这些定义,我们就可以勾勒出概率的形式特征,它是由俄罗斯数学家安德烈·科尔莫戈罗夫首先定义的。如果一个值*成为一个概率,那么这些就是这个值*必须具备的特征。假设我们有一个由 N 个独立事件定义的样本空间,E1E2 EN{ E _ 1,E_2,...,E_N}XX是随机变量,表示发生了哪个事件。P(X=EI)P(X = E _ I)是事件发生的概率 * 概率不能为负:P(X=EI)0P(X = E _ I)\ ge 0 -* 样本空间中所有结果的总概率为1;也就是说,如果,如果我们把每个Ei的概率加起来,它们的总和一定是1。我们可以用求和符号\ sum:I=1NP(X=P(XE1)+P( +p(x=en)=1\sum_{i=1}^n{p(x=e_i)} = p(x = e...+ P(X=E_N) = 1 这些必须加在一起。” +* 样本空间中所有结果的总概率为 1;也就是说,如果,如果我们把每个 Ei 的概率加起来,它们的总和一定是 1。我们可以用求和符号\ sum:I=1NP(X=P(XE1)+P( +p(x=en)=1\sum_{i=1}^n{p(x=e_i)} = p(x = e...+ P(X=E_N) = 1 这些必须加在一起。” -* 任何单个事件的概率都不能大于一:P(XEI)1P(X = E _ I)\ le 1。这是前一点所暗示的;因为它们的总和必须是1,而且它们不能是负的,那么任何特定的概率都不能超过1。 +* 任何单个事件的概率都不能大于一:P(XEI)1P(X = E _ I)\ le 1。这是前一点所暗示的;因为它们的总和必须是 1,而且它们不能是负的,那么任何特定的概率都不能超过 1。 @@ -35,7 +35,7 @@ ### 6.2.1 个人信念 -假设我问你,如果伯尼·桑德斯是民主党提名人而不是希拉里,他赢得2016年总统大选的概率是多少?我们实际上不能做实验来寻找结果。然而,大多数了解美国政治的人会愿意至少对这一事件的可能性提供一个猜测。在许多情况下,个人知识和/或意见是我们确定事件概率的唯一指导,但这在科学上并不令人满意。 +假设我问你,如果伯尼·桑德斯是民主党提名人而不是希拉里,他赢得 2016 年总统大选的概率是多少?我们实际上不能做实验来寻找结果。然而,大多数了解美国政治的人会愿意至少对这一事件的可能性提供一个猜测。在许多情况下,个人知识和/或意见是我们确定事件概率的唯一指导,但这在科学上并不令人满意。 @@ -43,15 +43,15 @@ ### 6.2.2 经验频率 -另一种确定事件发生概率的方法是多次做实验,并计算每个事件发生的频率。根据不同结果的相对频率,我们可以计算出每个结果的概率。例如,我们想知道旧金山下雨的概率。我们首先必须定义这个实验——假设我们将查看2017年每天的国家气象局数据,并确定旧金山市中心气象站是否下雨。根据这些数据,2017年有73个雨天。为了计算旧金山下雨的概率,我们简单地用下雨的天数除以统计的天数(365),得出2017年旧金山的雨)= 0.2。 +另一种确定事件发生概率的方法是多次做实验,并计算每个事件发生的频率。根据不同结果的相对频率,我们可以计算出每个结果的概率。例如,我们想知道旧金山下雨的概率。我们首先必须定义这个实验——假设我们将查看 2017 年每天的国家气象局数据,并确定旧金山市中心气象站是否下雨。根据这些数据,2017 年有 73 个雨天。为了计算旧金山下雨的概率,我们简单地用下雨的天数除以统计的天数(365),得出 2017 年旧金山的雨)= 0.2。 我们怎么知道经验概率给了我们正确的数字?这个问题的答案来自于*大数定律*,表明经验概率会随着样本量的增加而向真概率逼近。我们可以通过模拟大量的硬币投掷,并查看我们对每次投掷后正面概率的估计来了解这一点。我们将在后面的章节中花更多的时间讨论模拟;现在,假设我们有一种计算方法来为每次抛硬币产生随机结果。 -图 [6.1](#fig:ElectionResults) 的左图显示,随着样本数量(即抛硬币试验)的增加,估计的正面概率收敛到真实值0.5。但是,请注意,当样本量很小时,估计值可能与真实值相差很远。这方面的一个真实例子是2017年阿拉巴马州美国参议院特别选举,共和党人罗伊·摩尔与民主党人道格·琼斯进行了对决。图 [6.1](#fig:ElectionResults) 的右侧面板显示了随着计票数量的增加,当晚每位候选人的相对票数。晚上早些时候的计票尤其不稳定,从琼斯最初的大幅领先到摩尔长期领先,直到最后琼斯领先赢得比赛。 +图 [6.1](#fig:ElectionResults) 的左图显示,随着样本数量(即抛硬币试验)的增加,估计的正面概率收敛到真实值 0.5。但是,请注意,当样本量很小时,估计值可能与真实值相差很远。这方面的一个真实例子是 2017 年阿拉巴马州美国参议院特别选举,共和党人罗伊·摩尔与民主党人道格·琼斯进行了对决。图 [6.1](#fig:ElectionResults) 的右侧面板显示了随着计票数量的增加,当晚每位候选人的相对票数。晚上早些时候的计票尤其不稳定,从琼斯最初的大幅领先到摩尔长期领先,直到最后琼斯领先赢得比赛。 ![Left: A demonstration of the law of large numbers. A coin was flipped 30,000 times, and after each flip the probability of heads was computed based on the number of heads and tail collected up to that point. It takes about 15,000 flips for the probability to settle at the true probability of 0.5\. Right: Relative proportion of the vote in the Dec 12, 2017 special election for the US Senate seat in Alabama, as a function of the percentage of precincts reporting. These data were transcribed from https://www.ajc.com/news/national/alabama-senate-race-live-updates-roy-moore-doug-jones/KPRfkdaweoiXICW3FHjXqI/](img/file38.png) -图6.1:左图:大数定律的演示。一枚硬币被抛了30,000次,每次抛完之后,正面的概率是根据当时收集到的正面和反面的数量来计算的。大约需要15,000次翻转,概率才会稳定在0.5的真实概率。右图:2017年12月12日阿拉巴马州美国参议院席位特别选举中投票的相对比例,作为选区报告百分比的函数。这些数据转录自[https://www . AJC . com/news/national/Alabama-Senate-race-live-updates-Roy-Moore-Doug-Jones/kprfkdaweixizw3fhjxqi/](https://www.ajc.com/news/national/alabama-senate-race-live-updates-roy-moore-doug-jones/KPRfkdaweoiXICW3FHjXqI/) +图 6.1:左图:大数定律的演示。一枚硬币被抛了 30,000 次,每次抛完之后,正面的概率是根据当时收集到的正面和反面的数量来计算的。大约需要 15,000 次翻转,概率才会稳定在 0.5 的真实概率。右图:2017 年 12 月 12 日阿拉巴马州美国参议院席位特别选举中投票的相对比例,作为选区报告百分比的函数。这些数据转录自[https://www . AJC . com/news/national/Alabama-Senate-race-live-updates-Roy-Moore-Doug-Jones/kprfkdaweixizw3fhjxqi/](https://www.ajc.com/news/national/alabama-senate-race-live-updates-roy-moore-doug-jones/KPRfkdaweoiXICW3FHjXqI/) 这两个例子表明,虽然大样本最终会收敛于真实概率,但小样本的结果可能相差甚远。不幸的是,许多人忘记了这一点,过度解读小样本的结果。心理学家丹尼·卡尼曼和阿莫斯·特沃斯基称之为“小数字定律”( T0 )( T1 ),他们指出,人们(甚至是训练有素的研究人员)经常表现得好像大数定律甚至适用于小样本,过于相信基于小数据集的结果。我们将在整个课程中看到一些例子,说明基于小样本生成的统计结果是多么不稳定。 @@ -61,47 +61,47 @@ ### 6.2.3 经典概率 -我们中的任何人都不太可能将硬币抛过数万次,但我们仍然愿意相信抛头的概率是0.5。这反映了使用另一种方法来计算概率,我们称之为经典概率。在这种方法中,我们直接根据对情况的了解来计算概率。 +我们中的任何人都不太可能将硬币抛过数万次,但我们仍然愿意相信抛头的概率是 0.5。这反映了使用另一种方法来计算概率,我们称之为经典概率。在这种方法中,我们直接根据对情况的了解来计算概率。 -经典概率起源于对骰子和纸牌等概率游戏的研究。一个著名的例子来自一个名叫谢瓦利埃·德·梅雷的法国赌徒遇到的一个问题。de Méré玩了两种不同的骰子游戏:在第一种游戏中,他赌的是在四个六面骰子上至少有一个六的机会,而在第二种游戏中,他赌的是在24个双骰子上至少有一个双六的机会。他期望在这两次赌博中都赢到钱,但是他发现虽然平均来说他在第一次赌博中赢了钱,但是当他多次进行第二次赌博时,他实际上平均来说输了钱。为了理解这一点,他求助于他的朋友,数学家布莱士·帕斯卡,他现在被认为是概率论的创始人之一。 +经典概率起源于对骰子和纸牌等概率游戏的研究。一个著名的例子来自一个名叫谢瓦利埃·德·梅雷的法国赌徒遇到的一个问题。de Méré玩了两种不同的骰子游戏:在第一种游戏中,他赌的是在四个六面骰子上至少有一个六的机会,而在第二种游戏中,他赌的是在 24 个双骰子上至少有一个双六的机会。他期望在这两次赌博中都赢到钱,但是他发现虽然平均来说他在第一次赌博中赢了钱,但是当他多次进行第二次赌博时,他实际上平均来说输了钱。为了理解这一点,他求助于他的朋友,数学家布莱士·帕斯卡,他现在被认为是概率论的创始人之一。 用概率论怎么理解这个问题?在经典概率中,我们从假设样本空间中的所有基本事件都是同等可能的开始;也就是说,当你掷骰子时,每种可能的结果({1,2,3,4,5,6})发生的可能性是相等的。(不允许装骰子!)考虑到这一点,我们可以将任何单个结果的概率计算为除以可能结果的数量: P(outcomeI)=1 -对于六面骰子,每个单独结果的概率是1/6。 +对于六面骰子,每个单独结果的概率是 1/6。 -这很好,但德梅雷对更复杂的事件感兴趣,比如多次掷骰子会发生什么。我们如何计算复杂事件(即单个事件的*联合*)的概率,比如在第一次*中掷出6或者第二次*中掷出6?我们用\杯 符号在数学上表示事件的联合:例如, 如果在第一次投掷上掷出一个六的概率称为P(Roll6thRow 第二次掷出一个六的概率是P(Roll6h 那么这个工会就简称为P(Rol6thR row2)P(roll 6 _ { throw 1 } \ cup roll 6 _ { throw 2 }) +这很好,但德梅雷对更复杂的事件感兴趣,比如多次掷骰子会发生什么。我们如何计算复杂事件(即单个事件的*联合*)的概率,比如在第一次*中掷出 6 或者第二次*中掷出 6?我们用\杯 符号在数学上表示事件的联合:例如, 如果在第一次投掷上掷出一个六的概率称为P(Roll6thRow 第二次掷出一个六的概率是P(Roll6h 那么这个工会就简称为P(Rol6thR row2)P(roll 6 _ { throw 1 } \ cup roll 6 _ { throw 2 }) -de Méré认为(不正确,我们将在下面看到),他可以简单地将单个事件的概率相加来计算组合事件的概率,这意味着在第一次或第二次掷骰子时掷出6的概率计算如下: +de Méré认为(不正确,我们将在下面看到),他可以简单地将单个事件的概率相加来计算组合事件的概率,这意味着在第一次或第二次掷骰子时掷出 6 的概率计算如下: 【p】【r】 = 1/6(或【o】 -【d】【e】【m】【是【r】【是】 错误: o【w】【2】)= +【r6=【T1191】/p(卷6 _ {扔1 } \ cup +【d】【e】【m】【是【r】【是】 错误: o【w】【2】)= +【r6=【T1191】/p(卷 6 _ {扔 1 } \ cup -de Méré基于这个错误的假设进行推理,即四次掷骰中至少有一次六的概率是每次单独掷出的概率之和:4*16=234 * \ frac { 1 } { 6 } = \ frac { 2同样,他推断,既然掷出两个骰子时出现双六的概率是1/36,那么在24次掷出的两个骰子中至少有一个双六的概率将是24*T34】136=23然而,虽然他在第一次下注时一直赢钱,但在第二次下注时却输了。怎么回事? +de Méré基于这个错误的假设进行推理,即四次掷骰中至少有一次六的概率是每次单独掷出的概率之和:4*16=234 * \ frac { 1 } { 6 } = \ frac { 2 同样,他推断,既然掷出两个骰子时出现双六的概率是 1/36,那么在 24 次掷出的两个骰子中至少有一个双六的概率将是24*T34】136=23然而,虽然他在第一次下注时一直赢钱,但在第二次下注时却输了。怎么回事? -为了理解de Méré的错误,我们需要介绍一些概率论的规则。第一个是减法的*法则,它说某个事件A *而不是*发生的概率是1减去该事件发生的概率:* +为了理解 de Méré的错误,我们需要介绍一些概率论的规则。第一个是减法的*法则,它说某个事件 A *而不是*发生的概率是 1 减去该事件发生的概率:* 【p】(【a】) -其中A\ neg A表示“不是A”。这条规则直接来源于我们上面讨论的公理;因为A和A\ neg A是唯一可能的结果,那么它们的总概率之和必须为1。例如,如果在单次投掷中掷出一个1的概率是1\ frac { 1 } { 6 },那么掷出一个以外的任何东西的概率是56\ frac { 5 } { 6 } +其中A\ neg A表示“不是 A”。这条规则直接来源于我们上面讨论的公理;因为 A 和A\ neg A是唯一可能的结果,那么它们的总概率之和必须为 1。例如,如果在单次投掷中掷出一个 1 的概率是1\ frac { 1 } { 6 },那么掷出一个以外的任何东西的概率是56\ frac { 5 } { 6 } -第二个规则告诉我们如何计算联合事件的概率——即两个事件同时发生的概率。我们将此称为*交点*,用\ cap符号表示;由此,P(AB)P(A \ cap B)表示A和B都发生的概率。我们将集中讨论这个规则的一个版本,它告诉我们在两个事件相互独立的特殊情况下如何计算这个量;我们稍后将确切了解*独立性*的概念是什么意思,但是现在我们可以理所当然地认为两次掷骰子是独立的事件。我们通过简单地将单个事件的概率相乘来计算两个独立事件相交的概率: +第二个规则告诉我们如何计算联合事件的概率——即两个事件同时发生的概率。我们将此称为*交点*,用\ cap符号表示;由此,P(AB)P(A \ cap B)表示 A 和 B 都发生的概率。我们将集中讨论这个规则的一个版本,它告诉我们在两个事件相互独立的特殊情况下如何计算这个量;我们稍后将确切了解*独立性*的概念是什么意思,但是现在我们可以理所当然地认为两次掷骰子是独立的事件。我们通过简单地将单个事件的概率相乘来计算两个独立事件相交的概率: -P(AB)=P(A)*P \ text {当且仅当A和B是独立的} 因此,两次掷出6的概率是16*16=1 +P(AB)=P(A)*P \ text {当且仅当 A 和 B 是独立的} 因此,两次掷出 6 的概率是16*16=1 第三条规则告诉我们如何将概率加在一起——正是在这里,我们看到了德·梅勒错误的根源。加法法则告诉我们,要获得两个事件中任何一个发生的概率,我们将各个概率相加,然后减去两个事件同时发生的可能性: -P(AB)=P(A+PP(A \ cup B)= P(A)+P(B)-P(A \ cap B)从某种意义上说,这阻止了我们对那些实例进行两次计数,这也是该规则与de Méré错误计算的区别所在。 假设我们想找出两次投掷中任何一次掷出6的概率。根据我们的规定: +P(AB)=P(A+PP(A \ cup B)= P(A)+P(B)-P(A \ cap B)从某种意义上说,这阻止了我们对那些实例进行两次计数,这也是该规则与 de Méré错误计算的区别所在。 假设我们想找出两次投掷中任何一次掷出 6 的概率。根据我们的规定: -【p】【r】【2】)=( +【p104】【r】【T1112】【l】 【T1137】-【T1138】【T1142】【l148】 w【2】)p(卷6 _ {扔1} \ cup 6 _ {扔2}) = P(卷6 _ {扔1 })) +【p】【r】【2】)=( +【p104】【r】【T1112】【l】 【T1137】-【T1138】【T1142】【l148】 w【2】)p(卷 6 _ {扔 1} \ cup 6 _ {扔 2}) = P(卷 6 _ {扔 1 })) ![Each cell in this matrix represents one outcome of two throws of a die, with the columns representing the first throw and the rows representing the second throw. Cells shown in red represent the cells with a six in either the first or second throw; the rest are shown in blue.](img/file39.png) -图6.2:这个矩阵中的每个单元格代表一个骰子两次投掷的结果,列代表第一次投掷,行代表第二次投掷。显示为红色的单元格表示第一次或第二次投掷中有6的单元格;其余的用蓝色显示。 +图 6.2:这个矩阵中的每个单元格代表一个骰子两次投掷的结果,列代表第一次投掷,行代表第二次投掷。显示为红色的单元格表示第一次或第二次投掷中有 6 的单元格;其余的用蓝色显示。 -让我们使用图形描述来获得这个规则的不同视图。图 [6.2](#fig:ThrowMatrix) 显示了代表两次投掷结果的所有可能组合的矩阵,并突出显示了第一次或第二次投掷中包含6的单元格。如果你数一下红色的细胞,你会看到有11个这样的细胞。这说明了为什么加法法则给出了与德·梅雷不同的答案;如果我们像他那样简单地把两次投掷的概率加在一起,那么我们会两次都数(6,6),而实际上只应该数一次。 +让我们使用图形描述来获得这个规则的不同视图。图 [6.2](#fig:ThrowMatrix) 显示了代表两次投掷结果的所有可能组合的矩阵,并突出显示了第一次或第二次投掷中包含 6 的单元格。如果你数一下红色的细胞,你会看到有 11 个这样的细胞。这说明了为什么加法法则给出了与德·梅雷不同的答案;如果我们像他那样简单地把两次投掷的概率加在一起,那么我们会两次都数(6,6),而实际上只应该数一次。 @@ -117,13 +117,13 @@ de Méré基于这个错误的假设进行推理,即四次掷骰中至少有 p(四卷中至少有一卷六卷)=1-(56)4=】 -de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0.5,这解释了为什么de Méré平均在这个赌注上赚了钱。 +de Méré赌他会在四次掷骰子中至少掷出一个 6,这个概率大于 0.5,这解释了为什么 de Méré平均在这个赌注上赚了钱。 但是德梅雷的第二次赌注呢?帕斯卡使用了同样的伎俩: -P(24卷中无双六)=(3536【T24)24=0.509 = \bigg(\frac{35}{36}\bigg)^{24}=0.509p24卷=1-(3536 +P(24 卷中无双六)=(3536【T24)24=0.509 = \bigg(\frac{35}{36}\bigg)^{24}=0.509p24 卷=1-(3536 -这一结果的概率略低于0.5,这表明了为什么德梅雷在这场赌博中平均输钱。 +这一结果的概率略低于 0.5,这表明了为什么德梅雷在这场赌博中平均输钱。 @@ -133,35 +133,35 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 ## 6.3 概率分布 -*概率分布*描述了实验中所有可能结果的概率。例如,2018年1月20日,篮球运动员斯蒂芬·库里在对阵休斯顿火箭队的比赛中,4次罚球中只有2次。我们知道库里整个赛季罚球的总概率是0.91,所以他在一场比赛中只有50%的罚球命中率似乎不太可能,但这到底有多不可能?我们可以使用理论概率分布来确定这一点;在本书中,我们会遇到许多这样的概率分布,每一种都适合于描述不同类型的数据。在这种情况下,我们使用*二项式*分布,它提供了一种方法来计算一些成功的概率,这些成功或失败的试验(称为“伯努利试验”)中,给定每个试验的一些已知的成功概率。这种分布被定义为: +*概率分布*描述了实验中所有可能结果的概率。例如,2018 年 1 月 20 日,篮球运动员斯蒂芬·库里在对阵休斯顿火箭队的比赛中,4 次罚球中只有 2 次。我们知道库里整个赛季罚球的总概率是 0.91,所以他在一场比赛中只有 50%的罚球命中率似乎不太可能,但这到底有多不可能?我们可以使用理论概率分布来确定这一点;在本书中,我们会遇到许多这样的概率分布,每一种都适合于描述不同类型的数据。在这种情况下,我们使用*二项式*分布,它提供了一种方法来计算一些成功的概率,这些成功或失败的试验(称为“伯努利试验”)中,给定每个试验的一些已知的成功概率。这种分布被定义为: 【p】【K9】)=n,p)= p(x = k)= \ binom { n } { k } p ^ k(1-p)^ { n-k } -这是指当成功概率为p时,n次试验中k次成功的概率,你可能不熟悉(nk)\ binom { n } { k },简称为*二项式系数*。二项式系数也被称为“n-choose-k ”,因为它描述了从n个项目中选择k个项目的不同方法的数量。二项式系数计算如下: +这是指当成功概率为 p 时,n 次试验中 k 次成功的概率,你可能不熟悉(nk)\ binom { n } { k },简称为*二项式系数*。二项式系数也被称为“n-choose-k ”,因为它描述了从 n 个项目中选择 k 个项目的不同方法的数量。二项式系数计算如下: (nk)=n k (n—T36】k)【binom { n } { k } = \ frac { n!}{k!(n-k)!} 感叹号(!)指的是*数的阶乘*: == *n!= \prod_{i=1}^n i = n*(n-1)*-我...。*2*1 -乘积运算符\ prod与求和运算符\ sum类似,只是前者是乘法而不是加法。在这种情况下,它是将从1到nn的所有数字相乘。 +乘积运算符\ prod与求和运算符\ sum类似,只是前者是乘法而不是加法。在这种情况下,它是将从 1 到nn的所有数字相乘。 以斯蒂芬·库里的罚球为例: 【p】【0.91】=(【t】4 . 0 . 91)= \ binom { 4 } { 2 } 0.91 ^ 2(1-0.91)^ { 4-2 } = 0.040 -这表明,鉴于库里的整体罚球命中率,他不太可能在4次罚球中只命中2次。这正说明了不可能的事情确实在现实世界中发生了。 +这表明,鉴于库里的整体罚球命中率,他不太可能在 4 次罚球中只命中 2 次。这正说明了不可能的事情确实在现实世界中发生了。 ### 6.3.1 累积概率分布 -通常我们不仅想知道一个特定值的可能性有多大,还想知道找到一个与特定值一样极端或比特定值更极端的值的可能性有多大;当我们在第9章讨论假设检验时,这将变得非常重要。要回答这个问题,我们可以用一个*累积*的概率分布;标准概率分布告诉我们某个特定值的概率,而累积分布告诉我们某个值大于或等于(或小于或等于)某个特定值的概率。 +通常我们不仅想知道一个特定值的可能性有多大,还想知道找到一个与特定值一样极端或比特定值更极端的值的可能性有多大;当我们在第 9 章讨论假设检验时,这将变得非常重要。要回答这个问题,我们可以用一个*累积*的概率分布;标准概率分布告诉我们某个特定值的概率,而累积分布告诉我们某个值大于或等于(或小于或等于)某个特定值的概率。 -在罚球的例子中,我们可能想知道:假设斯蒂芬库里的总罚球概率为0.91,那么他在四次罚球中命中2次*或更少*的概率是多少。为了确定这一点,我们可以简单地使用二项式概率方程,插入k的所有可能值,并将它们加在一起: +在罚球的例子中,我们可能想知道:假设斯蒂芬库里的总罚球概率为 0.91,那么他在四次罚球中命中 2 次*或更少*的概率是多少。为了确定这一点,我们可以简单地使用二项式概率方程,插入 k 的所有可能值,并将它们加在一起: 【p】(【k】+【k57】=0 -在许多情况下,可能结果的数量太大,我们无法通过列举所有可能的值来计算累积概率;幸运的是,它可以直接计算任何理论概率分布。表 [6.1](#tab:freethrow) 显示了上例中每种可能的罚球成功次数的累积概率,从中我们可以看出,库里4次罚球中2次或更少罚球落地的概率为0.043。 +在许多情况下,可能结果的数量太大,我们无法通过列举所有可能的值来计算累积概率;幸运的是,它可以直接计算任何理论概率分布。表 [6.1](#tab:freethrow) 显示了上例中每种可能的罚球成功次数的累积概率,从中我们可以看出,库里 4 次罚球中 2 次或更少罚球落地的概率为 0.043。 Table 6.1: Simple and cumulative probability distributions for number of successful free throws by Steph Curry in 4 attempts. | 数字成功 | 可能性 | 累积概率 | @@ -180,9 +180,9 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 到目前为止,我们把自己限制在简单的概率上——也就是说,单一事件或事件组合的概率。然而,我们经常希望在已知其他事件已经发生的情况下确定某个事件的概率,这被称为*条件概率*。 -我们以2016年美国总统大选为例。我们可以用两个简单的概率来描述选民。首先,我们知道美国一个选民隶属于共和党的概率:p(RepublIcan我们也知道选民投票支持川普的概率:p(Trumpv【T60Te然而,假设我们想知道以下问题:假设一个人是共和党人,他投票给唐纳德·特朗普*的概率是多少?* +我们以 2016 年美国总统大选为例。我们可以用两个简单的概率来描述选民。首先,我们知道美国一个选民隶属于共和党的概率:p(RepublIcan我们也知道选民投票支持川普的概率:p(Trumpv【T60Te然而,假设我们想知道以下问题:假设一个人是共和党人,他投票给唐纳德·特朗普*的概率是多少?* -要计算给定B的条件概率(我们写为P(A|B)P(A | B),“A的概率,给定B”),我们需要知道*联合概率*(即A和B都发生的概率 +要计算给定 B 的条件概率(我们写为P(A|B)P(A | B),“A 的概率,给定 B”),我们需要知道*联合概率*(即 A 和 B 都发生的概率 【p】【a】|【b】 @@ -190,7 +190,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 ![A graphical depiction of conditional probability, showing how the conditional probability limits our analysis to a subset of the data.](img/file40.png) -图6.3:条件概率的图形描述,显示了条件概率如何将我们的分析限制在数据的一个子集。 +图 6.3:条件概率的图形描述,显示了条件概率如何将我们的分析限制在数据的一个子集。 图形化地思考这一点会很有用。图 [6.3](#fig:conditionalProbability) 显示了一个流程图,描述了全部选民如何细分为共和党和民主党,以及条件概率(以政党为条件)如何根据他们的投票进一步细分每个政党的成员。 @@ -200,10 +200,10 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 ## 6.5 根据数据计算条件概率 -我们也可以直接从数据中计算条件概率。假设我们对以下问题感兴趣:假设某人没有进行体育锻炼,那么他患糖尿病的概率是多少?——即P(dIbetes|InacNHANES数据集包括两个变量,解决这个问题的两个部分。第一个(`Diabetes`)询问该人是否被告知他们患有糖尿病,第二个(`PhysActive`)记录该人是否参加至少中等强度的运动、健身或娱乐活动。让我们首先计算简单概率,如表 [6.2](#tab:simpleProb) 所示。该表显示,NHANES数据集中有人患糖尿病的概率为. 1,有人不活动的概率为. 45。 +我们也可以直接从数据中计算条件概率。假设我们对以下问题感兴趣:假设某人没有进行体育锻炼,那么他患糖尿病的概率是多少?——即P(dIbetes|InacNHANES 数据集包括两个变量,解决这个问题的两个部分。第一个(`Diabetes`)询问该人是否被告知他们患有糖尿病,第二个(`PhysActive`)记录该人是否参加至少中等强度的运动、健身或娱乐活动。让我们首先计算简单概率,如表 [6.2](#tab:simpleProb) 所示。该表显示,NHANES 数据集中有人患糖尿病的概率为. 1,有人不活动的概率为. 45。 Table 6.2: Summary data for diabetes and physical activity -| 回答 | 糖尿病 | p _糖尿病 | 生理活性物质 | P_PhysActive | +| 回答 | 糖尿病 | p _ 糖尿病 | 生理活性物质 | P_PhysActive | | --- | --- | --- | --- | --- | | 不 | Four thousand eight hundred and ninety-three | Zero point nine | Two thousand four hundred and seventy-two | Zero point four five | | 是 | Five hundred and fifty | Zero point one | Two thousand nine hundred and seventy-one | Zero point five five | @@ -216,7 +216,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 | 是 | 不 | Three hundred and forty-nine | Zero point zero six | | 是 | 是 | Two hundred and one | Zero point zero four | -来计算P(dIabetes|Inac这些如表 6.3 所示。基于这些联合概率,我们可以计算出P(dIabetes|在计算机程序中做到这一点的一种方法是,首先确定每个个体的体力活动变量是否等于“否”,然后取这些真值的平均值。由于真/假值分别被大多数编程语言(包括R和Python)视为1/0,这允许我们通过简单地取代表其真值的逻辑变量的平均值来容易地识别简单事件的概率。然后,我们使用该值来计算条件概率,我们发现,假设某人不运动,那么他患糖尿病的概率是0.141。 +来计算P(dIabetes|Inac这些如表 6.3 所示。基于这些联合概率,我们可以计算出P(dIabetes|在计算机程序中做到这一点的一种方法是,首先确定每个个体的体力活动变量是否等于“否”,然后取这些真值的平均值。由于真/假值分别被大多数编程语言(包括 R 和 Python)视为 1/0,这允许我们通过简单地取代表其真值的逻辑变量的平均值来容易地识别简单事件的概率。然后,我们使用该值来计算条件概率,我们发现,假设某人不运动,那么他患糖尿病的概率是 0.141。 @@ -228,9 +228,9 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 P(A|B)=P(A)P(A | B)= P(A) -也就是说,给定B的某个值的概率恰好与A的总体概率相同。从这个角度看,我们看到现实世界中许多我们称之为“独立”的情况实际上在统计上并不独立。例如,目前有一小群加州公民正在采取行动,宣布成立一个名为杰斐逊的新的独立州,该州将包括北加州和俄勒冈州的一些县。如果发生这种情况,那么当前加州居民现在居住在杰斐逊州的概率将是P(杰斐逊)=0.014P(\ text {杰斐逊})=0.014 ,而他们将继续居住在杰斐逊州的概率新的州可能在政治上是独立的,但是他们在统计上是独立的,因为如果我们知道一个人是杰斐逊派,那么我们可以确定他们不是加利福尼亚人!也就是说,在普通语言中,独立性通常指的是具有排他性的集合,而统计独立性指的是无法从一个变量的值预测另一个变量的情况。例如,知道一个人的头发颜色不太可能告诉你他们更喜欢巧克力还是草莓冰淇淋。 +也就是说,给定 B 的某个值的概率恰好与 A 的总体概率相同。从这个角度看,我们看到现实世界中许多我们称之为“独立”的情况实际上在统计上并不独立。例如,目前有一小群加州公民正在采取行动,宣布成立一个名为杰斐逊的新的独立州,该州将包括北加州和俄勒冈州的一些县。如果发生这种情况,那么当前加州居民现在居住在杰斐逊州的概率将是P(杰斐逊)=0.014P(\ text {杰斐逊})=0.014 ,而他们将继续居住在杰斐逊州的概率新的州可能在政治上是独立的,但是他们在统计上是独立的,因为如果我们知道一个人是杰斐逊派,那么我们可以确定他们不是加利福尼亚人!也就是说,在普通语言中,独立性通常指的是具有排他性的集合,而统计独立性指的是无法从一个变量的值预测另一个变量的情况。例如,知道一个人的头发颜色不太可能告诉你他们更喜欢巧克力还是草莓冰淇淋。 -让我们用NHANES的数据来看另一个例子:身体健康和精神健康是相互独立的吗?NHANES包括两个相关的问题:*physical active*,询问个人是否身体活跃,以及*daysmenthmethbad*,询问个人在过去30天中有多少天经历了糟糕的心理健康。让我们把任何一个在过去的一个月里有超过7天精神健康状况不佳的人都视为精神健康状况不佳。基于此,我们可以定义一个叫做 *badMentalHealth* 的新变量,作为一个逻辑变量,告诉我们每个人是否有超过7天的不良心理健康。我们可以首先汇总数据,显示有多少人属于这两个变量的每个组合(如表 [6.4](#tab:mhCounts) 所示),然后除以观察总数,创建一个比例表(如表 [6.5](#tab:mhProps) 所示): +让我们用 NHANES 的数据来看另一个例子:身体健康和精神健康是相互独立的吗?NHANES 包括两个相关的问题:*physical active*,询问个人是否身体活跃,以及*daysmenthmethbad*,询问个人在过去 30 天中有多少天经历了糟糕的心理健康。让我们把任何一个在过去的一个月里有超过 7 天精神健康状况不佳的人都视为精神健康状况不佳。基于此,我们可以定义一个叫做 *badMentalHealth* 的新变量,作为一个逻辑变量,告诉我们每个人是否有超过 7 天的不良心理健康。我们可以首先汇总数据,显示有多少人属于这两个变量的每个组合(如表 [6.4](#tab:mhCounts) 所示),然后除以观察总数,创建一个比例表(如表 [6.5](#tab:mhProps) 所示): Table 6.4: Summary of absolute frequency data for mental health and physical activity. | 物理活性的 | 心理健康状况不佳 | 精神健康 | 总数 | @@ -255,7 +255,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 | 是 | Zero point one three | Zero point eight seven | one | | 总数 | Zero point one six | Zero point eight four | one | -心理健康不良的总体概率P(心理健康不良)P(\ text {心理健康不良}) 为0.16而条件概率P(心理健康不良|身体活跃因此,条件概率似乎比总体概率小一些,这表明它们不是独立的,尽管我们不能仅通过查看数字来确定,因为这些数字可能因我们样本中的随机可变性而不同。在本书的后面,我们将讨论统计工具,让我们直接测试两个变量是否独立。 +心理健康不良的总体概率P(心理健康不良)P(\ text {心理健康不良}) 为 0.16 而条件概率P(心理健康不良|身体活跃因此,条件概率似乎比总体概率小一些,这表明它们不是独立的,尽管我们不能仅通过查看数字来确定,因为这些数字可能因我们样本中的随机可变性而不同。在本书的后面,我们将讨论统计工具,让我们直接测试两个变量是否独立。 @@ -263,7 +263,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 ## 反转一个条件概率:贝叶斯法则 -很多时候,我们知道P(A|B)P(A | B)但是我们真正想知道的是P(B这种情况一般发生在医学筛查中,我们哪里知道P(阳性检测结果|疾病)(P(\ text {阳性检测结果|疾病}) 但是我们想知道的是 P 例如,一些医生建议50岁以上的男性使用一种名为前列腺特异性抗原(PSA)的测试进行筛查,以筛查可能的前列腺癌。在测试被批准用于医疗实践之前,制造商需要测试测试性能的两个方面。首先,他们需要表明*对*有多敏感——也就是说,当疾病出现时,发现它的可能性有多大: 敏感性=P(阳性检测|疾病)\ text { sensitivity } = P(\他们还需要显示*特异性*如何:即在没有疾病存在的情况下,给出阴性结果的可能性有多大: 特异性=P(阴性测试|无疾病)对于PSA测试,我们知道灵敏度约为80%,特异性约为70%。然而,这些并没有回答医生想要为任何特定患者回答的问题:假设检测结果为阳性,他们实际上患癌症的可能性有多大?这就要求我们把定义灵敏度的条件概率反过来:而不是P(PosItIve dIsease)P(正) 测试|疾病) 我们想知道P(dIsease +很多时候,我们知道P(A|B)P(A | B)但是我们真正想知道的是P(B这种情况一般发生在医学筛查中,我们哪里知道P(阳性检测结果|疾病)(P(\ text {阳性检测结果|疾病}) 但是我们想知道的是 P 例如,一些医生建议 50 岁以上的男性使用一种名为前列腺特异性抗原(PSA)的测试进行筛查,以筛查可能的前列腺癌。在测试被批准用于医疗实践之前,制造商需要测试测试性能的两个方面。首先,他们需要表明*对*有多敏感——也就是说,当疾病出现时,发现它的可能性有多大: 敏感性=P(阳性检测|疾病)\ text { sensitivity } = P(\他们还需要显示*特异性*如何:即在没有疾病存在的情况下,给出阴性结果的可能性有多大: 特异性=P(阴性测试|无疾病)对于 PSA 测试,我们知道灵敏度约为 80%,特异性约为 70%。然而,这些并没有回答医生想要为任何特定患者回答的问题:假设检测结果为阳性,他们实际上患癌症的可能性有多大?这就要求我们把定义灵敏度的条件概率反过来:而不是P(PosItIve dIsease)P(正) 测试|疾病) 我们想知道P(dIsease 为了反转一个条件概率,我们可以使用*贝叶斯法则*: @@ -279,7 +279,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 【p】(【b】【a1】)【b70】 -我们可以将相关数字代入这个等式,以确定PSA结果阳性的个人实际患有癌症的可能性——但请注意,为了做到这一点,我们还需要知道该人患癌症的总体概率,我们通常称之为*基础率*。让我们假设一个60岁的老人,他在未来10年内患前列腺癌的概率是P(cancer【T22)=0.058使用我们上面概述的灵敏度和特异性值,我们可以计算出给定阳性测试的个体患癌症的可能性: +我们可以将相关数字代入这个等式,以确定 PSA 结果阳性的个人实际患有癌症的可能性——但请注意,为了做到这一点,我们还需要知道该人患癌症的总体概率,我们通常称之为*基础率*。让我们假设一个 60 岁的老人,他在未来 10 年内患前列腺癌的概率是P(cancer【T22)=0.058使用我们上面概述的灵敏度和特异性值,我们可以计算出给定阳性测试的个体患癌症的可能性: P(癌|验)=P(验|癌)*P(P()+P(验| ) 0.80.058+0.3*0.942= 许多人都这样做,事实上,有大量心理学文献表明,人们在判断时会系统性地忽略*基础率*(即总体患病率)。 @@ -293,13 +293,13 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 【p】(【b】【a1】 -贝叶斯规则的不同部分有特定的名称,这与它们在使用贝叶斯规则更新我们的信念中的作用有关。我们从对B(P(B)P(B))的概率的初步猜测开始,我们称之为*先验*概率。在PSA的例子中,我们使用基础率作为我们的先验,因为在我们知道测试结果之前,这是我们对个体患癌几率的最佳猜测。然后我们收集一些数据,在我们的例子中是测试结果。数据A与结果B的一致程度由P(A|B)P(A | B)给出,我们称之为*可能性*。你可以认为这是数据的可能性,假设被测试的特定假设是真的。在我们的例子中,被测试的假设是个体是否患有癌症,可能性基于我们对测试灵敏度的了解(即,假设癌症存在,测试结果为阳性的概率)。分母(P(A)P(A))被称为*边际似然*,因为它表达了数据的总体似然,是B的所有可能值的平均值(在我们的例子中是疾病存在和疾病不存在)。胜负向左(P(B||A)P(B | A))被称为*后路*——因为它 +贝叶斯规则的不同部分有特定的名称,这与它们在使用贝叶斯规则更新我们的信念中的作用有关。我们从对 B(P(B)P(B))的概率的初步猜测开始,我们称之为*先验*概率。在 PSA 的例子中,我们使用基础率作为我们的先验,因为在我们知道测试结果之前,这是我们对个体患癌几率的最佳猜测。然后我们收集一些数据,在我们的例子中是测试结果。数据 A 与结果 B 的一致程度由P(A|B)P(A | B)给出,我们称之为*可能性*。你可以认为这是数据的可能性,假设被测试的特定假设是真的。在我们的例子中,被测试的假设是个体是否患有癌症,可能性基于我们对测试灵敏度的了解(即,假设癌症存在,测试结果为阳性的概率)。分母(P(A)P(A))被称为*边际似然*,因为它表达了数据的总体似然,是 B 的所有可能值的平均值(在我们的例子中是疾病存在和疾病不存在)。胜负向左(P(B||A)P(B | A))被称为*后路*——因为它 有另一种写贝叶斯规则的方式可以使这一点更清楚: 【p】(【b】【a1】 -左边的部分(P(A|B)P(A)\ frac { P(A | B 而右边的部分(P(B)P(B))告诉我们,在我们对数据一无所知之前,我们认为B有多大的可能性。 这更清楚地表明,贝叶斯定理的作用是基于数据比总体更有可能给出B的程度来更新我们的先验知识。如果假设在给定数据的情况下比一般情况下更有可能,那么我们会增加对假设的信任;如果给定的数据不太可能,那么我们减少我们的信念。 +左边的部分(P(A|B)P(A)\ frac { P(A | B 而右边的部分(P(B)P(B))告诉我们,在我们对数据一无所知之前,我们认为 B 有多大的可能性。 这更清楚地表明,贝叶斯定理的作用是基于数据比总体更有可能给出 B 的程度来更新我们的先验知识。如果假设在给定数据的情况下比一般情况下更有可能,那么我们会增加对假设的信任;如果给定的数据不太可能,那么我们减少我们的信念。 @@ -307,16 +307,16 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 ## 6.9 优势比和优势比 -上一部分的结果显示,根据阳性PSA测试结果,个人患癌症的可能性仍然相当低,尽管这是我们知道测试结果之前的两倍多。我们常常希望更直接地量化概率之间的关系,这可以通过将它们转换成表示某事发生或不发生的相对可能性的*赔率*来实现: -A的赔率=P(A)P +上一部分的结果显示,根据阳性 PSA 测试结果,个人患癌症的可能性仍然相当低,尽管这是我们知道测试结果之前的两倍多。我们常常希望更直接地量化概率之间的关系,这可以通过将它们转换成表示某事发生或不发生的相对可能性的*赔率*来实现: +A 的赔率=P(A)P -在我们的PSA示例中,患癌症的几率(假设检测结果为阳性)为: +在我们的 PSA 示例中,患癌症的几率(假设检测结果为阳性)为: 癌症几率=P(癌症)P(癌症)= -这告诉我们,即使测试呈阳性,患癌症的几率还是相当低的。作为比较,在一次掷骰子中掷出6的几率是: +这告诉我们,即使测试呈阳性,患癌症的几率还是相当低的。作为比较,在一次掷骰子中掷出 6 的几率是: -赔率6=15=0.2\ text {赔率6 } = \ frac { 1 } { 5 } = 0.2 +赔率 6=15=0.2\ text {赔率 6 } = \ frac { 1 } { 5 } = 0.2 此外,这也是为什么许多医学研究人员越来越警惕对相对罕见的疾病使用广泛的筛查测试的原因;大多数阳性结果将被证明是假阳性,导致不必要的后续检查和可能的并发症,更不用说增加病人的压力。 @@ -328,7 +328,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 赔率 = 后验赔率 先验赔率=0.160.061=2.62\ text { odds ratio } = \ frac { \ text {后验赔率} } { \ text {后验赔率} -这告诉我们,在测试结果为阳性的情况下,患癌症的几率增加了2.62倍。优势比是我们稍后称之为*效应大小*的一个例子,这是一种量化任何特定统计效应有多大的方法。 +这告诉我们,在测试结果为阳性的情况下,患癌症的几率增加了 2.62 倍。优势比是我们稍后称之为*效应大小*的一个例子,这是一种量化任何特定统计效应有多大的方法。 @@ -338,7 +338,7 @@ de Méré赌他会在四次掷骰子中至少掷出一个6,这个概率大于0 你可能会觉得,根据检测结果谈论一个人患癌症的可能性有点奇怪;毕竟,这个人要么得了癌症,要么没有。历史上,概率有两种不同的解释方式。第一种(被称为*频率主义者*解释)从长期频率的角度解释概率。例如,在抛硬币的情况下,在大量抛硬币后,它将反映头部的相对频率。虽然这种解释对于像掷硬币一样可以重复多次的事件可能有意义,但对于只会发生一次的事件,如个人生活或特定的总统选举,就不那么有意义了;正如经济学家约翰·梅纳德·凯恩斯(John Maynard Keynes)的名言,“从长期来看,我们都会死。” -概率的另一种解释(称为*贝叶斯*解释)是对特定命题的信任程度。如果我问你“美国在2040年重返月球的可能性有多大”,你可以基于你的知识和信念给出这个问题的答案,即使没有相关的频率来计算频率主义者的概率。我们通常框定主观概率的一种方式是根据一个人接受特定赌博的意愿。例如,如果你认为美国在2040年登陆月球的概率是0.1(即赔率为9比1),那么这意味着你应该愿意接受一场赌博,如果事件发生,赔率将超过9比1。 +概率的另一种解释(称为*贝叶斯*解释)是对特定命题的信任程度。如果我问你“美国在 2040 年重返月球的可能性有多大”,你可以基于你的知识和信念给出这个问题的答案,即使没有相关的频率来计算频率主义者的概率。我们通常框定主观概率的一种方式是根据一个人接受特定赌博的意愿。例如,如果你认为美国在 2040 年登陆月球的概率是 0.1(即赔率为 9 比 1),那么这意味着你应该愿意接受一场赌博,如果事件发生,赔率将超过 9 比 1。 正如我们将会看到的,这两种不同的概率定义与统计学家考虑检验统计假设的两种不同方式非常相关,我们将在后面的章节中遇到。 diff --git a/docs/07.md b/docs/07.md index 391c490..611d541 100644 --- a/docs/07.md +++ b/docs/07.md @@ -4,7 +4,7 @@ 统计学中的一个基本思想是,我们可以根据总体中相对较小的个体样本,对整个总体做出推断。在这一章中,我们将介绍统计抽样的概念,并讨论它的工作原理。 -任何生活在美国的人都会熟悉从政治民意调查中取样的概念,这已经成为我们选举过程的一个核心部分。在某些情况下,这些民意调查在预测选举结果时会非常准确。最著名的例子来自2008年和2012年美国总统选举,当时民调专家内特·西尔弗(Nate Silver)正确预测了2008年49/50个州和2012年全部50个州的选举结果。西尔弗是通过综合21个不同民调的数据得出这一结论的,这些数据在倾向于共和党或民主党的程度上有所不同。每一项民意调查都包括来自大约1000名潜在选民的数据——这意味着Silver能够利用仅来自大约21,000人的数据以及其他知识(如这些州过去的投票情况)几乎完美地预测超过1 . 25亿选民的投票模式。 +任何生活在美国的人都会熟悉从政治民意调查中取样的概念,这已经成为我们选举过程的一个核心部分。在某些情况下,这些民意调查在预测选举结果时会非常准确。最著名的例子来自 2008 年和 2012 年美国总统选举,当时民调专家内特·西尔弗(Nate Silver)正确预测了 2008 年 49/50 个州和 2012 年全部 50 个州的选举结果。西尔弗是通过综合 21 个不同民调的数据得出这一结论的,这些数据在倾向于共和党或民主党的程度上有所不同。每一项民意调查都包括来自大约 1000 名潜在选民的数据——这意味着 Silver 能够利用仅来自大约 21,000 人的数据以及其他知识(如这些州过去的投票情况)几乎完美地预测超过 1 . 25 亿选民的投票模式。 @@ -12,7 +12,7 @@ 我们抽样的目的是确定感兴趣的整个人口的统计值,只使用人口的一个小子集。我们这样做主要是为了节省时间和精力——当仅仅一个小样本就足以准确估计感兴趣的统计数据时,为什么还要费事去测量群体中的每个个体呢? -在选举示例中,人口是被调查区域中的所有注册选民,样本是由投票组织选择的1000个人的集合。我们选择样本的方式对于确保样本能够代表整个人口是至关重要的,这也是统计抽样的一个主要目标。很容易想象一个不具有代表性的样本;如果民意测验专家只打电话给他们从当地民主党那里得到名字的个人,那么民意测验的结果就不可能代表全体人口。一般来说,我们将代表性投票定义为人口中的每个成员都有平等的机会被选中。当这失败时,我们就不得不担心我们对样本计算的统计数据是否有*偏差*——也就是说,它的值是否系统地不同于总体值(我们称之为*参数*)。请记住,我们通常不知道这个总体参数,因为如果我们知道,那么我们就不需要采样!但是我们会用例子来说明一些关键的观点,在这些例子中我们可以接触到整个人群。 +在选举示例中,人口是被调查区域中的所有注册选民,样本是由投票组织选择的 1000 个人的集合。我们选择样本的方式对于确保样本能够代表整个人口是至关重要的,这也是统计抽样的一个主要目标。很容易想象一个不具有代表性的样本;如果民意测验专家只打电话给他们从当地民主党那里得到名字的个人,那么民意测验的结果就不可能代表全体人口。一般来说,我们将代表性投票定义为人口中的每个成员都有平等的机会被选中。当这失败时,我们就不得不担心我们对样本计算的统计数据是否有*偏差*——也就是说,它的值是否系统地不同于总体值(我们称之为*参数*)。请记住,我们通常不知道这个总体参数,因为如果我们知道,那么我们就不需要采样!但是我们会用例子来说明一些关键的观点,在这些例子中我们可以接触到整个人群。 区分两种不同的采样方式也很重要:有替换和没有替换。在使用替换的采样*中,在群体的一个成员被采样后,他们被放回池中,以便他们可能被再次采样。在*无替换抽样*中,成员一旦被抽样,就没有资格再次被抽样。最常见的是使用无替换采样,但是在某些情况下我们会使用有替换采样,比如我们在第 [8](#resampling-and-simulation) 章中讨论一种叫做*引导*的技术。* @@ -26,9 +26,9 @@ 抽样误差直接关系到我们测量人口的质量。显然,我们希望从样本中获得的估计值尽可能接近总体参数的真实值。然而,即使我们的统计是无偏的(即,我们期望它具有与总体参数相同的值),任何特定估计的值都将不同于总体值,并且当抽样误差较大时,这些差异将会较大。因此,减少采样误差是提高测量质量的重要一步。 -我们将使用NHANES数据集作为例子;我们将假设NHANES数据集是感兴趣的整个人群,然后我们将从该人群中抽取随机样本。我们将在下一章详细讲述在计算机中如何产生“随机”样本。 +我们将使用 NHANES 数据集作为例子;我们将假设 NHANES 数据集是感兴趣的整个人群,然后我们将从该人群中抽取随机样本。我们将在下一章详细讲述在计算机中如何产生“随机”样本。 -在本例中,我们知道成人人口身高的平均值(168.35)和标准差(10.16),因为我们假设NHANES数据集*是人口的*。表 [7.1](#tab:sampleExample) 显示了从NHANES人群的50个个体的几个样本计算的统计数据。 +在本例中,我们知道成人人口身高的平均值(168.35)和标准差(10.16),因为我们假设 NHANES 数据集*是人口的*。表 [7.1](#tab:sampleExample) 显示了从 NHANES 人群的 50 个个体的几个样本计算的统计数据。 Table 7.1: Example means and standard deviations for several samples of Height variable from NHANES. | 采样平均 | 样品 | @@ -39,11 +39,11 @@ | One hundred and sixty-six | Nine point five | | One hundred and sixty-eight | Nine point five | -样本均值和标准差相似,但不完全等于总体值。现在,让我们从50个个体中抽取大量样本,计算每个样本的平均值,并查看平均值的抽样分布。为了很好地估计抽样分布,我们必须决定取多少样本——在这种情况下,我们将取5000个样本,这样我们对答案非常有信心。请注意,像这样的模拟有时需要几分钟才能运行,可能会让您的计算机气鼓鼓的。图 [7.1](#fig:samplePlot) 中的直方图显示,50个个体的每个样本的估计均值略有不同,但总体而言,它们以总体均值为中心。5000个样本平均值(168.3463)非常接近真实总体平均值(168.3497)。 +样本均值和标准差相似,但不完全等于总体值。现在,让我们从 50 个个体中抽取大量样本,计算每个样本的平均值,并查看平均值的抽样分布。为了很好地估计抽样分布,我们必须决定取多少样本——在这种情况下,我们将取 5000 个样本,这样我们对答案非常有信心。请注意,像这样的模拟有时需要几分钟才能运行,可能会让您的计算机气鼓鼓的。图 [7.1](#fig:samplePlot) 中的直方图显示,50 个个体的每个样本的估计均值略有不同,但总体而言,它们以总体均值为中心。5000 个样本平均值(168.3463)非常接近真实总体平均值(168.3497)。 ![The blue histogram shows the sampling distribution of the mean over 5000 random samples from the NHANES dataset. The histogram for the full dataset is shown in gray for reference.](img/file41.png) -图7.1:蓝色直方图显示了NHANES数据集中超过5000个随机样本的平均抽样分布。完整数据集的直方图以灰色显示,以供参考。 +图 7.1:蓝色直方图显示了 NHANES 数据集中超过 5000 个随机样本的平均抽样分布。完整数据集的直方图以灰色显示,以供参考。 @@ -55,11 +55,11 @@ 【s】【e】【m】= -请注意,如果我们的样本很小(小于30),我们必须小心使用估计的标准偏差计算SEM。 +请注意,如果我们的样本很小(小于 30),我们必须小心使用估计的标准偏差计算 SEM。 -因为我们有来自NHANES总体的许多样本,并且我们实际上知道总体SEM(我们通过将总体标准差除以总体大小来计算),所以我们可以确认,使用总体参数(1.44)计算的SEM非常接近我们从NHANES数据集(1.43)获取的样本的均值的观测标准差。 +因为我们有来自 NHANES 总体的许多样本,并且我们实际上知道总体 SEM(我们通过将总体标准差除以总体大小来计算),所以我们可以确认,使用总体参数(1.44)计算的 SEM 非常接近我们从 NHANES 数据集(1.43)获取的样本的均值的观测标准差。 -平均值的标准误差公式意味着我们测量的质量涉及两个量:总体可变性和样本大小。因为样本大小是SEM公式中的分母,所以在保持总体可变性不变的情况下,较大的样本大小将产生较小的SEM。我们无法控制人口的可变性,但是我们可以控制样本的大小。因此,如果我们希望改善我们的样本统计(通过减少他们的抽样可变性),那么我们应该使用更大的样本。然而,这个公式也告诉我们一些关于统计抽样的非常基本的东西——也就是说,较大样本的效用随着样本大小的平方根而减少。这意味着加倍样本量将*而不是*加倍统计数据的质量;而是将其提高一个2\ sqrt { 2 }的因子。在第 [10.3](#statistical-power) 节中,我们将讨论统计功效,它与这一概念密切相关。 +平均值的标准误差公式意味着我们测量的质量涉及两个量:总体可变性和样本大小。因为样本大小是 SEM 公式中的分母,所以在保持总体可变性不变的情况下,较大的样本大小将产生较小的 SEM。我们无法控制人口的可变性,但是我们可以控制样本的大小。因此,如果我们希望改善我们的样本统计(通过减少他们的抽样可变性),那么我们应该使用更大的样本。然而,这个公式也告诉我们一些关于统计抽样的非常基本的东西——也就是说,较大样本的效用随着样本大小的平方根而减少。这意味着加倍样本量将*而不是*加倍统计数据的质量;而是将其提高一个2\ sqrt { 2 }的因子。在第 [10.3](#statistical-power) 节中,我们将讨论统计功效,它与这一概念密切相关。 @@ -69,13 +69,13 @@ 中心极限定理告诉我们,随着样本量变大,均值的抽样分布将变成正态分布,*即使每个样本内的数据不是正态分布*。 -首先,我们来简单介绍一下正态分布。它也被称为*高斯*分布,以卡尔·弗里德里希·高斯的名字命名,这位数学家没有发明它,但在它的发展中发挥了作用。正态分布用两个参数来描述:平均值(可以认为是峰值的位置)和标准差(指定分布的宽度)。分布的钟形形状永远不会改变,只有它的位置和宽度会改变。正如我们已经在第3章中看到的,正态分布在现实世界中收集的数据中是常见的,中心极限定理给了我们一些关于为什么会发生这种情况的见解。 +首先,我们来简单介绍一下正态分布。它也被称为*高斯*分布,以卡尔·弗里德里希·高斯的名字命名,这位数学家没有发明它,但在它的发展中发挥了作用。正态分布用两个参数来描述:平均值(可以认为是峰值的位置)和标准差(指定分布的宽度)。分布的钟形形状永远不会改变,只有它的位置和宽度会改变。正如我们已经在第 3 章中看到的,正态分布在现实世界中收集的数据中是常见的,中心极限定理给了我们一些关于为什么会发生这种情况的见解。 -为了查看中心极限定理的作用,让我们使用NHANES数据集中的变量AlcoholYear,它是高度偏斜的,如图 [7.2](#fig:alcDist50) 的左图所示。由于没有更好的词来形容,这种分布是时髦的——而且肯定不是正态分布。现在让我们看看这个变量的均值的抽样分布。图 [7.2](#fig:alcDist50) 显示了该变量的抽样分布,通过从NHANES数据集中重复抽取50个样本并取平均值获得。尽管原始数据显然是非正态的,但抽样分布非常接近正态。 +为了查看中心极限定理的作用,让我们使用 NHANES 数据集中的变量 AlcoholYear,它是高度偏斜的,如图 [7.2](#fig:alcDist50) 的左图所示。由于没有更好的词来形容,这种分布是时髦的——而且肯定不是正态分布。现在让我们看看这个变量的均值的抽样分布。图 [7.2](#fig:alcDist50) 显示了该变量的抽样分布,通过从 NHANES 数据集中重复抽取 50 个样本并取平均值获得。尽管原始数据显然是非正态的,但抽样分布非常接近正态。 ![Left: Distribution of the variable AlcoholYear in the NHANES dataset, which reflects the number of days that the individual drank in a year. Right: The sampling distribution of the mean for AlcoholYear in the NHANES dataset, obtained by drawing repeated samples of size 50, in blue. The normal distribution with the same mean and standard deviation is shown in red.](img/file42.png) -图7.2:左:NHANES数据集中变量AlcoholYear的分布,它反映了个人一年中饮酒的天数。右图:NHANES数据集中酒精年份平均值的抽样分布,通过绘制50个蓝色重复样本获得。具有相同平均值和标准偏差的正态分布显示为红色。 +图 7.2:左:NHANES 数据集中变量 AlcoholYear 的分布,它反映了个人一年中饮酒的天数。右图:NHANES 数据集中酒精年份平均值的抽样分布,通过绘制 50 个蓝色重复样本获得。具有相同平均值和标准偏差的正态分布显示为红色。 中心极限定理对统计学很重要,因为它允许我们安全地假设在大多数情况下均值的抽样分布将是正态的。这意味着我们可以利用假设正态分布的统计技术,我们将在下一节中看到。它也很重要,因为它告诉我们为什么正态分布在现实世界中如此普遍;任何时候我们把许多不同的因素结合成一个单一的数字,结果很可能是一个正态分布。例如,任何成年人的身高都取决于他们的基因和经历的复杂混合;即使这些单独的贡献可能不是正态分布的,当我们将它们组合起来时,结果也是正态分布的。 @@ -98,7 +98,7 @@ ## 7.6 建议读数 -* Nate Silver的《信号与噪音:为什么这么多预测失败,但有些却没有》 +* Nate Silver 的《信号与噪音:为什么这么多预测失败,但有些却没有》 diff --git a/docs/08.md b/docs/08.md index 33c03dd..6fb16a2 100644 --- a/docs/08.md +++ b/docs/08.md @@ -21,7 +21,7 @@ 3. 使用随机数执行计算 4. 合并多次重复的结果 -举个例子,假设我想算出课堂测验的时间。我们将假设我们知道测验完成时间的分布是正态分布,平均值为5分钟,标准差为1分钟。考虑到这一点,我们希望所有学生在99%的时间内完成考试需要多长时间?有两种方法可以解决这个问题。第一种是用一种叫做极值统计学的数学理论来计算答案。然而,这涉及到复杂的数学。或者,我们可以使用蒙特卡罗模拟。为此,我们需要从正态分布中生成随机样本。 +举个例子,假设我想算出课堂测验的时间。我们将假设我们知道测验完成时间的分布是正态分布,平均值为 5 分钟,标准差为 1 分钟。考虑到这一点,我们希望所有学生在 99%的时间内完成考试需要多长时间?有两种方法可以解决这个问题。第一种是用一种叫做极值统计学的数学理论来计算答案。然而,这涉及到复杂的数学。或者,我们可以使用蒙特卡罗模拟。为此,我们需要从正态分布中生成随机样本。 @@ -29,7 +29,7 @@ ## 8.2 统计学中的随机性 -术语“随机”通常在口语中用来指奇怪或意想不到的事情,但在统计学中,该术语有一个非常具体的含义:如果一个过程不可预测,它就是*随机的*。例如,如果我掷一枚普通硬币10次,一次掷的结果值并不能为我提供任何信息来预测下一次掷的结果。重要的是要注意,某件事不可预测的事实并不一定意味着它不是确定的。例如,当我们抛硬币时,抛硬币的结果是由物理定律决定的;如果我们足够详细地了解所有的条件,我们应该能够预测翻转的结果。然而,许多因素结合在一起,使得掷硬币的结果在实践中不可预测。 +术语“随机”通常在口语中用来指奇怪或意想不到的事情,但在统计学中,该术语有一个非常具体的含义:如果一个过程不可预测,它就是*随机的*。例如,如果我掷一枚普通硬币 10 次,一次掷的结果值并不能为我提供任何信息来预测下一次掷的结果。重要的是要注意,某件事不可预测的事实并不一定意味着它不是确定的。例如,当我们抛硬币时,抛硬币的结果是由物理定律决定的;如果我们足够详细地了解所有的条件,我们应该能够预测翻转的结果。然而,许多因素结合在一起,使得掷硬币的结果在实践中不可预测。 心理学家表明,人类实际上有相当糟糕的随机感。首先,我们倾向于看到不存在的模式。在极端情况下,这导致了 *pareidolia* 现象,在这种现象中,人们会在随机模式中感知熟悉的物体(例如将一朵云感知为人脸或在一片烤面包中看到圣母玛利亚)。第二,人类倾向于认为随机过程是自我修正的,这导致我们在一场概率游戏中输掉许多回合后,认为自己“应该赢”,这种现象被称为“赌徒谬误”。 @@ -39,15 +39,15 @@ ## 8.3 生成随机数 -运行蒙特卡罗模拟需要我们生成随机数。产生真正的随机数(即完全不可预测的数字)只有通过物理过程才有可能,如原子衰变或掷骰子,这些过程很难获得和/或太慢而无法用于计算机模拟(尽管它们可以从 [NIST随机性信标](https://www.nist.gov/programs-projects/nist-randomness-beacon%5D)中获得)。 +运行蒙特卡罗模拟需要我们生成随机数。产生真正的随机数(即完全不可预测的数字)只有通过物理过程才有可能,如原子衰变或掷骰子,这些过程很难获得和/或太慢而无法用于计算机模拟(尽管它们可以从 [NIST 随机性信标](https://www.nist.gov/programs-projects/nist-randomness-beacon%5D)中获得)。 -一般来说,我们使用通过计算机算法产生的*伪随机数*,而不是真正的随机数;从很难预测的意义上来说,这些数字看起来是随机的,但实际上这一系列数字会在某个时候重复出现。例如,r中使用的随机数生成器会在219937-12^{19937}-1数字后重复。这远远超过了宇宙历史中的秒数,我们通常认为这对于统计分析的大多数目的来说是没问题的。 +一般来说,我们使用通过计算机算法产生的*伪随机数*,而不是真正的随机数;从很难预测的意义上来说,这些数字看起来是随机的,但实际上这一系列数字会在某个时候重复出现。例如,r 中使用的随机数生成器会在219937-12^{19937}-1数字后重复。这远远超过了宇宙历史中的秒数,我们通常认为这对于统计分析的大多数目的来说是没问题的。 -大多数统计软件都包括为每个主要概率分布生成随机数的功能,例如均匀分布(0到1之间的所有值相等)、正态分布和二项式分布(例如掷骰子、掷硬币)。图 [8.1](#fig:rngExamples) 显示了从均匀分布函数和正态分布函数生成的数字示例。 +大多数统计软件都包括为每个主要概率分布生成随机数的功能,例如均匀分布(0 到 1 之间的所有值相等)、正态分布和二项式分布(例如掷骰子、掷硬币)。图 [8.1](#fig:rngExamples) 显示了从均匀分布函数和正态分布函数生成的数字示例。 ![Examples of random numbers generated from a uniform (left) or normal (right) distribution.](img/file43.png) -图8.1:从均匀分布(左)或正态分布(右)生成的随机数示例。 +图 8.1:从均匀分布(左)或正态分布(右)生成的随机数示例。 也可以使用分布的分位数函数为任何分布生成随机数。这是累积分布函数的倒数;分位数函数不是标识一组值的累积概率,而是标识一组累积概率的值。使用分位数函数,我们可以从均匀分布中生成随机数,然后通过分位数函数将它们映射到感兴趣的分布中。 @@ -63,15 +63,15 @@ ![Simulated finishing time distributions.](img/file44.png) -图8.2:模拟的结束时间分布。 +图 8.2:模拟的结束时间分布。 -要回答我们的问题,我们真正想知道的不是完成时间的分布是什么样的,而是每次测验的最长完成时间的分布是什么样的。为了做到这一点,我们可以模拟一个测验的结束时间,假设结束时间是正态分布的,如上所述;对于每个模拟测验,我们会记录最长的完成时间。我们大量重复这种模拟(5000次应该足够了)并记录完成次数的分布,如图 [8.3](#fig:finishTimeSim) 所示。 +要回答我们的问题,我们真正想知道的不是完成时间的分布是什么样的,而是每次测验的最长完成时间的分布是什么样的。为了做到这一点,我们可以模拟一个测验的结束时间,假设结束时间是正态分布的,如上所述;对于每个模拟测验,我们会记录最长的完成时间。我们大量重复这种模拟(5000 次应该足够了)并记录完成次数的分布,如图 [8.3](#fig:finishTimeSim) 所示。 ![Distribution of maximum finishing times across simulations.](img/file45.png) -图8.3:模拟中最大完成时间的分布。 +图 8.3:模拟中最大完成时间的分布。 -这表明完成时间分布的第99个百分位数为8.74,这意味着如果我们给测验那么多时间,那么每个人都应该完成99%的时间。记住我们的假设很重要,这一点很重要——如果假设是错误的,那么模拟的结果就是无用的。在这种情况下,我们假设结束时间分布正态分布,具有特定的平均值和标准偏差;如果这些假设是不正确的(它们几乎肯定是不正确的,因为运行时间很少是正态分布的),那么真实的答案可能会非常不同。 +这表明完成时间分布的第 99 个百分位数为 8.74,这意味着如果我们给测验那么多时间,那么每个人都应该完成 99%的时间。记住我们的假设很重要,这一点很重要——如果假设是错误的,那么模拟的结果就是无用的。在这种情况下,我们假设结束时间分布正态分布,具有特定的平均值和标准偏差;如果这些假设是不正确的(它们几乎肯定是不正确的,因为运行时间很少是正态分布的),那么真实的答案可能会非常不同。 @@ -85,17 +85,17 @@ ### 8.5.1 计算自举 -在前一章中,我们使用了均值的抽样分布知识来计算均值的标准误差。但是如果我们不能假设估计值是正态分布的,或者我们不知道它们的分布,那该怎么办呢?bootstrap的想法是使用数据本身来估计答案。这个名字来源于自力更生的想法,表达了我们没有任何外部杠杆来源,所以我们必须依赖数据本身的想法。自举法是由斯坦福大学统计系的布拉德利·埃夫隆提出的,他是世界上最有影响力的统计学家之一。 +在前一章中,我们使用了均值的抽样分布知识来计算均值的标准误差。但是如果我们不能假设估计值是正态分布的,或者我们不知道它们的分布,那该怎么办呢?bootstrap 的想法是使用数据本身来估计答案。这个名字来源于自力更生的想法,表达了我们没有任何外部杠杆来源,所以我们必须依赖数据本身的想法。自举法是由斯坦福大学统计系的布拉德利·埃夫隆提出的,他是世界上最有影响力的统计学家之一。 -bootstrap背后的想法是我们从实际的数据集中重复采样;重要的是,我们用替换的对*进行采样,这样同一个数据点通常会在一个样本中出现多次。然后,我们计算每个bootstrap样本的感兴趣的统计量,并使用这些估计值的分布作为我们的采样分布。在某种意义上,我们将特定的样本视为整个总体,然后用替换重复采样,以生成我们的分析样本。这使得我们的特定样本是总体的准确反映的假设,这对于较大的样本可能是合理的,但是当样本较小时可能会失效。* +bootstrap 背后的想法是我们从实际的数据集中重复采样;重要的是,我们用替换的对*进行采样,这样同一个数据点通常会在一个样本中出现多次。然后,我们计算每个 bootstrap 样本的感兴趣的统计量,并使用这些估计值的分布作为我们的采样分布。在某种意义上,我们将特定的样本视为整个总体,然后用替换重复采样,以生成我们的分析样本。这使得我们的特定样本是总体的准确反映的假设,这对于较大的样本可能是合理的,但是当样本较小时可能会失效。* -让我们从使用bootstrap估计NHANES数据集中成人身高平均值的抽样分布开始,这样我们就可以将结果与我们之前讨论的平均值的标准误差(SEM)进行比较。 +让我们从使用 bootstrap 估计 NHANES 数据集中成人身高平均值的抽样分布开始,这样我们就可以将结果与我们之前讨论的平均值的标准误差(SEM)进行比较。 ![An example of bootstrapping to compute the standard error of the mean adult height in the NHANES dataset. The histogram shows the distribution of means across bootstrap samples, while the red line shows the normal distribution based on the sample mean and standard deviation.](img/file46.png) -图8.4:计算NHANES数据集中成人平均身高标准误差的自举示例。直方图显示了bootstrap样本的均值分布,而红线显示了基于样本均值和标准差的正态分布。 +图 8.4:计算 NHANES 数据集中成人平均身高标准误差的自举示例。直方图显示了 bootstrap 样本的均值分布,而红线显示了基于样本均值和标准差的正态分布。 -图 [8.4](#fig:bootstrapSEM) 显示自助样本的均值分布非常接近基于正态假设的理论估计值。我们通常不会使用bootstrap来计算均值的置信区间(因为我们通常可以假设正态分布适用于均值的抽样分布,只要我们的样本足够大),但这个示例显示了该方法如何给出与基于正态分布的标准方法大致相同的结果。在我们知道或怀疑正态分布不合适的情况下,bootstrap通常用于生成其他统计估计的标准误差。此外,在后面的章节中,你将看到我们如何使用bootstrap样本来生成样本统计中不确定性的估计。 +图 [8.4](#fig:bootstrapSEM) 显示自助样本的均值分布非常接近基于正态假设的理论估计值。我们通常不会使用 bootstrap 来计算均值的置信区间(因为我们通常可以假设正态分布适用于均值的抽样分布,只要我们的样本足够大),但这个示例显示了该方法如何给出与基于正态分布的标准方法大致相同的结果。在我们知道或怀疑正态分布不合适的情况下,bootstrap 通常用于生成其他统计估计的标准误差。此外,在后面的章节中,你将看到我们如何使用 bootstrap 样本来生成样本统计中不确定性的估计。 diff --git a/docs/09.md b/docs/09.md index 2c5ab16..691b0eb 100644 --- a/docs/09.md +++ b/docs/09.md @@ -14,14 +14,14 @@ ## 9.1 零假设统计检验(NHST) -我们将要讨论的假设检验的具体类型被称为*零假设统计检验* (NHST)。如果你拿起几乎任何科学或生物医学研究出版物,你会看到NHST被用来测试假设,在他们的心理学入门教科书中,格里克&津巴多(2002)将NHST称为“心理学研究的支柱”。因此,学习如何使用和解释假设检验的结果对于理解许多研究领域的结果是至关重要的。 +我们将要讨论的假设检验的具体类型被称为*零假设统计检验* (NHST)。如果你拿起几乎任何科学或生物医学研究出版物,你会看到 NHST 被用来测试假设,在他们的心理学入门教科书中,格里克&津巴多(2002)将 NHST 称为“心理学研究的支柱”。因此,学习如何使用和解释假设检验的结果对于理解许多研究领域的结果是至关重要的。 -然而,让你知道NHST有很深的缺陷也很重要,许多统计学家和研究人员(包括我自己)认为这是科学中严重问题的原因,我们将在第18章讨论。50多年来,一直有人呼吁放弃NHST而采用其他方法(比如我们将在以下章节中讨论的方法): +然而,让你知道 NHST 有很深的缺陷也很重要,许多统计学家和研究人员(包括我自己)认为这是科学中严重问题的原因,我们将在第 18 章讨论。50 多年来,一直有人呼吁放弃 NHST 而采用其他方法(比如我们将在以下章节中讨论的方法): * “心理学研究中的统计显著性检验可以被看作是研究过程中一种基本的盲目行为的一个例子”(巴坎,1966) * 假设检验是“关于什么构成科学进步的错误观点”(卢斯,1988) -NHST也被广泛误解,主要是因为它违背了我们关于统计假设检验应该如何工作的直觉。让我们看一个例子来了解这一点。 +NHST 也被广泛误解,主要是因为它违背了我们关于统计假设检验应该如何工作的直觉。让我们看一个例子来了解这一点。 @@ -29,13 +29,13 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 ## 9.2 零假设统计检验:一个例子 -人们对警察使用随身携带的相机很感兴趣,认为这可以减少武力的使用,改善警察的行为。然而,为了证明这一点,我们需要实验证据,而政府使用随机对照试验来检验这些想法已经变得越来越普遍。2015/2016年,华盛顿州、DC政府和DC大都会警察局进行了一项关于体戴相机有效性的随机对照试验。军官们被随机分配佩戴或不佩戴随身摄像机,然后随着时间的推移,他们的行为被跟踪,以确定摄像机是否导致更少使用武力和更少的平民对军官行为的投诉。 +人们对警察使用随身携带的相机很感兴趣,认为这可以减少武力的使用,改善警察的行为。然而,为了证明这一点,我们需要实验证据,而政府使用随机对照试验来检验这些想法已经变得越来越普遍。2015/2016 年,华盛顿州、DC 政府和 DC 大都会警察局进行了一项关于体戴相机有效性的随机对照试验。军官们被随机分配佩戴或不佩戴随身摄像机,然后随着时间的推移,他们的行为被跟踪,以确定摄像机是否导致更少使用武力和更少的平民对军官行为的投诉。 在我们得到结果之前,让我们问一下你认为统计分析可能如何工作。比方说,我们想具体测试佩戴摄像头是否会减少使用武力的假设。随机对照试验为我们提供了检验假设的数据——即被分配到摄像机组或对照组的官员使用武力的比率。下一个明显的步骤是查看数据,并确定它们是否为这一假设提供了令人信服的证据。那就是:给定数据和我们所知道的一切,随身携带的相机减少武力使用的可能性有多大? 原来这是*而不是*零假设检验的工作方式。相反,我们首先采用我们感兴趣的假设(即,体戴式相机减少使用武力),并将其颠倒过来,创建一个*无效假设*——在这种情况下,无效假设将是相机不会减少使用武力。重要的是,我们假设零假设是真的。然后,我们查看数据,并确定如果零假设为真,数据的可能性有多大。如果数据在零假设下不太可能,我们可以拒绝零假设,而选择另一个假设*作为我们感兴趣的假设。如果没有足够的证据来拒绝零,那么我们说我们保留(或“未能拒绝”)零,坚持我们最初的假设,即零是真实的。* -理解NHST的一些概念,尤其是臭名昭著的“p值”,在你第一次遇到它们时总是充满挑战,因为它们太反直觉了。正如我们将在后面看到的,还有其他方法提供了一种更直观的方法来处理假设检验(但是有它们自己的复杂性)。然而,在我们讨论这些之前,对你来说,深入了解假设检验的工作原理是很重要的,因为它显然不会很快消失。 +理解 NHST 的一些概念,尤其是臭名昭著的“p 值”,在你第一次遇到它们时总是充满挑战,因为它们太反直觉了。正如我们将在后面看到的,还有其他方法提供了一种更直观的方法来处理假设检验(但是有它们自己的复杂性)。然而,在我们讨论这些之前,对你来说,深入了解假设检验的工作原理是很重要的,因为它显然不会很快消失。 @@ -52,7 +52,7 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 5. 假设零假设为真,计算该统计的观察值的概率 6. 评估结果的“统计显著性” -举个动手的例子,让我们用NHANES的数据提出以下问题:身体活动与身体质量指数有关吗?在NHANES数据集中,参与者被问及他们是否定期参加中等或剧烈强度的体育、健身或娱乐活动(存储在变量PhysActIvephy active研究人员还测量了身高和体重,并用它们来计算身体质量指数(身体质量指数): +举个动手的例子,让我们用 NHANES 的数据提出以下问题:身体活动与身体质量指数有关吗?在 NHANES 数据集中,参与者被问及他们是否定期参加中等或剧烈强度的体育、健身或娱乐活动(存储在变量PhysActIvephy active研究人员还测量了身高和体重,并用它们来计算身体质量指数(身体质量指数): 【B3】【b】【m】【I】=w @@ -66,9 +66,9 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 -### 9.3.2 步骤2:指定无效假设和替代假设 +### 9.3.2 步骤 2:指定无效假设和替代假设 -对于步骤2,我们需要指定我们的零假设(我们称之为H0H _ 0)和我们的替代假设(我们称之为AH _ A)。H0H _ 0是我们测试我们感兴趣的假设的基线:也就是说,如果没有影响,我们会期望数据看起来像什么?零假设总是涉及到某种等式(=,\乐 ,或者\葛 )。HAH _ A描述了如果确实存在一种效果,我们所期望的。备择假设总是涉及到某种不等式(\ ne、>或<)。重要的是,零假设检验是在假设零假设为真的情况下进行的,除非证据显示并非如此。 +对于步骤 2,我们需要指定我们的零假设(我们称之为H0H _ 0)和我们的替代假设(我们称之为AH _ A)。H0H _ 0是我们测试我们感兴趣的假设的基线:也就是说,如果没有影响,我们会期望数据看起来像什么?零假设总是涉及到某种等式(=,\乐 ,或者\葛 )。HAH _ A描述了如果确实存在一种效果,我们所期望的。备择假设总是涉及到某种不等式(\ ne、>或<)。重要的是,零假设检验是在假设零假设为真的情况下进行的,除非证据显示并非如此。 我们还必须决定是否要测试一个*方向性*或*非方向性*假设。一个无方向性的假设,只是简单的预测会有差异,而没有预测会往哪个方向走。对于身体质量指数/活动的例子,无方向性的零假设是: @@ -94,7 +94,7 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 ### 第三步:收集一些数据 -在这种情况下,我们将从NHANES数据集中抽取250个样本。图 [9.1](#fig:bmiSample) 显示了这样一个样本的例子,身体质量指数分别显示了活跃和不活跃的个人,表 [9.1](#tab:summaryTable) 显示了每个组的汇总统计数据。 +在这种情况下,我们将从 NHANES 数据集中抽取 250 个样本。图 [9.1](#fig:bmiSample) 显示了这样一个样本的例子,身体质量指数分别显示了活跃和不活跃的个人,表 [9.1](#tab:summaryTable) 显示了每个组的汇总统计数据。 Table 9.1: Summary of BMI data for active versus inactive individuals | 物理活性的 | 普通 | 意思是 | 存储卡 | @@ -104,13 +104,13 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 ![Box plot of BMI data from a sample of adults from the NHANES dataset, split by whether they reported engaging in regular physical activity.](img/file47.png) -图9.1:来自NHANES数据集的成年人样本的身体质量指数数据的箱线图,根据他们是否报告参加定期身体活动来划分。 +图 9.1:来自 NHANES 数据集的成年人样本的身体质量指数数据的箱线图,根据他们是否报告参加定期身体活动来划分。 -### 9.3.4 步骤4:根据数据拟合模型,并计算测试统计量 +### 9.3.4 步骤 4:根据数据拟合模型,并计算测试统计量 接下来,我们想用这些数据来计算一个统计量,最终让我们决定是否拒绝零假设。要做到这一点,模型需要量化相对于数据可变性的支持替代假设的证据数量。因此,我们可以认为检验统计量提供了与数据可变性相比的效果大小的度量。一般来说,这个检验统计量会有一个与之相关的概率分布,因为这允许我们确定我们的统计量的观察值在零假设下的可能性有多大。 @@ -120,13 +120,13 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 其中x1\ bar { x } _ 1x2\ bar { x } _ 2是两者的意思 因为两个自变量之差的方差是每个单个变量的方差之和(vAr(AB=v +vAr(B)var(A-B)= var(A)+var(B)【T141),我们添加的方差为 因此,人们可以将 *t* 统计视为一种量化组间差异相对于均值间差异的抽样可变性有多大的方法。 -根据被称为 *t* 分布的概率分布来分布 *t* 统计量。 *t* 分布看起来非常类似于正态分布,但是它根据自由度的数量而不同。当自由度较大时(比如1000),那么 *t* 分布看起来基本上像正态分布,但是当自由度较小时 *t* 分布比正态分布具有更长的尾部(见图 [9.2](#fig:tVersusNormal) )。在最简单的情况下,各组大小相同且方差相等,因为我们计算了两个平均值,因此放弃了两个自由度,所以 *t* 测试的自由度为观察值减2。在这种情况下,从箱线图可以很清楚地看出,不活动组比活动组更易变,每组中的数字也不同,因此我们需要使用稍微复杂一点的自由度公式,这通常被称为“韦尔奇t检验”。公式是: +根据被称为 *t* 分布的概率分布来分布 *t* 统计量。 *t* 分布看起来非常类似于正态分布,但是它根据自由度的数量而不同。当自由度较大时(比如 1000),那么 *t* 分布看起来基本上像正态分布,但是当自由度较小时 *t* 分布比正态分布具有更长的尾部(见图 [9.2](#fig:tVersusNormal) )。在最简单的情况下,各组大小相同且方差相等,因为我们计算了两个平均值,因此放弃了两个自由度,所以 *t* 测试的自由度为观察值减 2。在这种情况下,从箱线图可以很清楚地看出,不活动组比活动组更易变,每组中的数字也不同,因此我们需要使用稍微复杂一点的自由度公式,这通常被称为“韦尔奇 t 检验”。公式是: -d f =(S12T30】n1+S22 2(S12/n1) 2n1—T97】1+(S22n21【mathrm { d . f . } = \frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{\left(s_1^2/n_1\right)^2}{n_1-1}+\frac{\left(s_2^2/n_2\right)^2}{n_2-1}} 这将等于n1+n2-2n _ 1 对于本例,得出的值为241.12,略低于从样本量中减去2得到的值248。 +d f =(S12T30】n1+S22 2(S12/n1) 2n1—T97】1+(S22n21【mathrm { d . f . } = \frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{\left(s_1^2/n_1\right)^2}{n_1-1}+\frac{\left(s_2^2/n_2\right)^2}{n_2-1}} 这将等于n1+n2-2n _ 1 对于本例,得出的值为 241.12,略低于从样本量中减去 2 得到的值 248。 ![Each panel shows the t distribution (in blue dashed line) overlaid on the normal distribution (in solid red line). The left panel shows a t distribution with 4 degrees of freedom, in which case the distribution is similar but has slightly wider tails. The right panel shows a t distribution with 1000 degrees of freedom, in which case it is virtually identical to the normal.](img/file48.png) -图9.2:每个面板显示了叠加在正态分布(红色实线)上的t分布(蓝色虚线)。左图显示了具有4个自由度的t分布,在这种情况下,分布是相似的,但尾部略宽。右图显示了具有1000个自由度的t分布,在这种情况下,它实际上与正态分布相同。 +图 9.2:每个面板显示了叠加在正态分布(红色实线)上的 t 分布(蓝色虚线)。左图显示了具有 4 个自由度的 t 分布,在这种情况下,分布是相似的,但尾部略宽。右图显示了具有 1000 个自由度的 t 分布,在这种情况下,它实际上与正态分布相同。 @@ -134,15 +134,15 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 ### 9.3.5 第五步:确定零假设下观察结果的概率 -这是NHST开始违背我们直觉的一步。我们不是确定给定数据的零假设为真的可能性,而是确定在零假设下观察到的统计数据至少与我们观察到的统计数据一样极端的可能性,因为我们一开始就假设零假设为真!要做到这一点,我们需要知道在零假设下统计的期望概率分布,这样我们就可以问在该分布下结果的可能性有多大。注意,当我说“结果会有多可能”时,我真正的意思是“观察到的结果或一个更极端的结果会有多可能”。(至少)有两个原因让我们需要添加这个警告。首先,当我们谈论连续值时,任何特定值的概率都是零(如果你上过微积分课,你可能还记得)。更重要的是,我们试图确定如果零假设是真的,我们的结果会有多奇怪,任何更极端的结果都会更奇怪,所以当我们计算零假设下的结果的概率时,我们希望计算所有这些更奇怪的可能性。 +这是 NHST 开始违背我们直觉的一步。我们不是确定给定数据的零假设为真的可能性,而是确定在零假设下观察到的统计数据至少与我们观察到的统计数据一样极端的可能性,因为我们一开始就假设零假设为真!要做到这一点,我们需要知道在零假设下统计的期望概率分布,这样我们就可以问在该分布下结果的可能性有多大。注意,当我说“结果会有多可能”时,我真正的意思是“观察到的结果或一个更极端的结果会有多可能”。(至少)有两个原因让我们需要添加这个警告。首先,当我们谈论连续值时,任何特定值的概率都是零(如果你上过微积分课,你可能还记得)。更重要的是,我们试图确定如果零假设是真的,我们的结果会有多奇怪,任何更极端的结果都会更奇怪,所以当我们计算零假设下的结果的概率时,我们希望计算所有这些更奇怪的可能性。 我们可以使用理论分布(如 *t* 分布)或使用随机化来获得这个“零分布”。在我们转到身体质量指数的例子之前,让我们从一些更简单的例子开始。 -#### 9.3.5.1 P值:一个非常简单的例子 +#### 9.3.5.1 P 值:一个非常简单的例子 -让我们说,我们希望确定一个特定的硬币是否偏向着陆头。为了收集数据,我们将硬币抛100次,假设我们数了70个头。在这个例子中, H0:P(Heads)0.5H \le 0.5HA:P(HAds) 我们接下来想问的问题是:如果正面的真实概率是0.5,我们在100次抛硬币中观察到70个或更多正面的可能性有多大?我们可以想象这种情况偶尔会发生,但似乎不太可能。为了量化这个概率,我们可以使用*二项分布*: +让我们说,我们希望确定一个特定的硬币是否偏向着陆头。为了收集数据,我们将硬币抛 100 次,假设我们数了 70 个头。在这个例子中, H0:P(Heads)0.5H \le 0.5HA:P(HAds) 我们接下来想问的问题是:如果正面的真实概率是 0.5,我们在 100 次抛硬币中观察到 70 个或更多正面的可能性有多大?我们可以想象这种情况偶尔会发生,但似乎不太可能。为了量化这个概率,我们可以使用*二项分布*: P(Xk)=I=0k( pI(1—t59】p)(n—t71】I 这个等式将告诉我们一定数量的人头(kk)或更少的概率,给定特定概率的人头(【T97)和事件数( N ) 然而,我们真正想知道的是某个数字或更多数字的概率,我们可以根据概率规则通过从一个数字中减去一个数字来获得: @@ -150,23 +150,23 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 ![Distribution of numbers of heads (out of 100 flips) across 100,000 simulated runs with the observed value of 70 flips represented by the vertical line.](img/file49.png) -图9.3:100,000次模拟运行中的头数分布(100次翻转中),观察到的70次翻转值用垂直线表示。 +图 9.3:100,000 次模拟运行中的头数分布(100 次翻转中),观察到的 70 次翻转值用垂直线表示。 -使用二项式分布,给定P(头数)=0.5,69头或更少头的概率是0.999961,因此70头或更多头的概率就是1减去该值(0.000039)。这个计算告诉我们,如果硬币确实是公平的,得到70或更多人头的可能性非常小。 +使用二项式分布,给定 P(头数)=0.5,69 头或更少头的概率是 0.999961,因此 70 头或更多头的概率就是 1 减去该值(0.000039)。这个计算告诉我们,如果硬币确实是公平的,得到 70 或更多人头的可能性非常小。 -现在,如果我们没有一个标准的函数来告诉我们人头数的概率呢?我们可以通过模拟来确定它——我们使用0.5的真实概率重复投掷硬币100次,然后计算这些模拟运行中人头数量的分布。图 [9.3](#fig:coinFlips) 显示了模拟的结果。这里我们可以看到,通过模拟计算的概率(0.000030)非常接近理论概率(0.000039)。 +现在,如果我们没有一个标准的函数来告诉我们人头数的概率呢?我们可以通过模拟来确定它——我们使用 0.5 的真实概率重复投掷硬币 100 次,然后计算这些模拟运行中人头数量的分布。图 [9.3](#fig:coinFlips) 显示了模拟的结果。这里我们可以看到,通过模拟计算的概率(0.000030)非常接近理论概率(0.000039)。 -#### 9.3.5.2使用 *t* 分布计算p值 +#### 9.3.5.2 使用 *t* 分布计算 p 值 -现在,让我们使用 *t* 分布来计算身体质量指数示例的p值。首先,我们使用上面计算的样本值来计算 *t* 统计量,我们发现t = 3.86。我们接下来想问的问题是:如果组间的真实差异为零或更小(即方向性零假设),我们找到这种规模的 *t* 统计量的可能性有多大? +现在,让我们使用 *t* 分布来计算身体质量指数示例的 p 值。首先,我们使用上面计算的样本值来计算 *t* 统计量,我们发现 t = 3.86。我们接下来想问的问题是:如果组间的真实差异为零或更小(即方向性零假设),我们找到这种规模的 *t* 统计量的可能性有多大? -我们可以用 *t* 分布来确定这个概率。上面我们注意到合适的自由度(校正方差和样本大小的差异后)是t = 241.12。我们可以使用统计软件中的函数来确定找到大于或等于我们观察值的 *t* 统计值的概率。我们发现p(t > 3.86,df = 241.12) = 0.000072,这告诉我们,如果零假设真的为真,我们观察到的 *t* 统计值3.86是相对不可能的。 +我们可以用 *t* 分布来确定这个概率。上面我们注意到合适的自由度(校正方差和样本大小的差异后)是 t = 241.12。我们可以使用统计软件中的函数来确定找到大于或等于我们观察值的 *t* 统计值的概率。我们发现 p(t > 3.86,df = 241.12) = 0.000072,这告诉我们,如果零假设真的为真,我们观察到的 *t* 统计值 3.86 是相对不可能的。 -在这种情况下,我们使用了方向假设,所以我们只需要查看零分布的一端。如果我们想测试一个无方向性的假设,那么我们就需要能够识别出这种效应的大小有多出乎意料,而不管它的方向如何。在t检验的上下文中,这意味着我们需要知道统计数据在正向或负向出现极端的可能性有多大。为此,我们将观察到的 *t* 值乘以-1,因为 *t* 分布以零为中心,然后将两个尾部概率加在一起,得到一个*双尾* p值:p(t > 3.86或t < -3.86,df = 241.12) = 0.000145。这里我们看到,双尾检验的p值是单尾检验的两倍,这反映了一个事实,即一个极值不那么令人惊讶,因为它可能发生在任一方向上。 +在这种情况下,我们使用了方向假设,所以我们只需要查看零分布的一端。如果我们想测试一个无方向性的假设,那么我们就需要能够识别出这种效应的大小有多出乎意料,而不管它的方向如何。在 t 检验的上下文中,这意味着我们需要知道统计数据在正向或负向出现极端的可能性有多大。为此,我们将观察到的 *t* 值乘以-1,因为 *t* 分布以零为中心,然后将两个尾部概率加在一起,得到一个*双尾* p 值:p(t > 3.86 或 t < -3.86,df = 241.12) = 0.000145。这里我们看到,双尾检验的 p 值是单尾检验的两倍,这反映了一个事实,即一个极值不那么令人惊讶,因为它可能发生在任一方向上。 如何选择是使用单尾检验还是双尾检验?双尾检验总是更加保守,所以使用双尾检验总是一个好的选择,除非你有非常充分的理由使用单尾检验。在这种情况下,你应该在查看数据之前写下假设。在第 [18](#doing-reproducible-research) 章中,我们将讨论假设预登记的想法,这是在你看到实际数据之前写下假设的正式想法。你应该*永远不要*在看过数据后就决定如何进行假设检验,因为这会给结果带来严重的偏差。 @@ -174,17 +174,17 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 -#### 9.3.5.3使用随机化计算p值 +#### 9.3.5.3 使用随机化计算 p 值 -到目前为止,我们已经看到了如何使用t分布来计算零假设下的数据概率,但我们也可以使用模拟来完成此操作。基本思想是,我们生成模拟数据,就像我们在零假设下预期的那样,然后询问观察到的数据与那些模拟数据相比有多极端。关键问题是:我们如何生成零假设为真的数据?一般的答案是,我们可以以一种特定的方式随机地重新排列数据,使数据看起来就像null真的为真时一样。这类似于bootstrapping的想法,在某种意义上,它使用我们自己的数据来得出答案,但它以不同的方式做到这一点。 +到目前为止,我们已经看到了如何使用 t 分布来计算零假设下的数据概率,但我们也可以使用模拟来完成此操作。基本思想是,我们生成模拟数据,就像我们在零假设下预期的那样,然后询问观察到的数据与那些模拟数据相比有多极端。关键问题是:我们如何生成零假设为真的数据?一般的答案是,我们可以以一种特定的方式随机地重新排列数据,使数据看起来就像 null 真的为真时一样。这类似于 bootstrapping 的想法,在某种意义上,它使用我们自己的数据来得出答案,但它以不同的方式做到这一点。 -#### 9.3.5.4随机化:一个简单的例子 +#### 9.3.5.4 随机化:一个简单的例子 -让我们从一个简单的例子开始。假设我们想比较足球运动员和越野跑运动员的平均下蹲能力, 同H0:μFBμXCH _ 0:\ mu HA:μFB>μX 我们测量5名足球运动员和5名越野跑运动员的最大下蹲能力(我们会随机产生,假设μFB=300\ mu _ { FB } = 300 μXC=140\ mu _ { XC } = 140,以及σ【T126 数据见表 [9.2](#tab:squatPlot) 。 +让我们从一个简单的例子开始。假设我们想比较足球运动员和越野跑运动员的平均下蹲能力, 同H0:μFBμXCH _ 0:\ mu HA:μFB>μX 我们测量 5 名足球运动员和 5 名越野跑运动员的最大下蹲能力(我们会随机产生,假设μFB=300\ mu _ { FB } = 300 μXC=140\ mu _ { XC } = 140,以及σ【T126 数据见表 [9.2](#tab:squatPlot) 。 Table 9.2: Squatting data for the two groups | 组 | 蹲着的 | shuffledSquat | @@ -202,9 +202,9 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 ![Left: Box plots of simulated squatting ability for football players and cross-country runners.Right: Box plots for subjects assigned to each group after scrambling group labels.](img/file50.png) -图9.4:左图:足球运动员和越野跑运动员模拟蹲姿能力的方框图。右图:打乱组标签后分配到每个组的受试者的方框图。 +图 9.4:左图:足球运动员和越野跑运动员模拟蹲姿能力的方框图。右图:打乱组标签后分配到每个组的受试者的方框图。 -从图 [9.4](#fig:squatPlot) 左侧的图中可以明显看出两组之间有很大的差异。我们可以做一个标准的t检验来检验我们的假设;对于这个例子,我们将在R中使用`t.test()`命令,它给出如下结果: +从图 [9.4](#fig:squatPlot) 左侧的图中可以明显看出两组之间有很大的差异。我们可以做一个标准的 t 检验来检验我们的假设;对于这个例子,我们将在 R 中使用`t.test()`命令,它给出如下结果: ``` ## @@ -220,27 +220,27 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 ## 291 129 ``` -如果我们查看这里报告的p值,我们会发现在零假设下这种差异的可能性非常小,使用 *t* 分布来定义零。 +如果我们查看这里报告的 p 值,我们会发现在零假设下这种差异的可能性非常小,使用 *t* 分布来定义零。 现在让我们看看如何用随机化回答同样的问题。基本思想是,如果组间无差异的零假设为真,那么哪一组来自哪一组(足球运动员对越野跑运动员)并不重要——因此,为了创建与我们的实际数据相似但又符合零假设的数据,我们可以随机对数据集中的个体数据进行重新排序,然后重新计算组间的差异。这种混洗的结果显示在表 [9.2](#tab:squatPlot) 中标有“shuffleSquat”的列中,所得数据的箱线图显示在图 [9.4](#fig:squatPlot) 的右侧面板中。 ![Histogram of t-values for the difference in means between the football and cross-country groups after randomly shuffling group membership. The vertical line denotes the actual difference observed between the two groups, and the dotted line shows the theoretical t distribution for this analysis.](img/file51.png) -图9.5:随机调整组成员后,足球组和越野组之间均值差异的t值直方图。垂直线表示在两组之间观察到的实际差异,虚线表示该分析的理论t分布。 +图 9.5:随机调整组成员后,足球组和越野组之间均值差异的 t 值直方图。垂直线表示在两组之间观察到的实际差异,虚线表示该分析的理论 t 分布。 -在对数据进行排序后,我们看到两组现在更加相似,事实上越野组现在的平均值略高。现在让我们这样做10000次,并存储每次迭代的 *t* 统计数据;如果您在自己的计算机上执行此操作,将需要一段时间才能完成。图 [9.5](#fig:shuffleHist) 显示了所有随机洗牌的 *t* 值的直方图。正如在零假设下所预期的,这个分布以零为中心(分布的平均值是0.007)。从图中我们还可以看到,洗牌后的 *t* 值的分布大致遵循零假设(均值=0)下的理论 *t* 分布,表明随机化产生了零数据。我们可以通过测量有多少混洗值至少与观察值一样极端来从随机化数据计算p值:p(t > 8.01,df = 8)使用随机化= 0.00410。这个p值与我们使用 *t* 分布获得的p值非常相似,两者都非常极端,表明如果零假设为真,观察到的数据不太可能出现——在这种情况下,我们*知道*这不是真的,因为我们生成了数据。 +在对数据进行排序后,我们看到两组现在更加相似,事实上越野组现在的平均值略高。现在让我们这样做 10000 次,并存储每次迭代的 *t* 统计数据;如果您在自己的计算机上执行此操作,将需要一段时间才能完成。图 [9.5](#fig:shuffleHist) 显示了所有随机洗牌的 *t* 值的直方图。正如在零假设下所预期的,这个分布以零为中心(分布的平均值是 0.007)。从图中我们还可以看到,洗牌后的 *t* 值的分布大致遵循零假设(均值=0)下的理论 *t* 分布,表明随机化产生了零数据。我们可以通过测量有多少混洗值至少与观察值一样极端来从随机化数据计算 p 值:p(t > 8.01,df = 8)使用随机化= 0.00410。这个 p 值与我们使用 *t* 分布获得的 p 值非常相似,两者都非常极端,表明如果零假设为真,观察到的数据不太可能出现——在这种情况下,我们*知道*这不是真的,因为我们生成了数据。 ##### 9.3.5.4.1 随机化:身体质量指数/活动实例 -现在,让我们使用随机化来计算身体质量指数/活动示例的p值。在这种情况下,我们将随机打乱`PhysActive`变量,并在每次打乱后计算各组之间的差异,然后将我们观察到的 *t* 统计数据与打乱数据集的 *t* 统计数据的分布进行比较。图 [9.6](#fig:simDiff) 显示了混洗样本中 *t* 值的分布,我们还可以计算出找到与观察值一样大或比观察值更大的值的概率。从随机化获得的p值(0.000000)非常类似于使用 *t* 分布获得的值(0.000075)。随机化检验的优点是,它不要求我们假设每个组的数据都是正态分布的,尽管t检验通常对违反该假设的情况非常稳健。此外,当我们没有像t检验那样的理论分布时,随机化检验可以允许我们计算统计的p值。 +现在,让我们使用随机化来计算身体质量指数/活动示例的 p 值。在这种情况下,我们将随机打乱`PhysActive`变量,并在每次打乱后计算各组之间的差异,然后将我们观察到的 *t* 统计数据与打乱数据集的 *t* 统计数据的分布进行比较。图 [9.6](#fig:simDiff) 显示了混洗样本中 *t* 值的分布,我们还可以计算出找到与观察值一样大或比观察值更大的值的概率。从随机化获得的 p 值(0.000000)非常类似于使用 *t* 分布获得的值(0.000075)。随机化检验的优点是,它不要求我们假设每个组的数据都是正态分布的,尽管 t 检验通常对违反该假设的情况非常稳健。此外,当我们没有像 t 检验那样的理论分布时,随机化检验可以允许我们计算统计的 p 值。 ![Histogram of t statistics after shuffling of group labels, with the observed value of the t statistic shown in the vertical line, and values at least as extreme as the observed value shown in lighter gray](img/file52.png) -图9.6:组标签重排后的t统计直方图,观察到的t统计值显示在垂直线中,值至少与观察到的值一样极端,以浅灰色显示 +图 9.6:组标签重排后的 t 统计直方图,观察到的 t 统计值显示在垂直线中,值至少与观察到的值一样极端,以浅灰色显示 -当我们使用随机化测试时,我们必须做一个主要假设,我们称之为*可交换性*。这意味着所有的观察值都以相同的方式分布,这样我们可以在不改变总体分布的情况下交换它们。当数据中有相关的观察值时,这种情况会出现。例如,如果我们有来自4个不同家庭的个体的数据,那么我们不能假设个体是可交换的,因为兄弟姐妹之间的关系会比他们与来自其他家庭的个体之间的关系更近。一般来说,如果数据是通过随机抽样获得的,那么可交换性假设应该成立。 +当我们使用随机化测试时,我们必须做一个主要假设,我们称之为*可交换性*。这意味着所有的观察值都以相同的方式分布,这样我们可以在不改变总体分布的情况下交换它们。当数据中有相关的观察值时,这种情况会出现。例如,如果我们有来自 4 个不同家庭的个体的数据,那么我们不能假设个体是可交换的,因为兄弟姐妹之间的关系会比他们与来自其他家庭的个体之间的关系更近。一般来说,如果数据是通过随机抽样获得的,那么可交换性假设应该成立。 @@ -250,29 +250,29 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 -### 9.3.6 步骤6:评估结果的“统计显著性” +### 9.3.6 步骤 6:评估结果的“统计显著性” -下一步是确定上一步得出的p值是否足够小,以至于我们愿意拒绝零假设,并得出替代方案为真的结论。我们需要多少证据?这是统计学中最有争议的问题之一,部分原因是它需要主观判断——没有“正确”的答案。 +下一步是确定上一步得出的 p 值是否足够小,以至于我们愿意拒绝零假设,并得出替代方案为真的结论。我们需要多少证据?这是统计学中最有争议的问题之一,部分原因是它需要主观判断——没有“正确”的答案。 -从历史上看,这个问题最常见的答案是,如果p值小于0.05,我们应该拒绝零假设。这来自罗纳德·费雪的著作,他被称为“20世纪统计学中最重要的人物” ( [Efron 1998](19.html#ref-efron1998) ) : +从历史上看,这个问题最常见的答案是,如果 p 值小于 0.05,我们应该拒绝零假设。这来自罗纳德·费雪的著作,他被称为“20 世纪统计学中最重要的人物” ( [Efron 1998](19.html#ref-efron1998) ) : -> “如果P在0.1和0.9之间,当然没有理由怀疑被检验的假设。如果低于0.02,则强烈表明该假设未能解释全部事实。如果我们在0.05处画一条传统的线,我们就不会经常误入歧途……在我们可以说的水平上画这条线是方便的:要么在治疗中有什么东西,要么发生了巧合,比如在二十次试验中不超过一次" ( [R. A. Fisher 1925](19.html#ref-fisher1925statistical) ) +> “如果 P 在 0.1 和 0.9 之间,当然没有理由怀疑被检验的假设。如果低于 0.02,则强烈表明该假设未能解释全部事实。如果我们在 0.05 处画一条传统的线,我们就不会经常误入歧途……在我们可以说的水平上画这条线是方便的:要么在治疗中有什么东西,要么发生了巧合,比如在二十次试验中不超过一次" ( [R. A. Fisher 1925](19.html#ref-fisher1925statistical) ) 然而,费希尔从未打算将p<0.05p<0.05作为一个固定的规则: > “没有一个科学工作者有一个固定的重要性水平,年复一年,在所有情况下,他拒绝假设;他会根据自己的证据和想法来考虑每一个具体的案例 -相反,p < .05很可能成为一种惯例,这是因为在计算使计算统计数据的任意值的p值变得容易之前,依赖于使用的p值表。所有的表都有一个0.05的条目,这使得很容易确定一个人的统计值是否超过了达到该显著性水平所需的值。 +相反,p < .05 很可能成为一种惯例,这是因为在计算使计算统计数据的任意值的 p 值变得容易之前,依赖于使用的 p 值表。所有的表都有一个 0.05 的条目,这使得很容易确定一个人的统计值是否超过了达到该显著性水平所需的值。 -统计阈值的选择仍然存在很大争议,最近(Benjamin et al .,2018)有人建议将默认阈值从. 05更改为. 005,使其更加严格,从而更难拒绝零假设。这一举动在很大程度上是由于人们越来越担心,从一个显著结果中获得的证据在<p<处相对薄弱;我们将在第 [18](#doing-reproducible-research) 章讨论再现性时回到这一点。 +统计阈值的选择仍然存在很大争议,最近(Benjamin et al .,2018)有人建议将默认阈值从. 05 更改为. 005,使其更加严格,从而更难拒绝零假设。这一举动在很大程度上是由于人们越来越担心,从一个显著结果中获得的证据在<p<处相对薄弱;我们将在第 [18](#doing-reproducible-research) 章讨论再现性时回到这一点。 -#### 9.3.6.1假设检验作为决策:尼曼-皮尔逊方法 +#### 9.3.6.1 假设检验作为决策:尼曼-皮尔逊方法 -费希尔认为p值可以为特定的假设提供证据,但统计学家杰吉·内曼和埃贡·皮尔森强烈反对。相反,他们建议我们从长期误差率的角度来考虑假设检验: +费希尔认为 p 值可以为特定的假设提供证据,但统计学家杰吉·内曼和埃贡·皮尔森强烈反对。相反,他们建议我们从长期误差率的角度来考虑假设检验: -> “没有一个基于概率理论的测试本身能够提供任何有价值的证据来证明一个假设的真假。但是我们可以从另一个角度来看测试的目的。我们不希望知道每一个单独的假设是对还是错,我们可以寻找规则来管理我们对它们的行为,在遵循这些规则的过程中,我们可以确保,在长期的经验中,我们不会经常错" ( [J. Neyman和Pearson 1933](19.html#ref-Neyman289) ) +> “没有一个基于概率理论的测试本身能够提供任何有价值的证据来证明一个假设的真假。但是我们可以从另一个角度来看测试的目的。我们不希望知道每一个单独的假设是对还是错,我们可以寻找规则来管理我们对它们的行为,在遵循这些规则的过程中,我们可以确保,在长期的经验中,我们不会经常错" ( [J. Neyman 和 Pearson 1933](19.html#ref-Neyman289) ) 那就是:我们无法知道哪些具体的决定是对的还是错的,但是如果我们遵守规则,我们至少可以知道我们的决定从长远来看会有多少次是错的。 @@ -283,15 +283,15 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 我们还会犯两种错误: -* 我们可以拒绝H0H _ 0当它实际上是真的时候(我们称之为*虚警*,或*I型错误* +* 我们可以拒绝H0H _ 0当它实际上是真的时候(我们称之为*虚警*,或*I 型错误* * 我们可以保留H0H _ 0当它实际上是假的时候(我们称这个为*错过*,或者*类型二错误* 奈曼和皮尔森创造了两个术语来描述这两种错误的长期概率: -* p(类型I错误)=\ alpha +* p(类型 I 错误)=\ alpha * p(ⅱ型误差)=β -也就是说,如果我们将α设置为. 05,那么从长远来看,我们应该有5%的时间犯I型错误。尽管通常将α设置为0.05,但对于一个真实存在的效应,可接受水平的标准值是0.2——也就是说,我们愿意接受有20%的时间无法检测到它。当我们在第 [10.3节](#statistical-power)中讨论统计功效时,我们将回到这一点,这是第二类错误的补充。 +也就是说,如果我们将α设置为. 05,那么从长远来看,我们应该有 5%的时间犯 I 型错误。尽管通常将α设置为 0.05,但对于一个真实存在的效应,可接受水平的标准值是 0.2——也就是说,我们愿意接受有 20%的时间无法检测到它。当我们在第 [10.3 节](#statistical-power)中讨论统计功效时,我们将回到这一点,这是第二类错误的补充。 @@ -301,19 +301,19 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 ### 9.3.7 重大结果是什么意思? -关于p值的实际含义有很大的混乱(Gigerenzer,2004)。假设我们做了一个实验,比较不同条件下的平均值,我们发现一个p值为0.01的差异。人们可能会有几种可能的解释。 +关于 p 值的实际含义有很大的混乱(Gigerenzer,2004)。假设我们做了一个实验,比较不同条件下的平均值,我们发现一个 p 值为 0.01 的差异。人们可能会有几种可能的解释。 -#### 9.3.7.1是否意味着零假设为真的概率是0.01? +#### 9.3.7.1 是否意味着零假设为真的概率是 0.01? -不记得在零假设检验中,P值是给定零假设的数据的概率(P(data|H0P(数据它并不保证关于给定数据的零假设概率的结论(P(H0|dataP当我们在下一章讨论贝叶斯推断时,我们将回到这个问题,因为贝叶斯定理让我们以一种允许我们在给定数据的情况下确定假设的概率的方式来反演条件概率。 +不记得在零假设检验中,P 值是给定零假设的数据的概率(P(data|H0P(数据它并不保证关于给定数据的零假设概率的结论(P(H0|dataP 当我们在下一章讨论贝叶斯推断时,我们将回到这个问题,因为贝叶斯定理让我们以一种允许我们在给定数据的情况下确定假设的概率的方式来反演条件概率。 -#### 9.3.7.2:这是否意味着你做出错误决定的概率是0.01? +#### 9.3.7.2:这是否意味着你做出错误决定的概率是 0.01? 不.这将是P(H0|data)P(H _ 0 | data)但记住为 @@ -323,7 +323,7 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 #### 9.3.7.3:这是不是意味着如果你再次进行这项研究,99%的情况下你都会得到同样的结果? -不。p值是关于特定数据集在空值下的可能性的陈述;它不允许我们对未来事件(如复制)的可能性做出推断。 +不。p 值是关于特定数据集在空值下的可能性的陈述;它不允许我们对未来事件(如复制)的可能性做出推断。 @@ -331,13 +331,13 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 #### 9.3.7.4:这是否意味着你发现了一个实际上很重要的效应? -不会。*统计意义*和*实际意义*有本质区别。举个例子,假设我们进行了一项随机对照试验来检查特定饮食对体重的影响,我们发现在p<0.05时有显著的统计学影响。这并不能告诉我们实际减少了多少重量,我们称之为*效应大小*(将在第 [10章](#ci-effect-size-power)中详细讨论)。如果我们考虑一项关于减肥的研究,那么我们可能不认为减掉一盎司(即几片薯片的重量)有什么实际意义。让我们看看随着样本量的增加,我们检测1盎司显著差异的能力。 +不会。*统计意义*和*实际意义*有本质区别。举个例子,假设我们进行了一项随机对照试验来检查特定饮食对体重的影响,我们发现在 p<0.05 时有显著的统计学影响。这并不能告诉我们实际减少了多少重量,我们称之为*效应大小*(将在第 [10 章](#ci-effect-size-power)中详细讨论)。如果我们考虑一项关于减肥的研究,那么我们可能不认为减掉一盎司(即几片薯片的重量)有什么实际意义。让我们看看随着样本量的增加,我们检测 1 盎司显著差异的能力。 -图 [9.7](#fig:sigResults) 显示了显著结果的比例如何随着样本量的增加而增加,因此,对于非常大的样本量(总共约262,000名受试者),当两种饮食之间的体重减轻量相差1盎司时,我们将在超过90%的研究中发现显著结果。虽然这些在统计学上是显著的,但大多数医生不会认为体重减轻一盎司在实践上或临床上是显著的。当我们回到第 [10.3节](#statistical-power)中的*统计功效*的概念时,我们将更详细地探讨这种关系,但是从这个例子中应该已经清楚,统计显著性不一定表示实际显著性。 +图 [9.7](#fig:sigResults) 显示了显著结果的比例如何随着样本量的增加而增加,因此,对于非常大的样本量(总共约 262,000 名受试者),当两种饮食之间的体重减轻量相差 1 盎司时,我们将在超过 90%的研究中发现显著结果。虽然这些在统计学上是显著的,但大多数医生不会认为体重减轻一盎司在实践上或临床上是显著的。当我们回到第 [10.3 节](#statistical-power)中的*统计功效*的概念时,我们将更详细地探讨这种关系,但是从这个例子中应该已经清楚,统计显著性不一定表示实际显著性。 ![The proportion of signifcant results for a very small change (1 ounce, which is about .001 standard deviations) as a function of sample size.](img/file53.png) -图9.7:非常小的变化(1盎司,大约0.001标准偏差)的显著结果的比例与样本大小的函数关系。 +图 9.7:非常小的变化(1 盎司,大约 0.001 标准偏差)的显著结果的比例与样本大小的函数关系。 @@ -347,21 +347,21 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 -## 现代背景下的NHST:多重考验 +## 现代背景下的 NHST:多重考验 -到目前为止,我们已经讨论了我们感兴趣的测试单个统计假设的例子,这与通常一次只测量几个变量的传统科学是一致的。然而,在现代科学中,我们经常可以测量每个人的数百万个变量。例如,在量化整个基因组的遗传研究中,每个个体可能有数百万个测量值,而在我的小组所做的脑成像研究中,我们经常同时从大脑中超过100,000个位置收集数据。当在这些环境中应用标准假设检验时,除非我们采取适当的措施,否则会发生不好的事情。 +到目前为止,我们已经讨论了我们感兴趣的测试单个统计假设的例子,这与通常一次只测量几个变量的传统科学是一致的。然而,在现代科学中,我们经常可以测量每个人的数百万个变量。例如,在量化整个基因组的遗传研究中,每个个体可能有数百万个测量值,而在我的小组所做的脑成像研究中,我们经常同时从大脑中超过 100,000 个位置收集数据。当在这些环境中应用标准假设检验时,除非我们采取适当的措施,否则会发生不好的事情。 -让我们看一个例子来看看这是如何工作的。人们对了解可能使个体易患精神分裂症等重大精神疾病的遗传因素有很大兴趣,因为我们知道,患有精神分裂症的个体之间约80%的差异是由于遗传差异。人类基因组计划和随之而来的基因组科学革命提供了工具来检查人类在基因组上的许多不同之处。近年来使用的一种方法被称为*全基因组关联研究* (GWAS),其中每个人的基因组在一百万或更多的地方被表征,以确定他们在每个位置具有遗传密码的哪些字母,重点关注人类往往经常不同的位置。在确定这些之后,研究人员在基因组的每个位置进行了统计测试,以确定被诊断患有精神分裂症的人是否更有可能或更不可能在该位置具有特定版本的遗传序列。 +让我们看一个例子来看看这是如何工作的。人们对了解可能使个体易患精神分裂症等重大精神疾病的遗传因素有很大兴趣,因为我们知道,患有精神分裂症的个体之间约 80%的差异是由于遗传差异。人类基因组计划和随之而来的基因组科学革命提供了工具来检查人类在基因组上的许多不同之处。近年来使用的一种方法被称为*全基因组关联研究* (GWAS),其中每个人的基因组在一百万或更多的地方被表征,以确定他们在每个位置具有遗传密码的哪些字母,重点关注人类往往经常不同的位置。在确定这些之后,研究人员在基因组的每个位置进行了统计测试,以确定被诊断患有精神分裂症的人是否更有可能或更不可能在该位置具有特定版本的遗传序列。 -让我们想象一下,如果研究人员只是简单地问测试在来自零分布的p <.05 at="" each="" location="" when="" in="" fact="" there="" is="" no="" true="" effect="" any="" of="" the="" locations.="" to="" do="" this="" we="" generate="" a="" large="" number="" simulated="" xmlns:epub="http://www.idpf.org/2007/ops"> t 值处是否显著,并问其中有多少在p<0.05处显著,会发生什么。让我们这样做很多次,每次都计算出有多少测试结果是显著的(见图 [9.8](#fig:nullSim) )。 +让我们想象一下,如果研究人员只是简单地问测试在来自零分布的 p <.05 at="" each="" location="" when="" in="" fact="" there="" is="" no="" true="" effect="" any="" of="" the="" locations.="" to="" do="" this="" we="" generate="" a="" large="" number="" simulated="" xmlns:epub="http://www.idpf.org/2007/ops"> t 值处是否显著,并问其中有多少在 p<0.05 处显著,会发生什么。让我们这样做很多次,每次都计算出有多少测试结果是显著的(见图 [9.8](#fig:nullSim) )。 ![Left: A histogram of the number of significant results in each set of one million statistical tests, when there is in fact no true effect. Right: A histogram of the number of significant results across all simulation runs after applying the Bonferroni correction for multiple tests.](img/file54.png) -图9.8:左图:当实际上没有真实效果时,每组一百万个统计测试中显著结果数量的直方图。右图:对多个测试应用Bonferroni校正后,所有模拟运行的重要结果数量的直方图。 +图 9.8:左图:当实际上没有真实效果时,每组一百万个统计测试中显著结果数量的直方图。右图:对多个测试应用 Bonferroni 校正后,所有模拟运行的重要结果数量的直方图。 -这表明,在每次运行中,大约5%的测试是显著的,这意味着如果我们使用p< .05 as our threshold for statistical significance, then even if there were no truly significant relationships present, we would still “find” about 500 genes that were seemingly significant in each study (the expected number of significant results is simply n*αn * \α)。这是因为虽然我们控制了每个测试的错误,但是我们没有控制整个*系列*测试的错误率(称为*系列错误*),如果我们要查看大量测试的结果,这是我们真正想要控制的。使用p < .05,我们在上面例子中的家庭误差率是1——也就是说,我们几乎可以保证在任何特定的研究中至少犯一个错误。 +这表明,在每次运行中,大约 5%的测试是显著的,这意味着如果我们使用 p< .05 as our threshold for statistical significance, then even if there were no truly significant relationships present, we would still “find” about 500 genes that were seemingly significant in each study (the expected number of significant results is simply n*αn * \α)。这是因为虽然我们控制了每个测试的错误,但是我们没有控制整个*系列*测试的错误率(称为*系列错误*),如果我们要查看大量测试的结果,这是我们真正想要控制的。使用 p < .05,我们在上面例子中的家庭误差率是 1——也就是说,我们几乎可以保证在任何特定的研究中至少犯一个错误。 -控制家族误差的一个简单方法是将α水平除以测试次数;这就是所谓的 *Bonferroni* 修正,以意大利统计学家Carlo Bonferroni命名。使用上面例子中的数据,我们在图 [9.8](#fig:nullSim) 中看到,只有大约5%的研究使用0.000005的校正α水平而不是0.05的名义水平显示出任何显著的结果。我们已经有效地控制了家族误差,因此在我们的研究中出现任何*误差的概率被控制在0 . 05左右。* +控制家族误差的一个简单方法是将α水平除以测试次数;这就是所谓的 *Bonferroni* 修正,以意大利统计学家 Carlo Bonferroni 命名。使用上面例子中的数据,我们在图 [9.8](#fig:nullSim) 中看到,只有大约 5%的研究使用 0.000005 的校正α水平而不是 0.05 的名义水平显示出任何显著的结果。我们已经有效地控制了家族误差,因此在我们的研究中出现任何*误差的概率被控制在 0 . 05 左右。* @@ -370,9 +370,9 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 ## 9.5 学习目标 * 确定假设检验的组成部分,包括感兴趣的参数、无效假设和替代假设,以及检验统计量。 -* 描述p值的正确解释以及常见的误解 +* 描述 p 值的正确解释以及常见的误解 * 区分假设检验中的两种错误,以及决定它们的因素。 -* 描述如何使用重采样来计算p值。 +* 描述如何使用重采样来计算 p 值。 * 描述多重测试的问题,以及如何解决 * 描述对零假设统计测试的主要批评 @@ -382,7 +382,7 @@ NHST也被广泛误解,主要是因为它违背了我们关于统计假设检 ## 9.6 建议读数 -* [Gerd Gigerenzer的无脑统计](https://library.mpib-berlin.mpg.de/ft/gg/GG_Mindless_2004.pdf) +* [Gerd Gigerenzer 的无脑统计](https://library.mpib-berlin.mpg.de/ft/gg/GG_Mindless_2004.pdf) diff --git a/docs/10.md b/docs/10.md index fb0bec1..6c33067 100644 --- a/docs/10.md +++ b/docs/10.md @@ -10,15 +10,15 @@ ## 10.1 置信区间 -到目前为止,在本书中,我们一直专注于估计单值统计。例如,假设我们想要估计NHANES数据集中成年人的平均体重,那么我们从数据集中抽取一个样本并估计平均值。在这个样本中,平均重量是79.92千克。我们称之为*点估计*,因为它为我们提供了一个数字来描述我们对总体参数的估计。然而,从我们先前对抽样误差的讨论中我们知道,这个估计值有一些不确定性,用标准误差来描述。您还应该记住,标准误差由两个部分决定:总体标准偏差(分子)和样本大小的平方根(分母)。总体标准差是一个通常未知但固定的参数,不在我们的控制之下,而样本量*是*在我们的控制之下。因此,我们可以通过增加样本量来降低估计值的不确定性——直到达到整个人口规模的极限,此时根本不存在不确定性,因为我们可以直接从整个人口的数据中计算人口参数。 +到目前为止,在本书中,我们一直专注于估计单值统计。例如,假设我们想要估计 NHANES 数据集中成年人的平均体重,那么我们从数据集中抽取一个样本并估计平均值。在这个样本中,平均重量是 79.92 千克。我们称之为*点估计*,因为它为我们提供了一个数字来描述我们对总体参数的估计。然而,从我们先前对抽样误差的讨论中我们知道,这个估计值有一些不确定性,用标准误差来描述。您还应该记住,标准误差由两个部分决定:总体标准偏差(分子)和样本大小的平方根(分母)。总体标准差是一个通常未知但固定的参数,不在我们的控制之下,而样本量*是*在我们的控制之下。因此,我们可以通过增加样本量来降低估计值的不确定性——直到达到整个人口规模的极限,此时根本不存在不确定性,因为我们可以直接从整个人口的数据中计算人口参数。 -我们经常希望有一种方法可以更直接地描述统计估计的不确定性,这可以通过使用*置信区间*来实现。大多数人通过政治民意测验的“误差幅度”概念来熟悉置信区间。这些民意调查通常试图提供一个精确度在+/-3%以内的答案。例如,当候选人被估计以9个百分点的优势赢得选举,误差幅度为3时,他们将赢得的百分比被估计在6-12个百分点之内。在统计学中,我们将这种数值范围称为置信区间,它为我们的参数估计提供了一个与样本数据一致的数值范围,而不仅仅是基于数据给出一个估计值。置信区间越宽,我们对参数估计的不确定性就越大。 +我们经常希望有一种方法可以更直接地描述统计估计的不确定性,这可以通过使用*置信区间*来实现。大多数人通过政治民意测验的“误差幅度”概念来熟悉置信区间。这些民意调查通常试图提供一个精确度在+/-3%以内的答案。例如,当候选人被估计以 9 个百分点的优势赢得选举,误差幅度为 3 时,他们将赢得的百分比被估计在 6-12 个百分点之内。在统计学中,我们将这种数值范围称为置信区间,它为我们的参数估计提供了一个与样本数据一致的数值范围,而不仅仅是基于数据给出一个估计值。置信区间越宽,我们对参数估计的不确定性就越大。 -众所周知,置信区间令人困惑,主要是因为它们并不意味着我们直觉上认为它们意味着什么。如果我告诉你,我已经为我的统计量计算了一个“95%的置信区间”,那么很自然地认为我们可以有95%的信心认为真实的参数值落在这个区间内。然而,正如我们将在整个课程中看到的,统计学中的概念通常并不意味着我们认为它们应该意味着什么。在置信区间的情况下,我们不能以这种方式解释它们,因为总体参数有一个固定的值——它要么在区间内,要么不在区间内,所以谈论发生的概率是没有意义的。置信区间的发明者杰吉·内曼说: +众所周知,置信区间令人困惑,主要是因为它们并不意味着我们直觉上认为它们意味着什么。如果我告诉你,我已经为我的统计量计算了一个“95%的置信区间”,那么很自然地认为我们可以有 95%的信心认为真实的参数值落在这个区间内。然而,正如我们将在整个课程中看到的,统计学中的概念通常并不意味着我们认为它们应该意味着什么。在置信区间的情况下,我们不能以这种方式解释它们,因为总体参数有一个固定的值——它要么在区间内,要么不在区间内,所以谈论发生的概率是没有意义的。置信区间的发明者杰吉·内曼说: -> "这个参数是一个未知的常数,不可能对它的值作出概率陈述." ( [J .内曼1937](19.html#ref-Neyman37) ) +> "这个参数是一个未知的常数,不可能对它的值作出概率陈述." ( [J .内曼 1937](19.html#ref-Neyman37) ) -相反,我们必须从我们看待假设检验的同一立场来看待置信区间过程:从长远来看,这一过程将允许我们以特定的概率做出正确的陈述。因此,对95%置信区间的正确解释是,它是一个包含95%时间的真实总体均值的区间,事实上,我们可以使用模拟来证实这一点,如下文所示。 +相反,我们必须从我们看待假设检验的同一立场来看待置信区间过程:从长远来看,这一过程将允许我们以特定的概率做出正确的陈述。因此,对 95%置信区间的正确解释是,它是一个包含 95%时间的真实总体均值的区间,事实上,我们可以使用模拟来证实这一点,如下文所示。 平均值的置信区间计算如下: @@ -30,9 +30,9 @@ ### 10.1.1 使用正态分布的置信区间 -如果我们知道总体标准偏差,那么我们可以使用正态分布来计算置信区间。我们通常不这样做,但是在NHANES数据集的例子中,我们这样做了,因为我们将整个数据集视为总体(权重为21.3)。 +如果我们知道总体标准偏差,那么我们可以使用正态分布来计算置信区间。我们通常不这样做,但是在 NHANES 数据集的例子中,我们这样做了,因为我们将整个数据集视为总体(权重为 21.3)。 -假设我们想要计算平均值的95%置信区间。临界值将是标准正态分布的值,该值占分布的95%;这些只是分布的第2.5百分位和第97.5百分位,我们可以使用我们的统计软件进行计算,得出1.96\ pm 1.96。因此,均值(x\ bar { x })的置信区间为: +假设我们想要计算平均值的 95%置信区间。临界值将是标准正态分布的值,该值占分布的 95%;这些只是分布的第 2.5 百分位和第 97.5 百分位,我们可以使用我们的统计软件进行计算,得出1.96\ pm 1.96。因此,均值(x\ bar { x })的置信区间为: 【c】【I】= @@ -42,23 +42,23 @@ -### 10.1.2 使用t分布的置信区间 +### 10.1.2 使用 t 分布的置信区间 -如上所述,如果我们知道总体标准偏差,那么我们可以使用正态分布来计算我们的置信区间。然而,一般来说我们不会——在这种情况下, *t* 分布更适合作为抽样分布。请记住,t分布比正态分布略宽,尤其是对于较小的样本,这意味着置信区间将比使用正态分布时略宽。这包含了当我们基于小样本估计参数时产生的额外不确定性。 +如上所述,如果我们知道总体标准偏差,那么我们可以使用正态分布来计算我们的置信区间。然而,一般来说我们不会——在这种情况下, *t* 分布更适合作为抽样分布。请记住,t 分布比正态分布略宽,尤其是对于较小的样本,这意味着置信区间将比使用正态分布时略宽。这包含了当我们基于小样本估计参数时产生的额外不确定性。 -我们可以以类似于上述正态分布示例的方式计算95%的置信区间,但临界值由具有适当自由度的 *t* 分布的2.5%和97.5%决定。因此,均值(x\ bar { x })的置信区间为: +我们可以以类似于上述正态分布示例的方式计算 95%的置信区间,但临界值由具有适当自由度的 *t* 分布的 2.5%和 97.5%决定。因此,均值(x\ bar { x })的置信区间为: 【c】【I】= -其中tcrItt _ { crit }为临界t值。对于NHANES砝码示例(样本量为250),置信区间为79.92 +/- 1.97 * 1.41 [77.15 - 82.69]。 +其中tcrItt _ { crit }为临界 t 值。对于 NHANES 砝码示例(样本量为 250),置信区间为 79.92 +/- 1.97 * 1.41 [77.15 - 82.69]。 -请记住,这并不能告诉我们任何关于真实总体值落在该区间内的概率,因为它是一个固定参数(我们知道它是81.77,因为在这种情况下我们有整个总体),并且它要么落在这个特定区间内,要么不落在这个特定区间内(在这种情况下,它落在这个特定区间内)。相反,它告诉我们,从长远来看,如果我们使用这个过程计算置信区间,95%的时间置信区间将捕获真实的总体参数。 +请记住,这并不能告诉我们任何关于真实总体值落在该区间内的概率,因为它是一个固定参数(我们知道它是 81.77,因为在这种情况下我们有整个总体),并且它要么落在这个特定区间内,要么不落在这个特定区间内(在这种情况下,它落在这个特定区间内)。相反,它告诉我们,从长远来看,如果我们使用这个过程计算置信区间,95%的时间置信区间将捕获真实的总体参数。 -我们用NHANES的数据作为我们的人口可以看到这一点;在这种情况下,我们知道总体参数的真实值,因此我们可以看到置信区间在许多不同样本中捕获该值的频率。图 [10.1](#fig:CIcoverage) 显示了NHANES数据集中100个样本的估计平均重量的置信区间。其中,95个获得了真实的人口平均体重,表明置信区间程序的表现,因为它应该。 +我们用 NHANES 的数据作为我们的人口可以看到这一点;在这种情况下,我们知道总体参数的真实值,因此我们可以看到置信区间在许多不同样本中捕获该值的频率。图 [10.1](#fig:CIcoverage) 显示了 NHANES 数据集中 100 个样本的估计平均重量的置信区间。其中,95 个获得了真实的人口平均体重,表明置信区间程序的表现,因为它应该。 ![Samples were repeatedly taken from the NHANES dataset, and the 95% confidence interval of the mean was computed for each sample. Intervals shown in red did not capture the true population mean (shown as the dotted line).](img/file55.png) -图10.1:从NHANES数据集中重复提取样本,并计算每个样本平均值的95%置信区间。以红色显示的区间没有捕捉到真实的总体平均值(如虚线所示)。 +图 10.1:从 NHANES 数据集中重复提取样本,并计算每个样本平均值的 95%置信区间。以红色显示的区间没有捕捉到真实的总体平均值(如虚线所示)。 @@ -70,7 +70,7 @@ ![An example of the effect of sample size on the width of the confidence interval for the mean.](img/file56.png) -图10.2:样本大小对均值置信区间宽度影响的例子。 +图 10.2:样本大小对均值置信区间宽度影响的例子。 @@ -78,7 +78,7 @@ ### 10.1.4 使用自举计算置信区间 -在某些情况下,我们不能假设正态性,或者我们不知道统计的抽样分布。在这些情况下,我们可以使用bootstrap(我们在第 [8](#resampling-and-simulation) 章中介绍过)。提醒一下,bootstrap包括用替换数据重复重新采样数据*,然后使用在这些样本上计算的统计分布作为统计抽样分布的替代。当我们使用R中内置的bootstrapping函数来计算NHANES样本中权重的置信区间时,结果如下:* +在某些情况下,我们不能假设正态性,或者我们不知道统计的抽样分布。在这些情况下,我们可以使用 bootstrap(我们在第 [8](#resampling-and-simulation) 章中介绍过)。提醒一下,bootstrap 包括用替换数据重复重新采样数据*,然后使用在这些样本上计算的统计分布作为统计抽样分布的替代。当我们使用 R 中内置的 bootstrapping 函数来计算 NHANES 样本中权重的置信区间时,结果如下:* ``` ## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS @@ -93,7 +93,7 @@ ## Calculations and Intervals on Original Scale ``` -这些值非常接近使用上述t分布获得的值,尽管不完全相同。 +这些值非常接近使用上述 t 分布获得的值,尽管不完全相同。 @@ -101,9 +101,9 @@ ### 10.1.5 置信区间与假设检验的关系 -置信区间和假设检验之间有密切的关系。特别是,如果置信区间不包括零假设,那么相关的统计检验将具有统计显著性。例如,如果您使用α=0.05\α= 0.05来测试样本的平均值是否大于零,您可以简单地检查零是否包含在平均值的95%置信区间内。 +置信区间和假设检验之间有密切的关系。特别是,如果置信区间不包括零假设,那么相关的统计检验将具有统计显著性。例如,如果您使用α=0.05\α= 0.05来测试样本的平均值是否大于零,您可以简单地检查零是否包含在平均值的 95%置信区间内。 -如果我们想要比较两个条件的平均值 ( [申克尔和绅士2001](ch020.xhtml#ref-sche:gent:2001) ) ,事情就变得更棘手了。有几种情况很明显。首先,如果每个平均值都包含在另一个平均值的置信区间内,那么在选定的置信水平上肯定没有显著差异。第二,如果置信区间之间没有重叠,那么在选定的水平上肯定有显著差异;事实上,这个测试基本上是*保守的*,这样实际的错误率将低于选择的水平。但是,如果置信区间彼此重叠,但不包含另一组的均值,该怎么办呢?在这种情况下,答案取决于两个变量的相对可变性,没有通用的答案。然而,人们通常应该避免使用重叠置信区间的“眼球测试”。 +如果我们想要比较两个条件的平均值 ( [申克尔和绅士 2001](ch020.xhtml#ref-sche:gent:2001) ) ,事情就变得更棘手了。有几种情况很明显。首先,如果每个平均值都包含在另一个平均值的置信区间内,那么在选定的置信水平上肯定没有显著差异。第二,如果置信区间之间没有重叠,那么在选定的水平上肯定有显著差异;事实上,这个测试基本上是*保守的*,这样实际的错误率将低于选择的水平。但是,如果置信区间彼此重叠,但不包含另一组的均值,该怎么办呢?在这种情况下,答案取决于两个变量的相对可变性,没有通用的答案。然而,人们通常应该避免使用重叠置信区间的“眼球测试”。 @@ -113,7 +113,7 @@ ## 10.2 效果尺寸 -> “统计显著性是结果中最没意思的地方。你应该用数量级来描述结果——不仅仅是一种治疗对人们有没有影响,而是它对人们的影响有多大。”吉恩·格拉斯,引自 ( [沙利文和费恩2012](ch020.xhtml#ref-Sullivan:2012ta) ) +> “统计显著性是结果中最没意思的地方。你应该用数量级来描述结果——不仅仅是一种治疗对人们有没有影响,而是它对人们的影响有多大。”吉恩·格拉斯,引自 ( [沙利文和费恩 2012](ch020.xhtml#ref-Sullivan:2012ta) ) 在前一章,我们讨论了统计意义不一定反映实际意义的观点。为了讨论实际意义,我们需要一种标准的方法来描述实际数据中效应的大小,我们称之为*效应大小*。在本节中,我们将介绍这一概念,并讨论计算效应大小的各种方法。 @@ -123,13 +123,13 @@ ### 10.2.1 科恩医生 -最常见的效应大小测量方法之一被称为*科恩的d* ,以统计学家雅各布·科恩(Jacob Cohen)的名字命名(他因1994年题为“地球是圆的(p < .05)”的论文而闻名)。它用于量化两个平均值之间的差异,即它们的标准偏差: +最常见的效应大小测量方法之一被称为*科恩的 d* ,以统计学家雅各布·科恩(Jacob Cohen)的名字命名(他因 1994 年题为“地球是圆的(p < .05)”的论文而闻名)。它用于量化两个平均值之间的差异,即它们的标准偏差: 【丁】= 其中x1\ bar { x } _ 1x2\ bar { x } _ 2是两者的意思 -s=(n1——1)s12+s22n1+n2-2 其中nn _ 1n2n _ 2是样本大小和 请注意,这在精神上与t统计非常相似,主要区别在于t统计中的分母基于平均值的标准误差,而Cohen的D中的分母基于数据的标准偏差。这意味着t统计量将随着样本量的增加而增加,而Cohen的D值将保持不变。 +s=(n1——1)s12+s22n1+n2-2 其中nn _ 1n2n _ 2是样本大小和 请注意,这在精神上与 t 统计非常相似,主要区别在于 t 统计中的分母基于平均值的标准误差,而 Cohen 的 D 中的分母基于数据的标准偏差。这意味着 t 统计量将随着样本量的增加而增加,而 Cohen 的 D 值将保持不变。 Table 10.1: Interpetation of Cohen’s D | D | 解释 | @@ -139,11 +139,11 @@ | 0.5 - 0.8 | 媒介 | | 0.8 - | 大的 | -根据Cohen's d,有一个解释效果大小的常用尺度,如表 [10.1](#tab:dInterp) 所示。查看一些普遍理解的效应有助于理解这些解释。例如,参照我们上面的表格,成人身高性别差异的影响大小(d = 2.05)非常大。我们也可以通过观察NHANES数据集样本中男性和女性身高的分布来了解这一点。图 [10.3](#fig:genderHist) 显示这两种分布很好地分开,尽管仍然重叠,这突出了一个事实,即使两组之间的差异有很大的影响大小,每个组中也会有更像另一组的个体。 +根据 Cohen's d,有一个解释效果大小的常用尺度,如表 [10.1](#tab:dInterp) 所示。查看一些普遍理解的效应有助于理解这些解释。例如,参照我们上面的表格,成人身高性别差异的影响大小(d = 2.05)非常大。我们也可以通过观察 NHANES 数据集样本中男性和女性身高的分布来了解这一点。图 [10.3](#fig:genderHist) 显示这两种分布很好地分开,尽管仍然重叠,这突出了一个事实,即使两组之间的差异有很大的影响大小,每个组中也会有更像另一组的个体。 ![Smoothed histogram plots for male and female heights in the NHANES dataset, showing clearly distinct but also clearly overlapping distributions.](img/file57.png) -图10.3:NHANES数据集中男性和女性身高的平滑直方图,显示了明显不同但也明显重叠的分布。 +图 10.3:NHANES 数据集中男性和女性身高的平滑直方图,显示了明显不同但也明显重叠的分布。 同样值得注意的是,我们很少在科学中遇到这种量级的影响,部分原因是它们是如此明显的影响,以至于我们不需要科学研究来发现它们。正如我们将在关于再现性的第 [18](#doing-reproducible-research) 章中看到的,科学研究中报道的非常大的效应通常反映了可疑研究实践的使用,而不是自然界中真正巨大的效应。同样值得注意的是,即使是如此巨大的影响,两种分布仍然重叠——会有一些女性比一般男性高,反之亦然。对于大多数有趣的科学效应来说,重叠的程度要大得多,所以我们不应该根据一个很大的效应大小就立即对来自不同人群的个体做出强有力的结论。 @@ -151,15 +151,15 @@ -### 10.2.2 皮尔森的r +### 10.2.2 皮尔森的 r -皮尔逊的 *r* ,也被称为*相关系数*,是衡量两个连续变量之间线性关系强度的指标。我们将在第13章[中更详细地讨论相关性,所以我们将把细节留到那一章;这里,我们简单地引入 *r* 作为一种量化两个变量之间关系的方法。](#modeling-continuous-relationships) +皮尔逊的 *r* ,也被称为*相关系数*,是衡量两个连续变量之间线性关系强度的指标。我们将在第 13 章[中更详细地讨论相关性,所以我们将把细节留到那一章;这里,我们简单地引入 *r* 作为一种量化两个变量之间关系的方法。](#modeling-continuous-relationships) -*r* 是一个从-1到1变化的测度,其中值1代表变量之间完全正相关,0代表没有关系,-1代表完全负相关。图 [10.4](#fig:corrFig) 显示了使用随机生成数据的各种相关水平的示例。 +*r* 是一个从-1 到 1 变化的测度,其中值 1 代表变量之间完全正相关,0 代表没有关系,-1 代表完全负相关。图 [10.4](#fig:corrFig) 显示了使用随机生成数据的各种相关水平的示例。 ![Examples of various levels of Pearson's r.](img/file58.png) -图10.4:不同等级皮尔逊风险比的例子。 +图 10.4:不同等级皮尔逊风险比的例子。 @@ -173,7 +173,7 @@ 我们还讨论了*赔率*,简单来说就是两个赔率的比值。比值比是描述二元变量效应大小的一种有用方法。 -例如,让我们以吸烟和肺癌为例。2012年发表在《国际癌症杂志》上的一项研究 ( [Pesch et al. 2012](ch020.xhtml#ref-pesc:kend:gust:2012) ) 综合了许多不同研究中关于吸烟者和从不吸烟者肺癌发生率的数据。请注意,这些数据来自病例对照研究,这意味着这些研究的参与者是因为他们患有或未患有癌症而被招募的;然后检查他们的吸烟状况。因此,这些数字(如表 [10.2](#tab:smokingData) 所示)并不代表普通人群中吸烟者的癌症患病率——但它们可以告诉我们癌症和吸烟之间的关系。 +例如,让我们以吸烟和肺癌为例。2012 年发表在《国际癌症杂志》上的一项研究 ( [Pesch et al. 2012](ch020.xhtml#ref-pesc:kend:gust:2012) ) 综合了许多不同研究中关于吸烟者和从不吸烟者肺癌发生率的数据。请注意,这些数据来自病例对照研究,这意味着这些研究的参与者是因为他们患有或未患有癌症而被招募的;然后检查他们的吸烟状况。因此,这些数字(如表 [10.2](#tab:smokingData) 所示)并不代表普通人群中吸烟者的癌症患病率——但它们可以告诉我们癌症和吸烟之间的关系。 Table 10.2: Lung cancer occurrence separately for current smokers and those who have never smoked | 状态 | 从不吸烟 | 当前吸烟者 | @@ -181,7 +181,7 @@ | 没有癌症 | Two thousand eight hundred and eighty-three | Three thousand eight hundred and twenty-nine | | 巨蟹星座 | Two hundred and twenty | Six thousand seven hundred and eighty-four | -我们可以将这些数字转换成每一组的优势比。不吸烟者患肺癌的几率为0.08,而当前吸烟者患肺癌的几率为1.77。这些比值比告诉我们两组之间患癌的相对可能性:比值比23.22告诉我们,吸烟者患肺癌的几率大约比不吸烟者高23倍。 +我们可以将这些数字转换成每一组的优势比。不吸烟者患肺癌的几率为 0.08,而当前吸烟者患肺癌的几率为 1.77。这些比值比告诉我们两组之间患癌的相对可能性:比值比 23.22 告诉我们,吸烟者患肺癌的几率大约比不吸烟者高 23 倍。 @@ -191,7 +191,7 @@ ## 10.3 统计功率 -请记住上一章的内容,在奈曼-皮尔森假设检验方法下,我们必须指定我们对两种错误的容忍度:假阳性(他们称之为*第一类错误*)和假阴性(他们称之为*第二类错误*)。人们经常把注意力集中在第一类错误上,因为做出一个错误的肯定声明通常被认为是一件非常糟糕的事情;例如,韦克菲尔德( [1999](ch020.xhtml#ref-wake:1999) ) 声称自闭症与疫苗接种有关,这一现已不可信的说法导致了反疫苗情绪,导致麻疹等儿童疾病大幅增加。同样,我们也不想声称一种药物可以治愈一种疾病,如果它真的不能。这也是为什么I类误差的容差一般设置的相当低,通常为α=0.05\α= 0.05。但是第二类错误呢? +请记住上一章的内容,在奈曼-皮尔森假设检验方法下,我们必须指定我们对两种错误的容忍度:假阳性(他们称之为*第一类错误*)和假阴性(他们称之为*第二类错误*)。人们经常把注意力集中在第一类错误上,因为做出一个错误的肯定声明通常被认为是一件非常糟糕的事情;例如,韦克菲尔德( [1999](ch020.xhtml#ref-wake:1999) ) 声称自闭症与疫苗接种有关,这一现已不可信的说法导致了反疫苗情绪,导致麻疹等儿童疾病大幅增加。同样,我们也不想声称一种药物可以治愈一种疾病,如果它真的不能。这也是为什么 I 类误差的容差一般设置的相当低,通常为α=0.05\α= 0.05。但是第二类错误呢? *统计功效*的概念是第二类错误的补充——也就是说,它是在假设存在的情况下找到阳性结果的可能性: @@ -203,15 +203,15 @@ * 样本量:样本越大,统计能力越强 * 效果大小:一个给定的设计总是比一个小的效果有更大的力量去发现大的效果(因为发现大的效果更容易) -* I型误差率:I型误差和功率之间存在一种关系,即(在其他条件相同的情况下)降低I型误差也会降低功率。 +* I 型误差率:I 型误差和功率之间存在一种关系,即(在其他条件相同的情况下)降低 I 型误差也会降低功率。 -我们可以通过模拟看到这一点。首先让我们模拟一个实验,在这个实验中,我们使用标准的t检验来比较两组的平均值。我们将改变影响的大小(根据Cohen's d指定)、I型错误率和样本大小,对于其中的每一项,我们将检查显著结果(即功效)的比例是如何受到影响的。图 [10.5](#fig:plotPowerSim) 显示了功率作为这些因素的函数如何变化的示例。 +我们可以通过模拟看到这一点。首先让我们模拟一个实验,在这个实验中,我们使用标准的 t 检验来比较两组的平均值。我们将改变影响的大小(根据 Cohen's d 指定)、I 型错误率和样本大小,对于其中的每一项,我们将检查显著结果(即功效)的比例是如何受到影响的。图 [10.5](#fig:plotPowerSim) 显示了功率作为这些因素的函数如何变化的示例。 ![Results from power simulation, showing power as a function of sample size, with effect sizes shown as different colors, and alpha shown as line type. The standard criterion of 80 percent power is shown by the dotted black line.](img/file59.png) -图10.5:功率模拟的结果,显示功率作为样本大小的函数,效果大小显示为不同的颜色,alpha显示为线型。80%功率的标准标准由黑色虚线表示。 +图 10.5:功率模拟的结果,显示功率作为样本大小的函数,效果大小显示为不同的颜色,alpha 显示为线型。80%功率的标准标准由黑色虚线表示。 -这个模拟向我们表明,即使样本大小为96,我们也只有相对较小的能力来找到一个小效果(d=0.2d = 0.2)与α=0.005\α= 0.005这意味着一项为此而设计的研究将是徒劳的——也就是说,即使这种规模的效应确实存在,也几乎肯定不会有任何发现。 +这个模拟向我们表明,即使样本大小为 96,我们也只有相对较小的能力来找到一个小效果(d=0.2d = 0.2)与α=0.005\α= 0.005 这意味着一项为此而设计的研究将是徒劳的——也就是说,即使这种规模的效应确实存在,也几乎肯定不会有任何发现。 关注统计能力至少有两个重要原因。首先,如果你是一名研究人员,你可能不想把时间花在徒劳的实验上。进行一项动力不足的研究基本上是徒劳的,因为这意味着即使存在效果,人们发现效果的可能性也非常低。第二,事实证明,与有力的研究相比,来自力度不足的研究的任何积极发现更有可能是错误的,这一点我们将在第 [18](#doing-reproducible-research) 章中更详细地讨论。 @@ -221,7 +221,7 @@ 幸运的是,有工具可以让我们确定实验的统计能力。这些工具最常见的用途是在计划一个实验时,当我们想要确定我们的样本需要多大,以便有足够的能力找到我们感兴趣的效果。 -比方说,我们有兴趣开展一项研究,探讨iOS设备用户和Android设备用户之间的特定个性特征有何不同。我们的计划是收集两组人,测量他们的个性特征,然后用t检验比较两组人。在这种情况下,我们会认为一个中等效应(【d】=0.5d = 0.5)是有科学意义的,因此我们将使用那个水平来进行我们的功率分析。为了确定必要的样本量,我们可以使用统计软件中的幂函数: +比方说,我们有兴趣开展一项研究,探讨 iOS 设备用户和 Android 设备用户之间的特定个性特征有何不同。我们的计划是收集两组人,测量他们的个性特征,然后用 t 检验比较两组人。在这种情况下,我们会认为一个中等效应(【d】=0.5d = 0.5)是有科学意义的,因此我们将使用那个水平来进行我们的功率分析。为了确定必要的样本量,我们可以使用统计软件中的幂函数: ``` ## @@ -237,9 +237,9 @@ ## NOTE: n is number in *each* group ``` -这告诉我们,每组至少需要64名受试者,才能有足够的力量发现中等大小的效应。在开始新的研究之前,进行功效分析总是很重要的,以确保研究不会因为样本太小而无效。 +这告诉我们,每组至少需要 64 名受试者,才能有足够的力量发现中等大小的效应。在开始新的研究之前,进行功效分析总是很重要的,以确保研究不会因为样本太小而无效。 -你可能会想到,如果效应大小足够大,那么所需的样本就会非常小。例如,如果我们运行相同的功效分析,效果大小为d=2,那么我们将看到,我们只需要每组约5名受试者就有足够的功效来发现差异。 +你可能会想到,如果效应大小足够大,那么所需的样本就会非常小。例如,如果我们运行相同的功效分析,效果大小为 d=2,那么我们将看到,我们只需要每组约 5 名受试者就有足够的功效来发现差异。 ``` ## @@ -254,7 +254,7 @@ ## NOTE: n is number in *each* group ``` -然而,在科学界,我们很少会在实验中发现如此大的影响——就像我们不需要统计数据来告诉我们16岁的孩子比6岁的孩子高一样。当我们进行功效分析时,我们需要指定一个对我们的研究看似合理和/或科学上有趣的效应大小,这通常来自以前的研究。然而,在第 [18](#doing-reproducible-research) 章中,我们将讨论一种被称为“赢家的诅咒”的现象,这种现象可能会导致发布的效果尺寸大于真实的效果尺寸,因此这一点也应该记住。 +然而,在科学界,我们很少会在实验中发现如此大的影响——就像我们不需要统计数据来告诉我们 16 岁的孩子比 6 岁的孩子高一样。当我们进行功效分析时,我们需要指定一个对我们的研究看似合理和/或科学上有趣的效应大小,这通常来自以前的研究。然而,在第 [18](#doing-reproducible-research) 章中,我们将讨论一种被称为“赢家的诅咒”的现象,这种现象可能会导致发布的效果尺寸大于真实的效果尺寸,因此这一点也应该记住。 @@ -276,7 +276,7 @@ ## 10.5 建议读数 -* [Hoekstra等人对置信区间的错误理解](http://www.ejwagenmakers.com/inpress/HoekstraEtAlPBR.pdf) +* [Hoekstra 等人对置信区间的错误理解](http://www.ejwagenmakers.com/inpress/HoekstraEtAlPBR.pdf) diff --git a/docs/11.md b/docs/11.md index be6eff6..cafe3e0 100644 --- a/docs/11.md +++ b/docs/11.md @@ -14,9 +14,9 @@ ![A schematic of the idea of a generative model.](img/file60.png) -图11.1:生成模型的概念示意图。 +图 11.1:生成模型的概念示意图。 -如果我们知道潜在变量的值,那么很容易重建观察到的数据应该是什么样子。例如,让我们说,我们正在抛一个硬币,我们知道这是公平的,所以我们会期望它有50%的机会正面朝上。我们可以用一个值为Pheads=0.5P _ { heads } = 0.5的二项分布来描述硬币,然后我们可以生成随机样本然而,总的来说,我们处于相反的情况:我们不知道感兴趣的潜在变量的值,但我们有一些数据,我们想用它们来估计它。 +如果我们知道潜在变量的值,那么很容易重建观察到的数据应该是什么样子。例如,让我们说,我们正在抛一个硬币,我们知道这是公平的,所以我们会期望它有 50%的机会正面朝上。我们可以用一个值为Pheads=0.5P _ { heads } = 0.5的二项分布来描述硬币,然后我们可以生成随机样本然而,总的来说,我们处于相反的情况:我们不知道感兴趣的潜在变量的值,但我们有一些数据,我们想用它们来估计它。 @@ -24,9 +24,9 @@ ## 11.2 贝叶斯定理和逆推理 -贝叶斯统计之所以得名,是因为它利用贝叶斯定理从数据中推断出生成数据的基本过程。假设我们想知道一枚硬币是否公平。为了测试这一点,我们将硬币抛10次,得到7个头。在这次测试之前,我们非常确定,Pheds=P _ { heads } = 0.5, 但是如果我们相信Pheads=0.5P _ { heads } = 0.5的话,那么在10次翻转中找到7次正面肯定会让我们停下来 我们已经知道如何计算条件概率,如果硬币真的是公平的,我们将从10个硬币中掷出7个或更多的正面(P(n|Ph +贝叶斯统计之所以得名,是因为它利用贝叶斯定理从数据中推断出生成数据的基本过程。假设我们想知道一枚硬币是否公平。为了测试这一点,我们将硬币抛 10 次,得到 7 个头。在这次测试之前,我们非常确定,Pheds=P _ { heads } = 0.5, 但是如果我们相信Pheads=0.5P _ { heads } = 0.5的话,那么在 10 次翻转中找到 7 次正面肯定会让我们停下来 我们已经知道如何计算条件概率,如果硬币真的是公平的,我们将从 10 个硬币中掷出 7 个或更多的正面(P(n|Ph -得到的概率是0.055。这是一个相当小的数字,但这个数字并没有真正回答我们要问的问题——它告诉我们在给定某种特定正面概率的情况下,出现7个或更多正面的可能性,而我们真正想知道的是这种特定硬币正面的真实概率。这听起来应该很熟悉,因为这正是我们在零假设测试中的情况,它告诉我们数据的可能性,而不是假设的可能性。 +得到的概率是 0.055。这是一个相当小的数字,但这个数字并没有真正回答我们要问的问题——它告诉我们在给定某种特定正面概率的情况下,出现 7 个或更多正面的可能性,而我们真正想知道的是这种特定硬币正面的真实概率。这听起来应该很熟悉,因为这正是我们在零假设测试中的情况,它告诉我们数据的可能性,而不是假设的可能性。 请记住,贝叶斯定理为我们提供了反演条件概率所需的工具: @@ -42,11 +42,11 @@ 在我们掷硬币的例子中: * *先验*(PheadsP _ { heads }):我们对掷人头的可能性的相信程度,即P【T30 -* *可能性*(P(7以上人头出10次翻转|Pheads=0 ):如果Pheads=0.5 -* *边际可能性*()P(10次掷硬币中有7次或7次以上正面朝上))P(\ text { 10次掷硬币中有7次或7次以上正面朝上}) ):一般来说,我们观察到10次掷硬币中有7次正面朝上的可能性有多大? -* *后路*(Pheads|10个硬币中有7个或7个以上的正面朝上抛)P _ {正面朝上}|\text{7个或7个以上正面朝上 +* *可能性*(P(7 以上人头出 10 次翻转|Pheads=0 ):如果Pheads=0.5 +* *边际可能性*()P(10 次掷硬币中有 7 次或 7 次以上正面朝上))P(\ text { 10 次掷硬币中有 7 次或 7 次以上正面朝上}) ):一般来说,我们观察到 10 次掷硬币中有 7 次正面朝上的可能性有多大? +* *后路*(Pheads|10 个硬币中有 7 个或 7 个以上的正面朝上抛)P _ {正面朝上}|\text{7 个或 7 个以上正面朝上 -这里我们看到了频率主义者和贝叶斯统计之间的一个主要区别。频繁主义者不相信假设的概率(即我们对假设的相信程度)——对他们来说,假设要么是真的,要么不是。另一种说法是,对于频率主义者来说,假设是固定的,数据是随机的,这就是为什么频率主义者的推断侧重于描述给定一个假设的数据的概率(即p值)。另一方面,贝叶斯主义者乐于对数据和假设进行概率陈述。 +这里我们看到了频率主义者和贝叶斯统计之间的一个主要区别。频繁主义者不相信假设的概率(即我们对假设的相信程度)——对他们来说,假设要么是真的,要么不是。另一种说法是,对于频率主义者来说,假设是固定的,数据是随机的,这就是为什么频率主义者的推断侧重于描述给定一个假设的数据的概率(即 p 值)。另一方面,贝叶斯主义者乐于对数据和假设进行概率陈述。 @@ -54,7 +54,7 @@ ## 11.3 做贝叶斯估计 -我们最终希望使用贝叶斯统计来对假设做出决策,但在此之前,我们需要估计做出决策所需的参数。在这里,我们将走过贝叶斯估计的过程。我们再举一个筛查的例子:机场安检。如果你经常坐飞机,那么随机爆炸筛查中的一次出现阳性结果只是时间问题;2001年9月11日之后不久,我就有过这种特别不幸的经历,当时机场安检人员特别紧张。 +我们最终希望使用贝叶斯统计来对假设做出决策,但在此之前,我们需要估计做出决策所需的参数。在这里,我们将走过贝叶斯估计的过程。我们再举一个筛查的例子:机场安检。如果你经常坐飞机,那么随机爆炸筛查中的一次出现阳性结果只是时间问题;2001 年 9 月 11 日之后不久,我就有过这种特别不幸的经历,当时机场安检人员特别紧张。 安全人员想知道的是,在机器测试结果为阳性的情况下,一个人携带爆炸物的可能性有多大。让我们看看如何使用贝叶斯分析来计算这个值。 @@ -62,7 +62,7 @@ ### 11.3.1 指定在先 -要使用贝叶斯定理,我们首先需要指定假设的先验概率。在这种情况下,我们不知道真实的数字,但我们可以假设它很小。根据 [FAA](https://www.faa.gov/air_traffic/by_the_numbeimg/Air_Traffic_by_the_Numbers_2018.pdf) 的数据,2017年美国共有971,595,898名航空乘客。假设这些旅行者中有一个在包里携带了爆炸物——这将给出9.71亿分之一的先验概率,这非常小!在9/11袭击后的几个月里,安全人员可能合理地持有更强的先验,所以让我们说他们的主观信念是每一百万个飞行员中有一个携带爆炸物。 +要使用贝叶斯定理,我们首先需要指定假设的先验概率。在这种情况下,我们不知道真实的数字,但我们可以假设它很小。根据 [FAA](https://www.faa.gov/air_traffic/by_the_numbeimg/Air_Traffic_by_the_Numbers_2018.pdf) 的数据,2017 年美国共有 971,595,898 名航空乘客。假设这些旅行者中有一个在包里携带了爆炸物——这将给出 9.71 亿分之一的先验概率,这非常小!在 9/11 袭击后的几个月里,安全人员可能合理地持有更强的先验,所以让我们说他们的主观信念是每一百万个飞行员中有一个携带爆炸物。 @@ -70,7 +70,7 @@ ### 11.3.2 收集一些数据 -数据由爆炸物筛选试验的结果组成。假设安检人员用他们的测试仪器测试这个包3次,在3次测试中有3次给出了肯定的读数。 +数据由爆炸物筛选试验的结果组成。假设安检人员用他们的测试仪器测试这个包 3 次,在 3 次测试中有 3 次给出了肯定的读数。 @@ -78,7 +78,7 @@ ### 11.3.3 计算可能性 -我们想在假设包里有炸药的情况下计算数据的可能性。假设我们(从机器制造商那里)知道测试的灵敏度是0.99——也就是说,当一个设备存在时,它将在99%的时间内检测到它。为了在假设设备存在的情况下确定我们的数据的可能性,我们可以将每个测试视为成功概率为0.99的伯努利试验(即,结果为真或假的试验),我们可以使用二项式分布对其进行建模。 +我们想在假设包里有炸药的情况下计算数据的可能性。假设我们(从机器制造商那里)知道测试的灵敏度是 0.99——也就是说,当一个设备存在时,它将在 99%的时间内检测到它。为了在假设设备存在的情况下确定我们的数据的可能性,我们可以将每个测试视为成功概率为 0.99 的伯努利试验(即,结果为真或假的试验),我们可以使用二项式分布对其进行建模。 @@ -86,13 +86,13 @@ ### 11.3.4 计算边际可能性 -我们还需要知道数据的总体可能性,也就是说,从3次测试中找出3次阳性。计算边际可能性通常是贝叶斯分析最困难的方面之一,但对于我们的例子来说,这很简单,因为我们可以利用我们在第 [6.7](#bayestheorem) 节中介绍的二元结果的贝叶斯定理的特定形式: +我们还需要知道数据的总体可能性,也就是说,从 3 次测试中找出 3 次阳性。计算边际可能性通常是贝叶斯分析最困难的方面之一,但对于我们的例子来说,这很简单,因为我们可以利用我们在第 [6.7](#bayestheorem) 节中介绍的二元结果的贝叶斯定理的特定形式: 【p】(e|e)e 其中EE表示存在爆炸物,TT表示检测结果为阳性。 -在这种情况下,边际可能性是存在或不存在爆炸物情况下数据可能性的加权平均值,乘以爆炸物存在的概率(即先验)。在这种情况下,假设我们(从制造商处)知道测试的特异性为0.99,这样在没有炸药的情况下出现阳性结果的可能性(P(T|)P(T | \ neg E) +在这种情况下,边际可能性是存在或不存在爆炸物情况下数据可能性的加权平均值,乘以爆炸物存在的概率(即先验)。在这种情况下,假设我们(从制造商处)知道测试的特异性为 0.99,这样在没有炸药的情况下出现阳性结果的可能性(P(T|)P(T | \ neg E) @@ -100,8 +100,8 @@ ### 11.3.5 计算后验 -我们现在有了计算爆炸物存在的后验概率所需的所有部分,给出了3次试验中观察到的3个阳性结果。 -这一结果向我们表明,在这些阳性测试中,行李中爆炸物的后验概率(0.492)略低于50%,这再次强调了这样一个事实,即对罕见事件的测试几乎总是容易产生大量假阳性,即使特异性和敏感性非常高。 +我们现在有了计算爆炸物存在的后验概率所需的所有部分,给出了 3 次试验中观察到的 3 个阳性结果。 +这一结果向我们表明,在这些阳性测试中,行李中爆炸物的后验概率(0.492)略低于 50%,这再次强调了这样一个事实,即对罕见事件的测试几乎总是容易产生大量假阳性,即使特异性和敏感性非常高。 贝叶斯分析的一个重要方面是它可以是连续的。一旦我们从一个分析中获得了后验概率,它就可以成为下一个分析的先验概率! @@ -119,7 +119,7 @@ ### 11.4.1 指定在先 -在这种情况下,我们没有任何关于药物有效性的先验信息,所以我们将使用一个*均匀分布*作为我们的先验,因为所有值在均匀分布下的概率是相等的。为了简化示例,我们将只查看99个可能的有效性值的子集(从. 01到. 99,步长为. 01)。因此,每个可能值的先验概率为1/99。 +在这种情况下,我们没有任何关于药物有效性的先验信息,所以我们将使用一个*均匀分布*作为我们的先验,因为所有值在均匀分布下的概率是相等的。为了简化示例,我们将只查看 99 个可能的有效性值的子集(从. 01 到. 99,步长为. 01)。因此,每个可能值的先验概率为 1/99。 @@ -127,7 +127,7 @@ ### 11.4.2 收集一些数据 -我们需要一些数据来估计药物的效果。假设我们给100个人服用这种药物,我们发现64个人对这种药物有积极的反应。 +我们需要一些数据来估计药物的效果。假设我们给 100 个人服用这种药物,我们发现 64 个人对这种药物有积极的反应。 @@ -139,7 +139,7 @@ ![Likelihood of each possible number of responders under several different hypotheses (p(respond)=0.5 (solid), 0.7 (dotted), 0.3 (dashed). Observed value shown in the vertical line](img/file61.png) -图11.2:在几种不同的假设下,每个可能的响应者数量的可能性(p(响应)=0.5(实线),0.7(虚线),0.3(虚线)。观察值显示在垂直线中 +图 11.2:在几种不同的假设下,每个可能的响应者数量的可能性(p(响应)=0.5(实线),0.7(虚线),0.3(虚线)。观察值显示在垂直线中 @@ -155,11 +155,11 @@ ### 11.4.5 计算后验 -我们现在已经得到了计算所有可能值的后验概率分布所需的所有部分,这些值为prespondp _ { respond },如图 [11.3所示](#fig:posteriorDist) +我们现在已经得到了计算所有可能值的后验概率分布所需的所有部分,这些值为prespondp _ { respond },如图 [11.3 所示](#fig:posteriorDist) ![Posterior probability distribution for the observed data plotted in solid line against uniform prior distribution (dotted line). The maximum a posteriori (MAP) value is signified by the diamond symbol.](img/file62.png) -图11.3:观察数据的后验概率分布,实线表示均匀先验分布(虚线)。最大后验概率(MAP)值由菱形符号表示。 +图 11.3:观察数据的后验概率分布,实线表示均匀先验分布(虚线)。最大后验概率(MAP)值由菱形符号表示。 @@ -175,9 +175,9 @@ ### 11.4.7 可信区间 -通常我们不仅想知道后验概率的单个估计,还想知道后验概率下降的区间。我们以前在频繁推理的上下文中讨论过置信区间的概念,您可能还记得置信区间的解释特别复杂:它是一个在95%的时间里包含参数值的区间。我们真正想要的是一个区间,在这个区间内我们有信心真参数下降,贝叶斯统计可以给我们这样一个区间,我们称之为*可信区间*。 +通常我们不仅想知道后验概率的单个估计,还想知道后验概率下降的区间。我们以前在频繁推理的上下文中讨论过置信区间的概念,您可能还记得置信区间的解释特别复杂:它是一个在 95%的时间里包含参数值的区间。我们真正想要的是一个区间,在这个区间内我们有信心真参数下降,贝叶斯统计可以给我们这样一个区间,我们称之为*可信区间*。 -对这个可信区间的解释更接近于我们曾经希望从置信区间中得到的(但却无法得到):它告诉我们有95%的可能性是,prespondp _ { response }重要的是,在这种情况下它表明我们有很高的信心认为prespond>0p _ { 0 +对这个可信区间的解释更接近于我们曾经希望从置信区间中得到的(但却无法得到):它告诉我们有 95%的可能性是,prespondp _ { response }重要的是,在这种情况下它表明我们有很高的信心认为prespond>0p _ { 0 在某些情况下,可信区间可以基于已知的分布在数字上计算*,但更常见的是通过从后验分布中采样来生成可信区间,然后计算样本的分位数。当我们没有一种简单的方法来用数字表示后验分布时,这是特别有用的,这在真实的贝叶斯数据分析中是常见的情况。一种这样的方法(拒绝抽样)在本章末尾的附录中有更详细的解释。* @@ -187,21 +187,21 @@ ### 11.4.8 不同先验的影响 -在前面的例子中我们使用了一个*平坦的先验*,这意味着我们没有任何理由相信prespondp _ { respond }然而,假设我们从一些以前的数据开始:在以前的研究中,研究人员测试了20个人,发现其中10个人做出了积极的回应。这将使我们从先前的信念开始,即这种治疗对50%的人有效。我们可以进行与上述相同的计算,但是使用来自我们先前研究的信息来通知我们的先验(参见图 [11.4](#fig:posteriorDistPrior) 中的子图A)。 +在前面的例子中我们使用了一个*平坦的先验*,这意味着我们没有任何理由相信prespondp _ { respond }然而,假设我们从一些以前的数据开始:在以前的研究中,研究人员测试了 20 个人,发现其中 10 个人做出了积极的回应。这将使我们从先前的信念开始,即这种治疗对 50%的人有效。我们可以进行与上述相同的计算,但是使用来自我们先前研究的信息来通知我们的先验(参见图 [11.4](#fig:posteriorDistPrior) 中的子图 A)。 -请注意,可能性和边际可能性没有改变,只有先验发生了变化。“先验”更改的效果是将“后验”拉近到新“先验”的质量,该质量以0.5为中心。 +请注意,可能性和边际可能性没有改变,只有先验发生了变化。“先验”更改的效果是将“后验”拉近到新“先验”的质量,该质量以 0.5 为中心。 -现在让我们看看,如果我们带着更强的先验信念进行分析,会发生什么。假设先前的研究不是观察20个人中的10个响应者,而是测试500个人,发现250个响应者。原则上,这应该给我们一个更强的先验,正如我们在图 [11.4](#fig:posteriorDistPrior) 的子图B中看到的,这就是所发生的:先验更加集中在0.5左右,后验也更加接近先验。一般的想法是,贝叶斯推理结合了先验和似然的信息,加权各自的相对强度。 +现在让我们看看,如果我们带着更强的先验信念进行分析,会发生什么。假设先前的研究不是观察 20 个人中的 10 个响应者,而是测试 500 个人,发现 250 个响应者。原则上,这应该给我们一个更强的先验,正如我们在图 [11.4](#fig:posteriorDistPrior) 的子图 B 中看到的,这就是所发生的:先验更加集中在 0.5 左右,后验也更加接近先验。一般的想法是,贝叶斯推理结合了先验和似然的信息,加权各自的相对强度。 这个例子也强调了贝叶斯分析的顺序性质——一个分析的后验可以成为下一个分析的先验。 -最后,重要的是要认识到,如果先验足够强,它们可以完全压倒数据。假设您有一个绝对的先验,即prespondp _ { respond }为0.8或更大,这样您就将所有其他值的先验概率设置为零。如果我们计算后验概率会发生什么? +最后,重要的是要认识到,如果先验足够强,它们可以完全压倒数据。假设您有一个绝对的先验,即prespondp _ { respond }为 0.8 或更大,这样您就将所有其他值的先验概率设置为零。如果我们计算后验概率会发生什么? ![A: Effects of priors on the posterior distribution. The original posterior distribution based on a flat prior is plotted in blue. The prior based on the observation of 10 responders out of 20 people is plotted in the dotted black line, and the posterior using this prior is plotted in red. B: Effects of the strength of the prior on the posterior distribution. The blue line shows the posterior obtained using the prior based on 50 heads out of 100 people. The dotted black line shows the prior based on 250 heads out of 500 flips, and the red line shows the posterior based on that prior. C: Effects of the strength of the prior on the posterior distribution. The blue line shows the posterior obtained using an absolute prior which states that p(respond) is 0.8 or greater. The prior is shown in the dotted black line.](img/file63.png) -图11.4: A:先验对后验分布的影响。基于平坦先验的原始后验分布以蓝色绘制。基于20个人中10个应答者的观察的先验以黑色虚线绘制,使用该先验的后验以红色绘制。b:先验强度对后验分布的影响。蓝线表示基于100个人中的50个人使用先验获得的后验概率。黑色虚线表示基于500次翻转中250次翻转的先验,红线表示基于该先验的后验。c:先验强度对后验分布的影响。蓝线显示使用绝对先验获得的后验概率,表明p(响应)为0.8或更大。先验以黑色虚线显示。 +图 11.4: A:先验对后验分布的影响。基于平坦先验的原始后验分布以蓝色绘制。基于 20 个人中 10 个应答者的观察的先验以黑色虚线绘制,使用该先验的后验以红色绘制。b:先验强度对后验分布的影响。蓝线表示基于 100 个人中的 50 个人使用先验获得的后验概率。黑色虚线表示基于 500 次翻转中 250 次翻转的先验,红线表示基于该先验的后验。c:先验强度对后验分布的影响。蓝线显示使用绝对先验获得的后验概率,表明 p(响应)为 0.8 或更大。先验以黑色虚线显示。 -在图 [11.4](#fig:posteriorDistPrior) 的子图C中,我们看到,先验设置为零的任何值的后验密度为零——数据被绝对先验淹没。 +在图 [11.4](#fig:posteriorDistPrior) 的子图 C 中,我们看到,先验设置为零的任何值的后验密度为零——数据被绝对先验淹没。 * @@ -211,7 +211,7 @@ 先验对所得推论的影响是贝叶斯统计中最有争议的方面。使用前的权利是什么?如果先验的选择决定了结果(即后验),你怎么能确定你的结果是可信的呢?这些都是难题,但我们不应该因为面临难题就退缩。正如我们之前讨论的,贝叶斯分析给我们提供了可解释的结果(可信区间等)。).仅此一点就应该激励我们认真思考这些问题,以便我们能够得出合理和可解释的结果。 -有各种方式来选择一个人的先验,这(正如我们在上面看到的)会影响最终的推论。有时我们有一个非常具体的先验,比如我们期望硬币有50%的机会正面朝上,但在很多情况下,我们没有这么强的起点。*无信息先验*试图尽可能少地影响结果后验,正如我们在上面的均匀先验的例子中看到的。使用*弱信息先验*(或*默认先验*)也很常见,这对结果的影响非常小。例如,如果我们使用基于两次抛硬币中有一次正面朝上的二项式分布,则先验值将集中在0.5左右,但相当平坦,对后验值的影响很小。也可以使用基于科学文献或现有数据的先验知识,我们称之为*经验先验知识*。然而,总的来说,我们将坚持使用无信息/弱信息先验,因为它们最不担心影响我们的结果。 +有各种方式来选择一个人的先验,这(正如我们在上面看到的)会影响最终的推论。有时我们有一个非常具体的先验,比如我们期望硬币有 50%的机会正面朝上,但在很多情况下,我们没有这么强的起点。*无信息先验*试图尽可能少地影响结果后验,正如我们在上面的均匀先验的例子中看到的。使用*弱信息先验*(或*默认先验*)也很常见,这对结果的影响非常小。例如,如果我们使用基于两次抛硬币中有一次正面朝上的二项式分布,则先验值将集中在 0.5 左右,但相当平坦,对后验值的影响很小。也可以使用基于科学文献或现有数据的先验知识,我们称之为*经验先验知识*。然而,总的来说,我们将坚持使用无信息/弱信息先验,因为它们最不担心影响我们的结果。 @@ -219,7 +219,7 @@ ## 11.6 贝叶斯假设检验 -已经学习了如何进行贝叶斯估计,我们现在转向使用贝叶斯方法进行假设检验。假设有两个政治家,他们对公众是否赞成征收额外的税来支持国家公园有不同的看法。参议员史密斯认为只有40%的人赞成这项税收,而参议员琼斯认为60%的人赞成。他们安排了一个民意测验来测试这一点,随机选择了1000个人来询问他们是否支持这样的税。结果是在民意测验样本中有490的人赞成征税。基于这些数据,我们想知道:这些数据是否支持一位参议员的观点,支持程度如何?我们可以使用一个称为[贝叶斯因子](https://bayesfactor.blogspot.com/2014/02/the-bayesfactor-package-this-blog-is.html)的概念来测试这一点,它通过比较每个假设对观察数据的预测程度来量化哪个假设更好。 +已经学习了如何进行贝叶斯估计,我们现在转向使用贝叶斯方法进行假设检验。假设有两个政治家,他们对公众是否赞成征收额外的税来支持国家公园有不同的看法。参议员史密斯认为只有 40%的人赞成这项税收,而参议员琼斯认为 60%的人赞成。他们安排了一个民意测验来测试这一点,随机选择了 1000 个人来询问他们是否支持这样的税。结果是在民意测验样本中有 490 的人赞成征税。基于这些数据,我们想知道:这些数据是否支持一位参议员的观点,支持程度如何?我们可以使用一个称为[贝叶斯因子](https://bayesfactor.blogspot.com/2014/02/the-bayesfactor-package-this-blog-is.html)的概念来测试这一点,它通过比较每个假设对观察数据的预测程度来量化哪个假设更好。 @@ -229,7 +229,7 @@ 【B3】【b】【f】= -对于两个假设H1H _ 1H2H _ 2。在我们两位参议员的例子中,我们知道如何使用二项式分布计算每个假设下数据的可能性;让我们暂时假设我们每个参议员正确的先验概率是相同的(PH1=PH2=0.5我们将把参议员史密斯放在分子中,将参议员琼斯放在分母中,这样,大于1的值将反映参议员史密斯的更多证据,小于1的值将反映参议员琼斯的更多证据。由此产生的贝叶斯因子(3325.26)提供了数据提供的关于两个假设的证据的度量-在这种情况下,它告诉我们数据支持参议员Smith的程度比支持参议员Jones的程度强3000多倍。 +对于两个假设H1H _ 1H2H _ 2。在我们两位参议员的例子中,我们知道如何使用二项式分布计算每个假设下数据的可能性;让我们暂时假设我们每个参议员正确的先验概率是相同的(PH1=PH2=0.5我们将把参议员史密斯放在分子中,将参议员琼斯放在分母中,这样,大于 1 的值将反映参议员史密斯的更多证据,小于 1 的值将反映参议员琼斯的更多证据。由此产生的贝叶斯因子(3325.26)提供了数据提供的关于两个假设的证据的度量-在这种情况下,它告诉我们数据支持参议员 Smith 的程度比支持参议员 Jones 的程度强 3000 多倍。 @@ -239,13 +239,13 @@ 在前面的例子中,我们有每个参议员的具体预测,我们可以使用二项式分布来量化其可能性。此外,我们两个假设的先验概率是相等的。然而,在实际数据分析中,我们通常必须处理参数的不确定性,这使贝叶斯因素变得复杂,因为我们需要计算边际似然性(即,所有可能的模型参数的似然性的综合平均值,按其先验概率加权)。然而,作为交换,我们获得了量化相对数量的证据的能力,这有利于零假设与替代假设。 -假设我们是一名医学研究人员,正在进行一项治疗糖尿病的临床试验,我们希望知道与安慰剂相比,某种药物是否能降低血糖。我们招募了一组志愿者,并将他们随机分配到药物组或安慰剂组,并在服用药物或安慰剂期间,测量每组的血红蛋白A1C(血糖水平的标志)的变化。我们想知道的是:这种药物和安慰剂之间有区别吗? +假设我们是一名医学研究人员,正在进行一项治疗糖尿病的临床试验,我们希望知道与安慰剂相比,某种药物是否能降低血糖。我们招募了一组志愿者,并将他们随机分配到药物组或安慰剂组,并在服用药物或安慰剂期间,测量每组的血红蛋白 A1C(血糖水平的标志)的变化。我们想知道的是:这种药物和安慰剂之间有区别吗? -首先,让我们生成一些数据,并使用零假设检验对它们进行分析(见图 [11.5](#fig:bayesTesting) )。然后,让我们进行独立样本t检验,结果显示两组之间存在显著差异: +首先,让我们生成一些数据,并使用零假设检验对它们进行分析(见图 [11.5](#fig:bayesTesting) )。然后,让我们进行独立样本 t 检验,结果显示两组之间存在显著差异: ![Box plots showing data for drug and placebo groups.](img/file64.png) -图11.5:显示药物组和安慰剂组数据的箱线图。 +图 11.5:显示药物组和安慰剂组数据的箱线图。 ``` ## @@ -261,7 +261,7 @@ ## -0.082 -0.650 ``` -这个测试告诉我们两组之间有显著差异,但它没有量化证据支持无效假设和替代假设的力度。为了测量它,我们可以使用R: +这个测试告诉我们两组之间有显著差异,但它没有量化证据支持无效假设和替代假设的力度。为了测量它,我们可以使用 R: ``` ## Bayes factor analysis @@ -275,13 +275,13 @@ ## Bayes factor type: BFindepSample, JZS ``` -我们对大于零的效应的贝叶斯因子特别感兴趣,它列在报告中标有“[1]”的行中。这里的贝叶斯因子告诉我们,在给定数据的情况下,替代假设(即差异大于零)比点零假设(即平均差异正好为零)的可能性大约高3倍。因此,尽管这种影响是显著的,但它为我们提供的支持另一种假设的证据却相当薄弱。 +我们对大于零的效应的贝叶斯因子特别感兴趣,它列在报告中标有“[1]”的行中。这里的贝叶斯因子告诉我们,在给定数据的情况下,替代假设(即差异大于零)比点零假设(即平均差异正好为零)的可能性大约高 3 倍。因此,尽管这种影响是显著的,但它为我们提供的支持另一种假设的证据却相当薄弱。 -#### 11.6.2.1片面测试 +#### 11.6.2.1 片面测试 -我们通常对检验特定点值的零假设(例如,平均差= 0)不感兴趣,而对检验方向零假设(例如,差小于或等于0)不感兴趣。我们还可以使用来自`ttestBF`分析的结果执行定向(或*单侧*)测试,因为它提供了两个贝叶斯因子:一个用于平均差大于零的替代假设,一个用于平均差小于零的替代假设。如果我们想要评估正面效应的相对证据,我们可以通过简单地将函数返回的两个贝叶斯因子相除来计算比较正面效应和负面效应的相对证据的贝叶斯因子: +我们通常对检验特定点值的零假设(例如,平均差= 0)不感兴趣,而对检验方向零假设(例如,差小于或等于 0)不感兴趣。我们还可以使用来自`ttestBF`分析的结果执行定向(或*单侧*)测试,因为它提供了两个贝叶斯因子:一个用于平均差大于零的替代假设,一个用于平均差小于零的替代假设。如果我们想要评估正面效应的相对证据,我们可以通过简单地将函数返回的两个贝叶斯因子相除来计算比较正面效应和负面效应的相对证据的贝叶斯因子: ``` ## Bayes factor analysis @@ -294,21 +294,21 @@ ## Bayes factor type: BFindepSample, JZS ``` -现在我们看到,正面效应相对于负面效应的贝叶斯因子要大得多(几乎是30)。 +现在我们看到,正面效应相对于负面效应的贝叶斯因子要大得多(几乎是 30)。 -#### 11.6.2.2解读贝叶斯因素 +#### 11.6.2.2 解读贝叶斯因素 -我们如何知道2或20的贝叶斯因子是好是坏?由[卡斯&拉弗蒂(1995)](https://www.andrew.cmu.edu/user/kk3n/simplicity/KassRaftery1995.pdf) 提出了解释贝叶斯因子的一般准则: +我们如何知道 2 或 20 的贝叶斯因子是好是坏?由[卡斯&拉弗蒂(1995)](https://www.andrew.cmu.edu/user/kk3n/simplicity/KassRaftery1995.pdf) 提出了解释贝叶斯因子的一般准则: | 男友 | 证据的力度 | | --- | --- | -| 1比3 | 不值一提 | -| 3到20岁 | 积极的 | -| 20到150 | 强烈的 | +| 1 比 3 | 不值一提 | +| 3 到 20 岁 | 积极的 | +| 20 到 150 | 强烈的 | | >150 | 很强 | 基于这一点,即使统计结果是重要的,支持替代假设和点零假设的证据数量是如此之少,以至于几乎不值得一提,而方向假设的证据却是相对有力的。 @@ -345,7 +345,7 @@ ## 11.8 建议读数 * 《不会消亡的理论:贝氏法则如何破解英格玛密码,追捕俄罗斯潜艇,并从两个世纪的争议中脱颖而出》 -* *做贝叶斯数据分析:R的教程介绍*,作者John K. Kruschke +* *做贝叶斯数据分析:R 的教程介绍*,作者 John K. Kruschke @@ -357,7 +357,7 @@ ### 11.9.1 拒绝取样 -我们将使用一种称为 [*拒绝抽样*](https://am207.github.io/2017/wiki/rejectionsampling.html) 的简单算法,从我们的后验分布中生成样本。其思路是我们选择一个随机值x(本例中为prespondp _ { respond })和一个随机值y(本例中 prespondp _ { respond })的后验概率各自来自一个均匀分布。 我们这时只接受样本如果y<f()y<——在这种情况下,如果随机选取的值? )。 +我们将使用一种称为 [*拒绝抽样*](https://am207.github.io/2017/wiki/rejectionsampling.html) 的简单算法,从我们的后验分布中生成样本。其思路是我们选择一个随机值 x(本例中为prespondp _ { respond })和一个随机值 y(本例中 prespondp _ { respond })的后验概率各自来自一个均匀分布。 我们这时只接受样本如果y<f()y<——在这种情况下,如果随机选取的值? )。 | | x | | --- | --- | @@ -366,7 +366,7 @@ ![Rejection sampling example.The black line shows the density of all possible values of p(respond); the blue lines show the 2.5th and 97.5th percentiles of the distribution, which represent the 95 percent credible interval for the estimate of p(respond).](img/file65.png) -图11.6:剔除抽样示例。黑线表示p(响应)所有可能值的密度;蓝线显示分布的2.5和97.5个百分点,代表p(响应)估计值的95%可信区间。 +图 11.6:剔除抽样示例。黑线表示 p(响应)所有可能值的密度;蓝线显示分布的 2.5 和 97.5 个百分点,代表 p(响应)估计值的 95%可信区间。 diff --git a/docs/12.md b/docs/12.md index efc17ac..91701bd 100644 --- a/docs/12.md +++ b/docs/12.md @@ -8,7 +8,7 @@ ## 12.1 示例:糖果色 -比方说,我购买了一袋100颗糖果,标签上标明有1/3巧克力、1/3巧克力糖和1/3口香糖。当我数袋子里的糖果时,我们得到了下面的数字:30块巧克力,33块巧克力糖和37块口香糖球。因为比起甘草糖或口香糖,我更喜欢巧克力,所以我觉得有点被骗了,我想知道这是否只是一个偶然事件。要回答这个问题,我需要知道:如果每种糖果类型的真实概率是每种糖果的1/3的平均比例,那么计数结果是这样的可能性有多大? +比方说,我购买了一袋 100 颗糖果,标签上标明有 1/3 巧克力、1/3 巧克力糖和 1/3 口香糖。当我数袋子里的糖果时,我们得到了下面的数字:30 块巧克力,33 块巧克力糖和 37 块口香糖球。因为比起甘草糖或口香糖,我更喜欢巧克力,所以我觉得有点被骗了,我想知道这是否只是一个偶然事件。要回答这个问题,我需要知道:如果每种糖果类型的真实概率是每种糖果的 1/3 的平均比例,那么计数结果是这样的可能性有多大? @@ -16,28 +16,28 @@ ## 12.2 皮尔森卡方检验 -Pearson卡方检验为我们提供了一种方法来检验一组观察计数是否不同于定义零假设的某些特定期望值: +Pearson 卡方检验为我们提供了一种方法来检验一组观察计数是否不同于定义零假设的某些特定期望值: = 【I】) 在我们的糖果例子中,零假设是每种糖果的比例相等。为了计算卡方统计量,我们首先需要在零假设下得出我们的预期计数:因为零假设是它们都是相同的,那么这就是跨三个类别的总计数(如表 [12.1](#tab:candyDf) 所示)。然后,我们取每个计数与其在零假设下的期望值之间的差,将它们平方,除以零期望值,然后将它们相加,得到卡方统计量。 Table 12.1: Observed counts, expectations under the null hypothesis, and squared differences in the candy data -| 糖果型 | 数数 | null期望 | 平方差 | +| 糖果型 | 数数 | null 期望 | 平方差 | | --- | --- | --- | --- | | 巧克力 | Thirty | Thirty-three | Eleven point one one | | 欧亚甘草 | Thirty-three | Thirty-three | Zero point one one | | 球形口香糖 | Thirty-seven | Thirty-three | Thirteen point four four | -此分析的卡方统计结果为0.74,这本身是不可解释的,因为它取决于不同值相加的数量。但是,我们可以利用卡方统计量是根据零假设下的特定分布分布的这一事实,这种分布称为*卡方*分布。这个分布被定义为一组标准正态随机变量的平方和;它的自由度数量等于变量相加的数量。分布的形状取决于自由度的数量。图 [12.1](#fig:chisqDist) 的左图显示了几个不同自由度的分布示例。 +此分析的卡方统计结果为 0.74,这本身是不可解释的,因为它取决于不同值相加的数量。但是,我们可以利用卡方统计量是根据零假设下的特定分布分布的这一事实,这种分布称为*卡方*分布。这个分布被定义为一组标准正态随机变量的平方和;它的自由度数量等于变量相加的数量。分布的形状取决于自由度的数量。图 [12.1](#fig:chisqDist) 的左图显示了几个不同自由度的分布示例。 ![Left: Examples of the chi-squared distribution for various degrees of freedom. Right: Simulation of sum of squared random normal variables. The histogram is based on the sum of squares of 50,000 sets of 8 random normal variables; the dotted line shows the values of the theoretical chi-squared distribution with 8 degrees of freedom.](img/file66.png) -图12.1:左图:不同自由度的卡方分布示例。右图:随机正态变量平方和的模拟。直方图基于5万组8个随机正态变量的平方和;虚线显示了具有8个自由度的理论卡方分布的值。 +图 12.1:左图:不同自由度的卡方分布示例。右图:随机正态变量平方和的模拟。直方图基于 5 万组 8 个随机正态变量的平方和;虚线显示了具有 8 个自由度的理论卡方分布的值。 -让我们使用模拟来验证卡方分布是否准确描述了一组标准正态随机变量的平方和。为了做到这一点,我们反复抽取8个随机数的集合,并在平方每个值后将每个集合相加。图 [12.1](#fig:chisqDist) 的右图显示,理论分布与一组随机正态变量的平方反复相加的模拟结果非常匹配。 +让我们使用模拟来验证卡方分布是否准确描述了一组标准正态随机变量的平方和。为了做到这一点,我们反复抽取 8 个随机数的集合,并在平方每个值后将每个集合相加。图 [12.1](#fig:chisqDist) 的右图显示,理论分布与一组随机正态变量的平方反复相加的模拟结果非常匹配。 -以糖果为例,在所有糖果频率相等的零假设下,我们可以计算观察到的卡方值为0.74的可能性。我们使用自由度等于k - 1(其中k =类别数)的卡方分布,因为我们在计算平均值以生成期望值时损失了一个自由度。得到的P值(P(卡方)> 0.74 = 0.691)表明,根据糖果袋上印刷的比例,观察到的糖果数量并不特别令人惊讶,我们不会拒绝相等比例的无效假设。 +以糖果为例,在所有糖果频率相等的零假设下,我们可以计算观察到的卡方值为 0.74 的可能性。我们使用自由度等于 k - 1(其中 k =类别数)的卡方分布,因为我们在计算平均值以生成期望值时损失了一个自由度。得到的 P 值(P(卡方)> 0.74 = 0.691)表明,根据糖果袋上印刷的比例,观察到的糖果数量并不特别令人惊讶,我们不会拒绝相等比例的无效假设。 @@ -55,7 +55,7 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是 | 错误的 | Thirty-six thousand two hundred and forty-four | Two hundred and thirty-nine thousand two hundred and forty-one | Zero point one three | Zero point eight six | | 真实的 | One thousand two hundred and nineteen | Three thousand one hundred and eight | Zero | Zero point zero one | -皮尔逊卡方检验允许我们测试观察到的频率是否与预期的频率不同,因此我们需要确定如果搜索和种族不相关,我们在每个细胞中预期的频率是多少——我们可以定义为*独立。*记住概率一章,如果X和Y是独立的,那么: +皮尔逊卡方检验允许我们测试观察到的频率是否与预期的频率不同,因此我们需要确定如果搜索和种族不相关,我们在每个细胞中预期的频率是多少——我们可以定义为*独立。*记住概率一章,如果 X 和 Y 是独立的,那么: P(XY)=P()*P边际概率就是不管其他事件如何,每个事件发生的概率。我们可以计算出那些边际概率,然后把它们相乘得到独立情况下的期望比例。 @@ -65,7 +65,7 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是 | 搜查 | P(S)*P(B) | P(S)*P(W) | P(S) | | | P(B) | P(W) | | -然后,我们计算卡方统计,得出828.3。要计算p值,我们需要将其与零卡方分布进行比较,以确定我们的卡方值与零假设下的预期值相比有多极端。这种分布的自由度是df=(nRows1* (nColumns-df =(nRows-1)*(nColumns-1) df=(2—T78】1*(2 这里的直觉是,计算预期频率需要我们使用三个值:观察的总数和两个变量的边际概率。因此,一旦计算出这些值,只有一个数字可以自由变化,因此有一个自由度。考虑到这一点,我们可以计算卡方统计的p值,它几乎接近于零:3.79×101823.79 \次10^{-182}这表明,如果种族和警察搜查之间真的没有关系,观察到的数据将是极不可能的,因此我们应该拒绝独立性的零假设。 +然后,我们计算卡方统计,得出 828.3。要计算 p 值,我们需要将其与零卡方分布进行比较,以确定我们的卡方值与零假设下的预期值相比有多极端。这种分布的自由度是df=(nRows1* (nColumns-df =(nRows-1)*(nColumns-1) df=(2—T78】1*(2 这里的直觉是,计算预期频率需要我们使用三个值:观察的总数和两个变量的边际概率。因此,一旦计算出这些值,只有一个数字可以自由变化,因此有一个自由度。考虑到这一点,我们可以计算卡方统计的 p 值,它几乎接近于零:3.79×101823.79 \次 10^{-182}这表明,如果种族和警察搜查之间真的没有关系,观察到的数据将是极不可能的,因此我们应该拒绝独立性的零假设。 我们还可以使用我们的统计软件轻松执行该测试: @@ -85,12 +85,12 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是 当我们发现卡方检验有显著影响时,这告诉我们数据在零假设下不太可能,但它没有告诉我们*数据如何*不同。为了更深入地了解数据与我们在零假设下的预期有何不同,我们可以检查模型的残差,它反映了每个像元中数据(即观察到的频率)与模型(即预期的频率)的偏差。与其查看原始残差(其变化仅取决于数据中的观测值数量),不如查看*标准化残差*(有时也称为*皮尔逊残差*),其计算方法如下: -standardIzedres bservedIje ectedIj标准化\残差_{ij} = \frac{observed_{ij} -预期 +standardIzedres bservedIje ectedIj标准化\残差 _{ij} = \frac{observed_{ij} -预期 -表 [12.3](#tab:stdRes) 显示了这些警察停车数据。这些标准化的残差可以解释为Z分数——在这种情况下,我们看到黑人个体的搜索次数大大高于基于独立性的预期,白人个体的搜索次数大大低于预期。这为我们提供了解释显著的卡方检验结果所需的背景。 +表 [12.3](#tab:stdRes) 显示了这些警察停车数据。这些标准化的残差可以解释为 Z 分数——在这种情况下,我们看到黑人个体的搜索次数大大高于基于独立性的预期,白人个体的搜索次数大大低于预期。这为我们提供了解释显著的卡方检验结果所需的背景。 Table 12.3: Summary of standardized residuals for police stop data -| 搜查 | 车手_比赛 | 标准化残差 | +| 搜查 | 车手 _ 比赛 | 标准化残差 | | --- | --- | --- | | 错误的 | 黑色 | -3.3 | | 真实的 | 黑色 | Twenty-six point six | @@ -109,7 +109,7 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是 【h】【我】=【s】【e】【a】【r】【c】 已搜索\ cap white } } = \ frac { 3108 } { 239241 } = 0.013【T1148】 【b】【l】【a】【c】【k】 -根据这个数据集,赔率显示,黑人司机被搜索的几率是白人司机的2.59倍。 +根据这个数据集,赔率显示,黑人司机被搜索的几率是白人司机的 2.59 倍。 @@ -136,11 +136,11 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是 -## 12.7 超出2 X 2表格的分类分析 +## 12.7 超出 2 X 2 表格的分类分析 类别分析也可以应用于列联表,其中每个变量有两个以上的类别。 -例如,让我们看看NHANES的数据,并比较变量*抑郁*,它表示“参与者自我报告的感到情绪低落、抑郁或绝望的天数”。该变量编码为`None`、`Several`或`Most`。让我们来测试这个变量是否与 *SleepTrouble* 变量相关,后者表示个人是否向医生报告了睡眠问题。 +例如,让我们看看 NHANES 的数据,并比较变量*抑郁*,它表示“参与者自我报告的感到情绪低落、抑郁或绝望的天数”。该变量编码为`None`、`Several`或`Most`。让我们来测试这个变量是否与 *SleepTrouble* 变量相关,后者表示个人是否向医生报告了睡眠问题。 Table 12.4: Relationship between depression and sleep problems in the NHANES dataset | 沮丧的 | 无睡眠问题 | 是睡眠问题 | @@ -180,7 +180,7 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是 ## 当心辛普森悖论 -上面给出的列联表代表了大量观察结果的汇总,但汇总有时会产生误导。让我们举一个棒球的例子。下表显示了德瑞克·基特和大卫·贾斯蒂斯在1995-1997年间的击球数据(击球次数和平均击球率): +上面给出的列联表代表了大量观察结果的汇总,但汇总有时会产生误导。让我们举一个棒球的例子。下表显示了德瑞克·基特和大卫·贾斯蒂斯在 1995-1997 年间的击球数据(击球次数和平均击球率): | 运动员 | One thousand nine hundred and ninety-five | | One thousand nine hundred and ninety-six | | One thousand nine hundred and ninety-seven | | 结合的 | | @@ -188,7 +188,7 @@ Pearson卡方检验为我们提供了一种方法来检验一组观察计数是 | 德瑞克·基特 | 12/48 | .250 | 183/582 | .314 | 190/654 | .291 | 385/1284 | **.300** | | 大卫·贾斯蒂斯 | 104/411 | **.253** | 45/140 | **.321** | 163/495 | **.329** | 312/1046 | .298 | -如果你仔细观察,你会发现一些奇怪的事情正在发生:在每一年,正义的平均打击率都比杰特高,但当我们把三年的数据结合起来,杰特的平均打击率实际上比正义的高!这是一个被称为*辛普森悖论*的现象的例子,在这种现象中,出现在组合数据集中的模式可能不会出现在任何数据子集中。当另一个变量可能在不同的子集之间发生变化时,就会出现这种情况——在这种情况下,击球次数会随着年份的变化而变化,正义在1995年击球次数要多得多(当时击球率很低)。我们称之为*潜伏变量*,每当我们检查分类数据时,关注这些变量总是很重要的。 +如果你仔细观察,你会发现一些奇怪的事情正在发生:在每一年,正义的平均打击率都比杰特高,但当我们把三年的数据结合起来,杰特的平均打击率实际上比正义的高!这是一个被称为*辛普森悖论*的现象的例子,在这种现象中,出现在组合数据集中的模式可能不会出现在任何数据子集中。当另一个变量可能在不同的子集之间发生变化时,就会出现这种情况——在这种情况下,击球次数会随着年份的变化而变化,正义在 1995 年击球次数要多得多(当时击球率很低)。我们称之为*潜伏变量*,每当我们检查分类数据时,关注这些变量总是很重要的。 diff --git a/docs/13.md b/docs/13.md index f1ad33a..8cbe1ba 100644 --- a/docs/13.md +++ b/docs/13.md @@ -8,11 +8,11 @@ ## 一个例子:仇恨犯罪和收入不平等 -2017年,Fivethirtyeight.com网站发表了一篇名为 [*的报道,仇恨犯罪的高发生率与收入不平等有关*](https://fivethirtyeight.com/features/higher-rates-of-hate-crimes-are-tied-to-income-inequality/) ,该报道讨论了2016年总统大选后仇恨犯罪的流行与收入不平等之间的关系。这篇报道报道了美国联邦调查局和南方贫困法律中心对仇恨犯罪数据的分析,在此基础上,他们报告说: +2017 年,Fivethirtyeight.com 网站发表了一篇名为 [*的报道,仇恨犯罪的高发生率与收入不平等有关*](https://fivethirtyeight.com/features/higher-rates-of-hate-crimes-are-tied-to-income-inequality/) ,该报道讨论了 2016 年总统大选后仇恨犯罪的流行与收入不平等之间的关系。这篇报道报道了美国联邦调查局和南方贫困法律中心对仇恨犯罪数据的分析,在此基础上,他们报告说: > “我们发现,收入不平等是美国各地人口调整后的仇恨犯罪和仇恨事件的最重要决定因素”。 -用于这种分析的数据可以作为R统计软件的`fivethirtyeight`包的一部分获得,这使得我们很容易访问它们。报道中的分析集中在收入不平等(由一个叫做*基尼指数*的数量定义——更多细节见附录)和各州仇恨犯罪流行率之间的关系。 +用于这种分析的数据可以作为 R 统计软件的`fivethirtyeight`包的一部分获得,这使得我们很容易访问它们。报道中的分析集中在收入不平等(由一个叫做*基尼指数*的数量定义——更多细节见附录)和各州仇恨犯罪流行率之间的关系。 @@ -22,7 +22,7 @@ ![Plot of rates of hate crimes vs. Gini index.](img/file67.png) -图13.1:仇恨犯罪率与基尼指数的关系图。 +图 13.1:仇恨犯罪率与基尼指数的关系图。 收入不平等和仇恨犯罪率之间的关系如图 [13.1](#fig:hateCrimeGini) 所示。从数据来看,这两个变量之间似乎可能存在正相关关系。我们如何量化这种关系? @@ -43,7 +43,7 @@ 当单个数据点偏离其各自平均值的量相似时,该值将远离零;如果它们在相同的方向上偏离,那么协方差是正的,而如果它们在相反的方向上偏离,那么协方差是负的。我们先来看一个玩具的例子。表 [13.1](#tab:covTable) 中显示了这些数据,以及它们与平均值的个别偏差和它们的叉积。 Table 13.1: Data for toy example of covariance -| x | y | y _开发 | x _开发 | 交叉乘积 | +| x | y | y _ 开发 | x _ 开发 | 交叉乘积 | | --- | --- | --- | --- | --- | | three | five | -3.6 | -4.6 | Sixteen point five six | | five | four | -4.6 | -2.6 | Eleven point nine six | @@ -51,19 +51,19 @@ | Ten | Ten | One point four | Two point four | Three point three six | | Twelve | Seventeen | Eight point four | Four point four | Thirty-six point nine six | -协方差就是叉积的平均值,在本例中为17.05。我们通常不使用协方差来描述变量之间的关系,因为它随数据的总体方差水平而变化。相反,我们通常会使用*相关系数*(通常被称为*皮尔逊相关*,以统计学家卡尔·皮尔逊命名)。相关性是通过用两个变量的标准偏差缩放协方差来计算的: +协方差就是叉积的平均值,在本例中为 17.05。我们通常不使用协方差来描述变量之间的关系,因为它随数据的总体方差水平而变化。相反,我们通常会使用*相关系数*(通常被称为*皮尔逊相关*,以统计学家卡尔·皮尔逊命名)。相关性是通过用两个变量的标准偏差缩放协方差来计算的: -r=covarIances n(xIx【‾(ysxsyr = \ frac {协方差} { s _ xs _ y } = \frac{\sum_{i=1}^n(x _ I-\ bar { x })(y _ I-\ bar { y })} {(n-n 相关系数是有用的,因为不管数据的性质如何,它都在-1和1之间变化。事实上,我们在前面讨论效应大小时已经讨论过相关系数。正如我们在前一章中看到的,相关性为1表示完全线性关系,相关性为-1表示完全负相关,相关性为零表示没有线性关系。 +r=covarIances n(xIx【‾(ysxsyr = \ frac {协方差} { s _ xs _ y } = \frac{\sum_{i=1}^n(x _ I-\ bar { x })(y _ I-\ bar { y })} {(n-n 相关系数是有用的,因为不管数据的性质如何,它都在-1 和 1 之间变化。事实上,我们在前面讨论效应大小时已经讨论过相关系数。正如我们在前一章中看到的,相关性为 1 表示完全线性关系,相关性为-1 表示完全负相关,相关性为零表示没有线性关系。 ### 13.3.1 相关性假设检验 -仇恨犯罪和收入不平等之间的相关值为0.42,这似乎表明两者之间有相当强的关系,但我们也可以想象,即使没有关系,这也可能是偶然发生的。我们可以使用一个简单的等式将相关值转换成一个 *t* 统计量,来测试相关性为零的零假设: +仇恨犯罪和收入不平等之间的相关值为 0.42,这似乎表明两者之间有相当强的关系,但我们也可以想象,即使没有关系,这也可能是偶然发生的。我们可以使用一个简单的等式将相关值转换成一个 *t* 统计量,来测试相关性为零的零假设: 【hoshi】【r】=【r】 -在零假设下H0:r=0H _ 0:r = 0,这个统计量分布为一个带有N2的t分布我们可以用我们的统计软件来计算: +在零假设下H0:r=0H _ 0:r = 0,这个统计量分布为一个带有N2的 t 分布我们可以用我们的统计软件来计算: ``` ## @@ -79,13 +79,13 @@ ## 0.42 ``` -这一检验表明,在零假设下,r值达到或超过这一极值的可能性相当低,因此我们拒绝零假设r=0r = 0。注意,这个测试假设两个变量都是正态分布的。 +这一检验表明,在零假设下,r 值达到或超过这一极值的可能性相当低,因此我们拒绝零假设r=0r = 0。注意,这个测试假设两个变量都是正态分布的。 -我们也可以通过随机化来测试这一点,在随机化中,我们反复打乱其中一个变量的值并计算相关性,然后将我们观察到的相关值与该零分布进行比较,以确定我们观察到的值在零假设下的可能性有多大。结果如图 [13.2](#fig:shuffleCorr) 所示。使用随机化计算的p值相当类似于t检验给出的答案。 +我们也可以通过随机化来测试这一点,在随机化中,我们反复打乱其中一个变量的值并计算相关性,然后将我们观察到的相关值与该零分布进行比较,以确定我们观察到的值在零假设下的可能性有多大。结果如图 [13.2](#fig:shuffleCorr) 所示。使用随机化计算的 p 值相当类似于 t 检验给出的答案。 ![Histogram of correlation values under the null hypothesis, obtained by shuffling values. Observed value is denoted by blue line.](img/file68.png) -图13.2:零假设下相关值的直方图,通过混排值获得。观察值用蓝线表示。 +图 13.2:零假设下相关值的直方图,通过混排值获得。观察值用蓝线表示。 我们也可以使用贝叶斯推理来估计相关性;请参阅附录了解更多相关信息。 @@ -99,9 +99,9 @@ ![An simulated example of the effects of outliers on correlation. Without the outlier the remainder of the datapoints have a perfect negative correlation, but the single outlier changes the correlation value to highly positive.](img/file69.png) -图13.3:异常值对相关性影响的模拟示例。在没有异常值的情况下,其余的数据点具有完美的负相关,但是单个异常值将相关值变为高度正相关。 +图 13.3:异常值对相关性影响的模拟示例。在没有异常值的情况下,其余的数据点具有完美的负相关,但是单个异常值将相关值变为高度正相关。 -解决异常值的一种方法是在排序后计算数据等级的相关性,而不是数据本身的相关性;这就是所谓的*斯皮尔曼相关*。图 [13.3](#fig:outlierCorr) 中的例子的皮尔逊相关性为0.83,而斯皮尔曼相关性为-0.45,表明等级相关性降低了异常值的影响,并反映了大多数数据点之间的负相关关系。 +解决异常值的一种方法是在排序后计算数据等级的相关性,而不是数据本身的相关性;这就是所谓的*斯皮尔曼相关*。图 [13.3](#fig:outlierCorr) 中的例子的皮尔逊相关性为 0.83,而斯皮尔曼相关性为-0.45,表明等级相关性降低了异常值的影响,并反映了大多数数据点之间的负相关关系。 我们还可以计算仇恨犯罪数据的等级相关性: @@ -117,7 +117,7 @@ ## 0.033 ``` -现在我们看到相关性不再显著(事实上非常接近于零),这表明由于异常值的影响,FiveThirtyEight博客帖子的说法可能是不正确的。 +现在我们看到相关性不再显著(事实上非常接近于零),这表明由于异常值的影响,FiveThirtyEight 博客帖子的说法可能是不正确的。 @@ -127,9 +127,9 @@ ## 13.4 关联和因果关系 -当我们说一件事*引起另一件事*时,我们指的是什么?在哲学中,关于因果关系的意义的讨论有很长的历史,但是在统计学中,我们通常认为因果关系的一种方式是根据实验控制。也就是说,如果我们认为因素X导致因素Y,那么操纵X的值也应该改变Y的值。 +当我们说一件事*引起另一件事*时,我们指的是什么?在哲学中,关于因果关系的意义的讨论有很长的历史,但是在统计学中,我们通常认为因果关系的一种方式是根据实验控制。也就是说,如果我们认为因素 X 导致因素 Y,那么操纵 X 的值也应该改变 Y 的值。 -在医学上,有一套被称为 [*科赫公设*](https://en.wikipedia.org/wiki/Koch%27s_postulates) 的想法,历史上曾被用于确定某一特定生物体是否会引发疾病。基本思想是,这种微生物应该存在于患病人群中,而不存在于未患病人群中——因此,消除这种微生物的治疗也应该消除疾病。此外,用这种有机体感染某人会导致他们感染这种疾病。这方面的一个例子见于Barry Marshall博士的工作,他假设胃溃疡是由细菌引起的(*幽门螺杆菌*)。为了证明这一点,他用这种细菌感染了自己,此后不久,他的胃部出现了严重的炎症。然后他用抗生素治疗自己,他的胃很快就恢复了。他后来因为这项工作获得了诺贝尔医学奖。 +在医学上,有一套被称为 [*科赫公设*](https://en.wikipedia.org/wiki/Koch%27s_postulates) 的想法,历史上曾被用于确定某一特定生物体是否会引发疾病。基本思想是,这种微生物应该存在于患病人群中,而不存在于未患病人群中——因此,消除这种微生物的治疗也应该消除疾病。此外,用这种有机体感染某人会导致他们感染这种疾病。这方面的一个例子见于 Barry Marshall 博士的工作,他假设胃溃疡是由细菌引起的(*幽门螺杆菌*)。为了证明这一点,他用这种细菌感染了自己,此后不久,他的胃部出现了严重的炎症。然后他用抗生素治疗自己,他的胃很快就恢复了。他后来因为这项工作获得了诺贝尔医学奖。 我们经常想测试因果假设,但我们不能实际做实验,因为这是不可能的(“人类碳排放和地球气候之间有什么关系?”)或者不道德(“严重虐待对孩子大脑发育有什么影响?”).然而,我们仍然可以收集可能与这些问题相关的数据。例如,我们可以从受虐待和未受虐待的儿童那里收集数据,然后我们可以询问他们的大脑发育是否不同。 @@ -145,11 +145,11 @@ ![A graph showing causal relationships between three variables: study time, exam grades, and exam finishing time. A green arrow represents a positive relationship (i.e. more study time causes exam grades to increase), and a red arrow represents a negative relationship (i.e. more study time causes faster completion of the exam).](img/file70.png) -图13.4:显示三个变量之间因果关系的图表:学习时间、考试成绩和考试结束时间。绿色箭头表示正相关关系(即更多的学习时间导致考试成绩提高),红色箭头表示负相关关系(即更多的学习时间导致更快完成考试)。 +图 13.4:显示三个变量之间因果关系的图表:学习时间、考试成绩和考试结束时间。绿色箭头表示正相关关系(即更多的学习时间导致考试成绩提高),红色箭头表示负相关关系(即更多的学习时间导致更快完成考试)。 ![A graph showing the same causal relationships as above, but now also showing the latent variable (knowledge) using a square box.](img/file71.png) -图13.5:一个图表显示了与上面相同的因果关系,但是现在也用一个方框显示了潜在变量(知识)。 +图 13.5:一个图表显示了与上面相同的因果关系,但是现在也用一个方框显示了潜在变量(知识)。 这里我们可以说,知识*调节了*学习时间和成绩/完成时间之间的关系。这意味着,如果我们能够保持知识不变(例如,通过服用一种导致立即遗忘的药物),那么学习时间的长短就不再会对成绩和完成时间产生影响。 @@ -190,15 +190,15 @@ ### 13.7.1 量化不平等:基尼指数 -在我们看这篇报道中的分析之前,首先有必要了解基尼指数是如何用来量化不平等的。基尼指数通常被定义为一条曲线,描述收入与收入等于或低于该水平的人口比例之间的关系,称为*洛伦茨曲线*。然而,另一种思考方式更直观:它是收入之间的相对平均绝对差除以二(来自https://en.wikipedia.org/wiki/Gini_coefficient[):](https://en.wikipedia.org/wiki/Gini_coefficient) +在我们看这篇报道中的分析之前,首先有必要了解基尼指数是如何用来量化不平等的。基尼指数通常被定义为一条曲线,描述收入与收入等于或低于该水平的人口比例之间的关系,称为*洛伦茨曲线*。然而,另一种思考方式更直观:它是收入之间的相对平均绝对差除以二(来自 https://en.wikipedia.org/wiki/Gini_coefficient[):](https://en.wikipedia.org/wiki/Gini_coefficient) 【g】= 【I】【t】 ![Lorenz curves for A) perfect equality, B) normally distributed income, and C) high inequality (equal income except for one very wealthy individual).](img/file72.png) -图13.6:洛伦茨曲线表示A)完全平等,B)正常分配的收入,以及C)高度不平等(除了一个非常富有的人之外,收入相等)。 +图 13.6:洛伦茨曲线表示 A)完全平等,B)正常分配的收入,以及 C)高度不平等(除了一个非常富有的人之外,收入相等)。 -图 [13.6](#fig:gini0) 显示了几种不同收入分布的洛伦兹曲线。左上图(A)显示了一个有10个人的例子,其中每个人的收入完全相同。两点之间的间隔长度相等,表明每个人在总收入中所占的份额相同。右上角的面板(B)显示了收入正态分布的示例。左下方的面板显示了一个高度不平等的示例;每个人都有相等的收入(40,000美元),除了一个人,他的收入为40,000,000美元。根据美国人口普查,2010年美国的基尼指数为0.469,大约介于正态分布和最大不平等之间。 +图 [13.6](#fig:gini0) 显示了几种不同收入分布的洛伦兹曲线。左上图(A)显示了一个有 10 个人的例子,其中每个人的收入完全相同。两点之间的间隔长度相等,表明每个人在总收入中所占的份额相同。右上角的面板(B)显示了收入正态分布的示例。左下方的面板显示了一个高度不平等的示例;每个人都有相等的收入(40,000 美元),除了一个人,他的收入为 40,000,000 美元。根据美国人口普查,2010 年美国的基尼指数为 0.469,大约介于正态分布和最大不平等之间。 @@ -206,7 +206,7 @@ ### 13.7.2 贝叶斯相关分析 -我们还可以使用贝叶斯分析来分析FiveThirtyEight数据,这有两个优点。首先,它为我们提供了后验概率——在这种情况下,是相关值超过零的概率。第二,贝叶斯估计将观察到的证据与之前的*相结合,这具有*正则化*相关性估计的效果,有效地将其拉向零。这里我们可以用r中的 *BayesFactor* 包来计算* +我们还可以使用贝叶斯分析来分析 FiveThirtyEight 数据,这有两个优点。首先,它为我们提供了后验概率——在这种情况下,是相关值超过零的概率。第二,贝叶斯估计将观察到的证据与之前的*相结合,这具有*正则化*相关性估计的效果,有效地将其拉向零。这里我们可以用 r 中的 *BayesFactor* 包来计算* *``` ## Bayes factor analysis @@ -227,7 +227,7 @@ ## rho | 0.38 | [0.13, 0.58] | 99.88% | [-0.05, 0.05] | 0% | 20.85 | Beta (3 +- 3) ``` -请注意,使用贝叶斯方法估计的相关性(0.38)略小于使用标准相关系数估计的相关性(0.42),这是因为估计是基于证据和先验的组合,这有效地将估计缩小到零。但是,请注意,贝叶斯分析对异常值并不稳健,它仍然表示有相当强的证据表明相关性大于零(贝叶斯因子大于20)。* +请注意,使用贝叶斯方法估计的相关性(0.38)略小于使用标准相关系数估计的相关性(0.42),这是因为估计是基于证据和先验的组合,这有效地将估计缩小到零。但是,请注意,贝叶斯分析对异常值并不稳健,它仍然表示有相当强的证据表明相关性大于零(贝叶斯因子大于 20)。* diff --git a/docs/14.md b/docs/14.md index 5f4014b..47083e0 100644 --- a/docs/14.md +++ b/docs/14.md @@ -4,7 +4,7 @@ 请记住,在本书的前面,我们描述了统计学的基本模型: -data=model+error在这一章中,我们将关注这种方法的一种特殊实现,它被称为*一般线性模型*(或GLM)。您已经在前面关于将模型与数据拟合的章节中看到了一般的线性模型,其中我们将NHANES数据集中的身高建模为年龄的函数;在这里,我们将对GLM的概念和它的许多用途提供一个更一般的介绍。统计中使用的几乎每一个模型都可以用一般线性模型或它的扩展来描述。 +data=model+error 在这一章中,我们将关注这种方法的一种特殊实现,它被称为*一般线性模型*(或 GLM)。您已经在前面关于将模型与数据拟合的章节中看到了一般的线性模型,其中我们将 NHANES 数据集中的身高建模为年龄的函数;在这里,我们将对 GLM 的概念和它的许多用途提供一个更一般的介绍。统计中使用的几乎每一个模型都可以用一般线性模型或它的扩展来描述。 在我们讨论一般线性模型之前,让我们首先定义两个对我们的讨论很重要的术语: @@ -17,7 +17,7 @@ ![Relation between study time and grades](img/file73.png) -图14.1:学习时间和成绩之间的关系 +图 14.1:学习时间和成绩之间的关系 举个例子,我们来生成一些学习时间与考试成绩关系的模拟数据(见图 [14.1](#fig:StudytimeGrades) )。鉴于这些数据,我们可能希望参与统计的三项基本活动: @@ -41,7 +41,7 @@ ## 0.63 ``` -相关性非常高,但是请注意,估计值的置信区间非常宽,几乎跨越了从0到1的整个范围,这在一定程度上是由于样本量小。 +相关性非常高,但是请注意,估计值的置信区间非常宽,几乎跨越了从 0 到 1 的整个范围,这在一定程度上是由于样本量小。 @@ -49,17 +49,17 @@ 我们可以使用一般线性模型来描述两个变量之间的关系,并确定这种关系是否具有统计显著性;此外,该模型允许我们在给定自变量的一些新值的情况下预测因变量的值。最重要的是,一般线性模型将允许我们建立包含多个独立变量的模型,而相关系数只能描述两个独立变量之间的关系。 -我们为此使用的GLM的具体版本被称为*线性回归*。术语*回归*是由弗朗西斯·高尔顿创造的,他注意到当他比较父母和他们的孩子的某些特征(如身高)时,极端父母(即非常高或非常矮的父母)的孩子通常比他们的父母更接近平均值。这是一个极其重要的问题,我们将在下面讨论。 +我们为此使用的 GLM 的具体版本被称为*线性回归*。术语*回归*是由弗朗西斯·高尔顿创造的,他注意到当他比较父母和他们的孩子的某些特征(如身高)时,极端父母(即非常高或非常矮的父母)的孩子通常比他们的父母更接近平均值。这是一个极其重要的问题,我们将在下面讨论。 线性回归模型的最简单版本(具有单个独立变量)可以表示如下: -y=x*βx+β0+ϵy = x * \ beta _ x+\ beta _ 0+\ epsilon截距β0\β_ 0是一个整体偏移量,它告诉我们当x=0x = 0【0】时,我们期望y具有什么值您可能还记得,在我们早期的建模讨论中,即使xx实际上从未达到零值,对数据的总体大小建模也很重要。误差术语ϵ指的是模型拟合后剩下的东西;我们通常将这些称为模型的*残差*。如果我们想知道如何预测y(我们称之为ŷ\ hat { y })在我们估计了\ beta的值之后,那么我们可以去掉误差项: +y=x*βx+β0+ϵy = x * \ beta _ x+\ beta _ 0+\ epsilon截距β0\β_ 0是一个整体偏移量,它告诉我们当x=0x = 0【0】时,我们期望 y 具有什么值您可能还记得,在我们早期的建模讨论中,即使xx实际上从未达到零值,对数据的总体大小建模也很重要。误差术语ϵ指的是模型拟合后剩下的东西;我们通常将这些称为模型的*残差*。如果我们想知道如何预测 y(我们称之为ŷ\ hat { y })在我们估计了\ beta的值之后,那么我们可以去掉误差项: ŷ=x*βx̂+β̂ 其中βx̂\ hat【beta _ x】是我们对斜率的估计而̂【T77】 图 14.2 显示了该模型应用于研究时间数据的示例。 ![The linear regression solution for the study time data is shown in the solid line The value of the intercept is equivalent to the predicted value of the y variable when the x variable is equal to zero; this is shown with a dotted line. The value of beta is equal to the slope of the line -- that is, how much y changes for a unit change in x. This is shown schematically in the dashed lines, which show the degree of increase in grade for a single unit increase in study time.](img/file74.png) -图14.2:研究时间数据的线性回归解以实线表示。当x变量等于零时,截距值相当于y变量的预测值;这用虚线表示。β的值等于直线的斜率,即x的单位变化对应y的变化量。虚线示意性地显示了这一点,它显示了学习时间每增加一个单位,成绩增加的程度。 +图 14.2:研究时间数据的线性回归解以实线表示。当 x 变量等于零时,截距值相当于 y 变量的预测值;这用虚线表示。β的值等于直线的斜率,即 x 的单位变化对应 y 的变化量。虚线示意性地显示了这一点,它显示了学习时间每增加一个单位,成绩增加的程度。 我们不会详细讨论最佳拟合斜率和截距实际上是如何从数据中估算出来的;如果你感兴趣,详情请见附录。 @@ -67,15 +67,15 @@ ### 14.1.1 回归到平均值 -回归平均值的概念是高尔顿对科学的重要贡献之一,当我们解释实验数据分析的结果时,这仍然是一个需要理解的关键点。假设我们想研究阅读干预对不良读者表现的影响。为了检验我们的假设,我们可以去一所学校,招募那些在阅读测试中处于底层25%的人,进行干预,然后在干预后检查他们在测试中的表现。假设干预实际上没有效果,每个人的阅读分数只是正态分布中的独立样本。这个假设实验的计算机模拟结果在表 [14.1](#tab:readingTable) 中给出。 +回归平均值的概念是高尔顿对科学的重要贡献之一,当我们解释实验数据分析的结果时,这仍然是一个需要理解的关键点。假设我们想研究阅读干预对不良读者表现的影响。为了检验我们的假设,我们可以去一所学校,招募那些在阅读测试中处于底层 25%的人,进行干预,然后在干预后检查他们在测试中的表现。假设干预实际上没有效果,每个人的阅读分数只是正态分布中的独立样本。这个假设实验的计算机模拟结果在表 [14.1](#tab:readingTable) 中给出。 Table 14.1: Reading scores for Test 1 (which is lower, because it was the basis for selecting the students) and Test 2 (which is higher because it was not related to Test 1). | | 得分 | | --- | --- | -| 测试1 | Eighty-eight | -| 测试2 | One hundred and one | +| 测试 1 | Eighty-eight | +| 测试 2 | One hundred and one | -如果我们看看第一次和第二次测试的平均成绩之间的差异,干预似乎对这些学生有很大的帮助,因为他们的分数在测试中上升了10多分!然而,我们知道,事实上学生们根本没有提高,因为在这两种情况下,分数只是从随机正态分布中选取的。所发生的情况是,一些学生在第一次考试中分数很低,仅仅是因为随机的机会。如果我们只根据他们的第一次测试分数来选择这些受试者,即使没有训练的影响,他们在第二次测试中肯定会回到整个群体的平均值。这就是为什么我们总是需要一个未经处理的对照组*来解释由于干预导致的任何性能变化;否则我们很可能被回归均值所欺骗。此外,需要将参与者随机分配到对照组或治疗组,以便各组之间不会有任何系统差异(平均而言)。* +如果我们看看第一次和第二次测试的平均成绩之间的差异,干预似乎对这些学生有很大的帮助,因为他们的分数在测试中上升了 10 多分!然而,我们知道,事实上学生们根本没有提高,因为在这两种情况下,分数只是从随机正态分布中选取的。所发生的情况是,一些学生在第一次考试中分数很低,仅仅是因为随机的机会。如果我们只根据他们的第一次测试分数来选择这些受试者,即使没有训练的影响,他们在第二次测试中肯定会回到整个群体的平均值。这就是为什么我们总是需要一个未经处理的对照组*来解释由于干预导致的任何性能变化;否则我们很可能被回归均值所欺骗。此外,需要将参与者随机分配到对照组或治疗组,以便各组之间不会有任何系统差异(平均而言)。* @@ -83,7 +83,7 @@ ### 14.1.2 相关性和回归的关系 -相关系数和回归系数之间有密切的关系。请记住,皮尔逊相关系数的计算方法是协方差与x和y的标准差乘积之比: +相关系数和回归系数之间有密切的关系。请记住,皮尔逊相关系数的计算方法是协方差与 x 和 y 的标准差乘积之比: r̂=covarIance @@ -93,7 +93,7 @@ 【c】【o】【v】【a】【r】【I】 -βx̂=r̂*sx*s sx=r*ssx 回归斜率等于相关值乘以y和x的标准偏差之比。这告诉我们,当x和y的标准偏差相同时(例如,当数据已转换为Z分数时),则相关估计值等于回归斜率估计值。 +βx̂=r̂*sx*s sx=r*ssx 回归斜率等于相关值乘以 y 和 x 的标准偏差之比。这告诉我们,当 x 和 y 的标准偏差相同时(例如,当数据已转换为 Z 分数时),则相关估计值等于回归斜率估计值。 @@ -107,11 +107,11 @@ sserror=I=1n 2=I=1nres -MSerror=Serr =1n(yIyÎ 这里的自由度(dfdf)是通过减去估计参数的数量确定的(本例中为2:βx 一旦有了均方误差,我们就可以计算模型的标准误差,如下所示: +MSerror=Serr =1n(yIyÎ 这里的自由度(dfdf)是通过减去估计参数的数量确定的(本例中为 2:βx 一旦有了均方误差,我们就可以计算模型的标准误差,如下所示: se【m】d【t】 -为了得到特定回归参数估计值的标准误差,SEβXSE _【beta _ X】,我们需要通过X变量平方和的平方根来重新调整模型的标准误差: +为了得到特定回归参数估计值的标准误差,SEβXSE _【beta _ X】,我们需要通过 X 变量平方和的平方根来重新调整模型的标准误差: set )【se _ { \ hat } _ beta } _ x = \ frac { t } @@ -119,13 +119,13 @@ -### 14.1.4回归参数的统计测试 +### 14.1.4 回归参数的统计测试 一旦我们有了参数估计值和它们的标准误差,我们就可以计算一个 *t* 统计量来告诉我们观察到的参数估计值与零假设下的某个期望值相比的可能性。在这种情况下我们将针对无效的零假设进行检验(即【β】=0\β= 0): n p【T1129】=【T1130】【β】 -一般来说,我们会使用统计软件来计算这些,而不是手工计算。以下是R中线性模型函数的结果: +一般来说,我们会使用统计软件来计算这些,而不是手工计算。以下是 R 中线性模型函数的结果: ``` ## @@ -148,7 +148,7 @@ ## F-statistic: 4.05 on 1 and 6 DF, p-value: 0.0907 ``` -在这种情况下,我们看到截距明显不同于零(这并不十分有趣),学习时间对成绩的影响是微小的(p = .09),与我们之前进行的相关性测试的p值相同。 +在这种情况下,我们看到截距明显不同于零(这并不十分有趣),学习时间对成绩的影响是微小的(p = .09),与我们之前进行的相关性测试的 p 值相同。 @@ -156,7 +156,7 @@ ### 14.1.5 量化模型的拟合优度 -有时,量化模型与数据的总体拟合程度是很有用的,一种方法是询问模型考虑了多少数据的可变性。这是用一个叫做r2r^2的值来量化的(也称为*决定系数*)。如果只有一个x变量,那么只需计算相关系数的平方就很容易计算出来: +有时,量化模型与数据的总体拟合程度是很有用的,一种方法是询问模型考虑了多少数据的可变性。这是用一个叫做r2r^2的值来量化的(也称为*决定系数*)。如果只有一个 x 变量,那么只需计算相关系数的平方就很容易计算出来: r2=r2r^2 = r^2就我们学习时间的例子来说,r2=时间 @@ -180,7 +180,7 @@ 我们通常希望了解多个变量对某些特定结果的影响,以及它们之间的关系。在我们的学习时间示例的上下文中,假设我们发现一些学生以前上过关于该主题的课程。如果我们绘制他们的成绩图(见图 [14.3](#fig:LinearRegressionByPriorClass) ),我们可以看到,在相同的学习时间内,那些上过课程的人比那些没有上过课程的人表现得好得多。我们希望建立一个考虑到这一点的统计模型,这可以通过扩展我们在上面建立的模型来实现: -ŷ=β1̂*studyt prIorclass+β 我们使用我们称之为*的虚拟编码*,其中我们创建了一个新变量,该变量的值为1,表示以前有过一个类,否则为0。 这意味着对于之前有过该类的人,我们会简单地将β2̂\ hat【beta _ 2】的值加到我们为他们预测的值上——也就是说,使用哑编码β【t111我们对1̂\ hat { \ beta _ 1 }的估计反映了所有数据点的回归斜率——我们假设回归斜率是相同的,不管是否有人以前上过课(见图[14.3【t141](#fig:LinearRegressionByPriorClass) +ŷ=β1̂*studyt prIorclass+β 我们使用我们称之为*的虚拟编码*,其中我们创建了一个新变量,该变量的值为 1,表示以前有过一个类,否则为 0。 这意味着对于之前有过该类的人,我们会简单地将β2̂\ hat【beta _ 2】的值加到我们为他们预测的值上——也就是说,使用哑编码β【t111 我们对1̂\ hat { \ beta _ 1 }的估计反映了所有数据点的回归斜率——我们假设回归斜率是相同的,不管是否有人以前上过课(见图[14.3【t141](#fig:LinearRegressionByPriorClass) ``` ## @@ -206,7 +206,7 @@ ![The relation between study time and grade including prior experience as an additional component in the model. The solid line relates study time to grades for students who have not had prior experience, and the dashed line relates grades to study time for students with prior experience. The dotted line corresponds to the difference in means between the two groups.](img/file75.png) -图14.3:学习时间和年级之间的关系,包括以前的经验作为模型中的一个附加部分。实线表示没有工作经验的学生的学习时间与成绩的关系,虚线表示有工作经验的学生的成绩与学习时间的关系。虚线对应于两组之间平均值的差异。 +图 14.3:学习时间和年级之间的关系,包括以前的经验作为模型中的一个附加部分。实线表示没有工作经验的学生的学习时间与成绩的关系,虚线表示有工作经验的学生的成绩与学习时间的关系。虚线对应于两组之间平均值的差异。 @@ -216,7 +216,7 @@ 在之前的模型中,我们假设两组的学习时间对成绩的影响(即回归斜率)是相同的。然而,在某些情况下,我们可能会想象一个变量的影响可能会因另一个变量的值而不同,我们称之为变量之间的*交互*。 -让我们用一个新的例子来问这个问题:咖啡因对公众演讲有什么影响?首先让我们生成一些数据并绘制它们。查看图 [14.4](#fig:CaffeineAnxietyInteraction) 的面板A,似乎没有关系,我们可以通过对数据进行线性回归来确认: +让我们用一个新的例子来问这个问题:咖啡因对公众演讲有什么影响?首先让我们生成一些数据并绘制它们。查看图 [14.4](#fig:CaffeineAnxietyInteraction) 的面板 A,似乎没有关系,我们可以通过对数据进行线性回归来确认: ``` ## @@ -239,7 +239,7 @@ 但是现在让我们说,我们发现研究表明焦虑和不焦虑的人对咖啡因有不同的反应。首先让我们分别绘制焦虑和非焦虑人群的数据。 -正如我们在图 [14.4](#fig:CaffeineAnxietyInteraction) 的子图B中所看到的,似乎说话和咖啡因之间的关系对于两组来说是不同的,咖啡因改善了没有焦虑的人的表现,而降低了焦虑的人的表现。我们想创建一个统计模型来解决这个问题。首先,让我们看看如果我们把焦虑纳入模型会发生什么。 +正如我们在图 [14.4](#fig:CaffeineAnxietyInteraction) 的子图 B 中所看到的,似乎说话和咖啡因之间的关系对于两组来说是不同的,咖啡因改善了没有焦虑的人的表现,而降低了焦虑的人的表现。我们想创建一个统计模型来解决这个问题。首先,让我们看看如果我们把焦虑纳入模型会发生什么。 ``` ## @@ -287,11 +287,11 @@ ## F-statistic: 30.8 on 3 and 16 DF, p-value: 7.01e-07 ``` -从这些结果中,我们看到咖啡因和焦虑都有显著的影响(我们称之为*主要影响*)以及咖啡因和焦虑之间的相互作用。图 [14.4](#fig:CaffeineAnxietyInteraction) 中的面板C显示了每组的独立回归线。 +从这些结果中,我们看到咖啡因和焦虑都有显著的影响(我们称之为*主要影响*)以及咖啡因和焦虑之间的相互作用。图 [14.4](#fig:CaffeineAnxietyInteraction) 中的面板 C 显示了每组的独立回归线。 ![A: The relationship between caffeine and public speaking. B: The relationship between caffeine and public speaking, with anxiety represented by the shape of the data points. C: The relationship between public speaking and caffeine, including an interaction with anxiety. This results in two lines that separately model the slope for each group (dashed for anxious, dotted for non-anxious).](img/file76.png) -图14.4: A:咖啡因和公众演讲的关系。b:咖啡因和公开演讲之间的关系,数据点的形状代表焦虑。c:公众演讲和咖啡因之间的关系,包括与焦虑的相互作用。这导致两条线分别模拟每组的斜率(虚线代表焦虑,虚线代表非焦虑)。 +图 14.4: A:咖啡因和公众演讲的关系。b:咖啡因和公开演讲之间的关系,数据点的形状代表焦虑。c:公众演讲和咖啡因之间的关系,包括与焦虑的相互作用。这导致两条线分别模拟每组的斜率(虚线代表焦虑,虚线代表非焦虑)。 需要注意的重要一点是,如果存在显著的交互作用,我们必须非常小心地解释显著的主效应,因为交互作用表明主效应根据另一个变量的值而不同,因此不容易解释。 @@ -331,7 +331,7 @@ 我们还需要担心我们的模型是否满足我们的统计方法的假设。使用一般线性模型时,我们做出的一个最重要的假设是残差(即模型预测和实际数据之间的差异)是正态分布的。失败的原因有很多,要么是因为模型没有正确指定,要么是因为我们正在建模的数据不合适。 -我们可以用一个叫做 *Q-Q* (分位数-分位数)的图来看看我们的残差是否是正态分布的。你已经遇到了*分位数*——它们是截掉累积分布中特定比例的值。Q-Q图显示了两个分布的分位数;在这种情况下,我们将给出实际数据的分位数,与符合相同数据的正态分布的分位数进行比较。图 [14.5](#fig:qqplots) 显示了两个这样的Q-Q图的例子。左图显示了正态分布数据的Q-Q图,而右图显示了非正态数据的Q-Q图。右图中的数据点明显偏离直线,反映出它们不是正态分布的。 +我们可以用一个叫做 *Q-Q* (分位数-分位数)的图来看看我们的残差是否是正态分布的。你已经遇到了*分位数*——它们是截掉累积分布中特定比例的值。Q-Q 图显示了两个分布的分位数;在这种情况下,我们将给出实际数据的分位数,与符合相同数据的正态分布的分位数进行比较。图 [14.5](#fig:qqplots) 显示了两个这样的 Q-Q 图的例子。左图显示了正态分布数据的 Q-Q 图,而右图显示了非正态数据的 Q-Q 图。右图中的数据点明显偏离直线,反映出它们不是正态分布的。 ``` qq_df <- tibble(norm=rnorm(100), @@ -352,7 +352,7 @@ plot_grid(p1,p2) ![Q-Q plotsof normal (left) and non-normal (right) data. The line shows the point at which the x and y axes are equal.](img/file77.png) -图14.5:正常(左)和非正常(右)数据的Q-Q图。这条线表示x轴和y轴相等的点。 +图 14.5:正常(左)和非正常(右)数据的 Q-Q 图。这条线表示 x 轴和 y 轴相等的点。 模型诊断将在后面的章节中更详细地探讨。 @@ -364,7 +364,7 @@ plot_grid(p1,p2) 当我们在日常生活中谈论“预测”时,我们通常指的是在看到数据之前估计某个变量的值的能力。然而,该术语通常在线性回归的上下文中使用,指模型与数据的拟合;估计值(ŷ\ hat { y })有时被称为“预测值”,自变量被称为“预测值”。这有一个不幸的含义,因为它意味着我们的模型还应该能够预测未来新数据点的值。实际上,模型与用于获取参数的数据集的拟合几乎总是比模型与新数据集的拟合好 ( [Copas 1983](ch020.xhtml#ref-copa:1983) ) 。 -例如,让我们从NHANES的48名儿童中抽取一个样本,并拟合一个体重回归模型,该模型包括几个回归变量(年龄、身高、看电视和使用电脑的时间以及家庭收入)及其相互作用。 +例如,让我们从 NHANES 的 48 名儿童中抽取一个样本,并拟合一个体重回归模型,该模型包括几个回归变量(年龄、身高、看电视和使用电脑的时间以及家庭收入)及其相互作用。 Table 14.2: Root mean squared error for model applied to original data and new data, and after shuffling the order of the y variable (in essence making the null hypothesis true) | 数据类型 | RMSE(原始数据) | RMSE(新数据) | @@ -372,7 +372,7 @@ plot_grid(p1,p2) | 真实数据 | Three | Twenty-five | | 混洗数据 | Seven point eight | Fifty-nine | -在这里,我们看到,尽管模型对原始数据的拟合显示出非常好的拟合(每个人仅相差几公斤),但同一模型在预测从同一人群中取样的新儿童的体重值方面做得差得多(每个人相差超过25公斤)。发生这种情况是因为我们指定的模型非常复杂,因为它不仅包括每个单独的变量,还包括它们所有可能的组合(即它们的*相互作用*),导致模型有32个参数。由于这几乎与数据点(即48个孩子的身高)一样多,模型*对数据进行了过拟合*,就像我们在第 [5.4节](#overfitting)中的初始过拟合示例中的复杂多项式曲线一样。 +在这里,我们看到,尽管模型对原始数据的拟合显示出非常好的拟合(每个人仅相差几公斤),但同一模型在预测从同一人群中取样的新儿童的体重值方面做得差得多(每个人相差超过 25 公斤)。发生这种情况是因为我们指定的模型非常复杂,因为它不仅包括每个单独的变量,还包括它们所有可能的组合(即它们的*相互作用*),导致模型有 32 个参数。由于这几乎与数据点(即 48 个孩子的身高)一样多,模型*对数据进行了过拟合*,就像我们在第 [5.4 节](#overfitting)中的初始过拟合示例中的复杂多项式曲线一样。 查看过度拟合效果的另一种方法是,看看如果我们随机打乱权重变量的值会发生什么(如表中第二行所示)。随机改变数值应该使得不可能从其他变量预测重量,因为它们应该没有系统的关系。表中的结果表明,即使没有要建模的真实关系(因为混洗应该已经消除了关系),复杂模型在拟合数据的预测中仍然显示出非常低的误差,因为它符合特定数据集中的噪声。然而,当该模型应用于新的数据集时,我们看到误差要大得多,这是应该的。 @@ -384,12 +384,12 @@ plot_grid(p1,p2) ![A schematic of the cross-validation procedure.](img/file78.png) -图14.6:交叉验证程序的示意图。 +图 14.6:交叉验证程序的示意图。 -让我们看看这对于我们的体重预测示例是如何工作的。在这种情况下,我们将执行12重交叉验证,这意味着我们将把数据分成12个子集,然后对模型进行12次拟合,在每种情况下忽略一个子集,然后测试模型准确预测这些保留数据点的因变量的值的能力。大多数统计软件都提供了对数据进行交叉验证的工具。使用此函数,我们可以对NHANES数据集中的100个样本进行交叉验证,并计算交叉验证的RMSE,以及原始数据和新数据集的RMSE,如上面计算的那样。 +让我们看看这对于我们的体重预测示例是如何工作的。在这种情况下,我们将执行 12 重交叉验证,这意味着我们将把数据分成 12 个子集,然后对模型进行 12 次拟合,在每种情况下忽略一个子集,然后测试模型准确预测这些保留数据点的因变量的值的能力。大多数统计软件都提供了对数据进行交叉验证的工具。使用此函数,我们可以对 NHANES 数据集中的 100 个样本进行交叉验证,并计算交叉验证的 RMSE,以及原始数据和新数据集的 RMSE,如上面计算的那样。 Table 14.3: R-squared from cross-validation and new data, showing that cross-validation provides a reasonable estimate of the model’s performance on new data. -| | r平方 | +| | r 平方 | | --- | --- | | 原始资料 | Zero point nine five | | 新日期 | Zero point three four | @@ -435,9 +435,9 @@ plot_grid(p1,p2) ### 14.9.1 估计线性回归参数 -我们通常使用*线性代数*从数据中估计线性模型的参数,线性代数是应用于向量和矩阵的代数形式。如果你不熟悉线性代数,不要担心——你实际上不需要在这里使用它,因为R会为我们做所有的工作。然而,线性代数中的一个简短的游览可以提供一些关于在实践中如何估计模型参数的见解。 +我们通常使用*线性代数*从数据中估计线性模型的参数,线性代数是应用于向量和矩阵的代数形式。如果你不熟悉线性代数,不要担心——你实际上不需要在这里使用它,因为 R 会为我们做所有的工作。然而,线性代数中的一个简短的游览可以提供一些关于在实践中如何估计模型参数的见解。 -首先,我们来介绍一下向量和矩阵的思想;您已经在R的上下文中遇到过它们,但是我们将在这里回顾它们。矩阵是一组排列成正方形或长方形的数字,这样矩阵就有一个或多个维度*和*变化。习惯上将不同的观察单位(比如人)放在行中,将不同的变量放在列中。让我们来看看上面的学习时间数据。我们可以将这些数字排列成一个矩阵,这个矩阵有八行(每个学生一行)和两列(一列表示学习时间,一列表示成绩)。如果您认为“这听起来像R中的数据帧”,那么您完全正确!事实上,数据帧是矩阵的一个特殊版本,我们可以使用`as.matrix()`函数将数据帧转换成矩阵。 +首先,我们来介绍一下向量和矩阵的思想;您已经在 R 的上下文中遇到过它们,但是我们将在这里回顾它们。矩阵是一组排列成正方形或长方形的数字,这样矩阵就有一个或多个维度*和*变化。习惯上将不同的观察单位(比如人)放在行中,将不同的变量放在列中。让我们来看看上面的学习时间数据。我们可以将这些数字排列成一个矩阵,这个矩阵有八行(每个学生一行)和两列(一列表示学习时间,一列表示成绩)。如果您认为“这听起来像 R 中的数据帧”,那么您完全正确!事实上,数据帧是矩阵的一个特殊版本,我们可以使用`as.matrix()`函数将数据帧转换成矩阵。 ``` df <- @@ -462,13 +462,13 @@ df_matrix <- Y=X*β+EY = X * \ beta+E这看起来很像我们之前用的方程,只不过字母都是大写的,这是为了表示它们是矢量的事实。 -我们知道成绩数据进入了Y矩阵,但是什么进入了XX矩阵呢?请记住,在我们对线性回归的最初讨论中,除了我们感兴趣的自变量之外,我们还需要添加一个常数,因此我们的XX矩阵(我们称之为*设计矩阵*)需要包括两列:一列代表研究时间变量,一列代表每个个体的相同值(我们通常用全1填充)。我们可以图形方式查看最终的设计矩阵(见图 [14.7](#fig:GLMmatrix) )。 +我们知道成绩数据进入了 Y 矩阵,但是什么进入了XX矩阵呢?请记住,在我们对线性回归的最初讨论中,除了我们感兴趣的自变量之外,我们还需要添加一个常数,因此我们的XX矩阵(我们称之为*设计矩阵*)需要包括两列:一列代表研究时间变量,一列代表每个个体的相同值(我们通常用全 1 填充)。我们可以图形方式查看最终的设计矩阵(见图 [14.7](#fig:GLMmatrix) )。 ![A depiction of the linear model for the study time data in terms of matrix algebra.](img/file79.png) -图14.7:用矩阵代数描述研究时间数据的线性模型。 +图 14.7:用矩阵代数描述研究时间数据的线性模型。 -矩阵乘法的规则告诉我们,矩阵的维数必须彼此匹配;在这种情况下,设计矩阵的尺寸为8(行)X 2(列),Y变量的尺寸为8 X 1。因此,β矩阵需要具有2×1的维度,因为8×2矩阵乘以2×1矩阵得到8×1矩阵(匹配的中间维度被删除)。对β矩阵中的两个值的解释是,它们是分别乘以学习时间和1以获得每个个体的估计分数的值。我们也可以将线性模型视为每个个体的一组独立方程: +矩阵乘法的规则告诉我们,矩阵的维数必须彼此匹配;在这种情况下,设计矩阵的尺寸为 8(行)X 2(列),Y 变量的尺寸为 8 X 1。因此,β矩阵需要具有 2×1 的维度,因为 8×2 矩阵乘以 2×1 矩阵得到 8×1 矩阵(匹配的中间维度被删除)。对β矩阵中的两个值的解释是,它们是分别乘以学习时间和 1 以获得每个个体的估计分数的值。我们也可以将线性模型视为每个个体的一组独立方程: = @@ -482,7 +482,7 @@ df_matrix <- 【β】= -这里的挑战是xxβ现在是矩阵,而不是单个数字——但是线性代数的规则告诉我们如何除以矩阵,这与乘以矩阵的*逆*是一样的(称为x我们可以在R: +这里的挑战是xxβ现在是矩阵,而不是单个数字——但是线性代数的规则告诉我们如何除以矩阵,这与乘以矩阵的*逆*是一样的(称为x我们可以在 R: ``` # compute beta estimates using linear algebra diff --git a/docs/15.md b/docs/15.md index 789aea4..dea4a93 100644 --- a/docs/15.md +++ b/docs/15.md @@ -8,9 +8,9 @@ ## 15.1 测试单个平均值 -对于平均值,我们可能想问的最简单的问题是它是否有一个特定的值。假设我们想测试NHANES数据集中成年人的平均舒张压值是否高于80,根据美国心脏病学会的规定,这是高血压的临界值。为了提出这个问题,我们选取了200名成年人作为样本;每个成年人都测量了三次血压,我们使用这些血压的平均值进行测试。 +对于平均值,我们可能想问的最简单的问题是它是否有一个特定的值。假设我们想测试 NHANES 数据集中成年人的平均舒张压值是否高于 80,根据美国心脏病学会的规定,这是高血压的临界值。为了提出这个问题,我们选取了 200 名成年人作为样本;每个成年人都测量了三次血压,我们使用这些血压的平均值进行测试。 -测试这种差异的一种简单方法是使用一种称为*符号测试*的测试,它询问实际值和假设值之间的正差异比例是否与我们偶然预期的不同。为此,我们取每个数据点和假设平均值之间的差值,并计算它们的符号。如果数据是正态分布的,并且实际平均值等于假设平均值,那么高于(或低于)假设平均值的值的比例应该是0.5,这样正差异的比例也应该是0.5。在我们的样本中,我们看到19.0%的人舒张压高于80。然后,我们可以使用二项式测试来询问正差异的比例是否大于0.5,使用我们统计软件中的二项式测试功能: +测试这种差异的一种简单方法是使用一种称为*符号测试*的测试,它询问实际值和假设值之间的正差异比例是否与我们偶然预期的不同。为此,我们取每个数据点和假设平均值之间的差值,并计算它们的符号。如果数据是正态分布的,并且实际平均值等于假设平均值,那么高于(或低于)假设平均值的值的比例应该是 0.5,这样正差异的比例也应该是 0.5。在我们的样本中,我们看到 19.0%的人舒张压高于 80。然后,我们可以使用二项式测试来询问正差异的比例是否大于 0.5,使用我们统计软件中的二项式测试功能: ``` ## @@ -28,15 +28,15 @@ 这里我们看到,在p0.5p \ le 0.5的零假设下,有阳性体征的个体比例并不十分令人惊讶,鉴于观测值实际上小于0.50.5,这一点并不应该令我们感到惊讶。 -我们也可以用学生的t检验来问这个问题,你在本书前面已经遇到过了。我们将平均数称为x\ bar { x }而假设的人口平均数称为【μ\ mu。然后,单个平均值的t检验为: +我们也可以用学生的 t 检验来问这个问题,你在本书前面已经遇到过了。我们将平均数称为x\ bar { x }而假设的人口平均数称为【μ\ mu。然后,单个平均值的 t 检验为: t=xμsemt = \ frac { \ bar { x }-\ mu } { SEM } 【s】【e】【m】= -本质上,t统计量询问样本平均值与假设数量的偏差相对于平均值的抽样可变性有多大。 +本质上,t 统计量询问样本平均值与假设数量的偏差相对于平均值的抽样可变性有多大。 -我们可以使用统计软件对NHANES数据集进行计算: +我们可以使用统计软件对 NHANES 数据集进行计算: ``` ## @@ -52,9 +52,9 @@ ## 70 ``` -这向我们表明,数据集中的平均舒张压(69.5)实际上远低于80,因此我们对其是否高于80的测试远没有意义。 +这向我们表明,数据集中的平均舒张压(69.5)实际上远低于 80,因此我们对其是否高于 80 的测试远没有意义。 -请记住,大的p值不会为我们提供支持零假设的证据,因为我们已经假设零假设一开始就是正确的。然而,正如我们在贝叶斯分析一章中所讨论的,我们可以使用贝叶斯因子来量化支持或反对零假设的证据: +请记住,大的 p 值不会为我们提供支持零假设的证据,因为我们已经假设零假设一开始就是正确的。然而,正如我们在贝叶斯分析一章中所讨论的,我们可以使用贝叶斯因子来量化支持或反对零假设的证据: ``` ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80)) @@ -80,17 +80,17 @@ ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80)) ## 15.2 比较两种方法 -统计学中经常出现的一个更常见的问题是,两个不同组的均值之间是否存在差异。假设我们想知道经常吸食大麻的人是否看更多的电视,我们也可以使用NHANES数据集来询问这个问题。我们从数据集中抽取了200个样本,测试每天看电视的小时数是否与经常使用大麻有关。图 [15.1](#fig:PotTVViolin) 的左图使用小提琴图显示了这些数据。 +统计学中经常出现的一个更常见的问题是,两个不同组的均值之间是否存在差异。假设我们想知道经常吸食大麻的人是否看更多的电视,我们也可以使用 NHANES 数据集来询问这个问题。我们从数据集中抽取了 200 个样本,测试每天看电视的小时数是否与经常使用大麻有关。图 [15.1](#fig:PotTVViolin) 的左图使用小提琴图显示了这些数据。 ![Left: Violin plot showing distributions of TV watching separated by regular marijuana use. Right: Violin plots showing data for each group, with a dotted line connecting the predicted values for each group, computed on the basis of the results of the linear model.. ](img/file80.png) -图15.1:左图:小提琴图显示了定期吸食大麻对看电视的影响。右图:显示各组数据的Violin图,虚线连接各组的预测值,根据线性模型的结果进行计算.. +图 15.1:左图:小提琴图显示了定期吸食大麻对看电视的影响。右图:显示各组数据的 Violin 图,虚线连接各组的预测值,根据线性模型的结果进行计算.. -我们也可以使用学生t检验来检验两组独立观察值之间的差异(正如我们在前面章节中看到的);我们将在本章后面讨论观测值不独立的情况。提醒一下,比较两个独立组的t统计量计算如下: +我们也可以使用学生 t 检验来检验两组独立观察值之间的差异(正如我们在前面章节中看到的);我们将在本章后面讨论观测值不独立的情况。提醒一下,比较两个独立组的 t 统计量计算如下: = n【t = \ frac】{ \ bar { x _ 1 }-\ bar { x _ 2 } } { \ sqrt }+\ frac { s _ 1 ^ 2 } { n _ 1 }+\ frac -其中x1\ bar { x } _ 1x2\ bar { x } _ 2是两者的意思 s12s^2_1s22s^2_2是每个组的方差,而 在均值间无差异的零假设下,该统计量根据t分布进行分布,自由度使用Welch检验(如前所述)进行计算,因为两组之间的个体数量不同。在这种情况下,我们从特定的假设开始,即吸食大麻与更多地看电视有关,因此我们将使用单尾检验。以下是我们的统计软件得出的结果: +其中x1\ bar { x } _ 1x2\ bar { x } _ 2是两者的意思 s12s^2_1s22s^2_2是每个组的方差,而 在均值间无差异的零假设下,该统计量根据 t 分布进行分布,自由度使用 Welch 检验(如前所述)进行计算,因为两组之间的个体数量不同。在这种情况下,我们从特定的假设开始,即吸食大麻与更多地看电视有关,因此我们将使用单尾检验。以下是我们的统计软件得出的结果: ``` ## @@ -112,11 +112,11 @@ ttestBF(NHANES_sample$BPDiaAve, mu=80, nullInterval=c(-Inf, 80)) -## 15.3 将t检验作为线性模型 +## 15.3 将 t 检验作为线性模型 -t检验通常作为比较均值的专门工具,但它也可以被视为一般线性模型的应用。在这种情况下,模型将如下所示: +t 检验通常作为比较均值的专门工具,但它也可以被视为一般线性模型的应用。在这种情况下,模型将如下所示: -tv̂=β1̂*marIj = \ hat { \ beta _ 1 } *大麻+ \hat{\beta_0} 由于吸烟是一个二元变量,我们将其视为一个*虚拟变量*,就像我们在上一章中讨论的那样,对于吸烟者将其值设置为1,对于不吸烟者将其值设置为0。 既然如此,β̂\ hat【beta _ 1】简直就是两组的手段之差,β0我们可以使用统计软件中的一般线性模型函数来拟合该模型,并看到它给出了与上述t检验相同的t统计量,只是在这种情况下它是正的,这是因为我们的软件排列组的方式: +tv̂=β1̂*marIj = \ hat { \ beta _ 1 } *大麻+ \hat{\beta_0} 由于吸烟是一个二元变量,我们将其视为一个*虚拟变量*,就像我们在上一章中讨论的那样,对于吸烟者将其值设置为 1,对于不吸烟者将其值设置为 0。 既然如此,β̂\ hat【beta _ 1】简直就是两组的手段之差,β0我们可以使用统计软件中的一般线性模型函数来拟合该模型,并看到它给出了与上述 t 检验相同的 t 统计量,只是在这种情况下它是正的,这是因为我们的软件排列组的方式: ``` ## @@ -141,17 +141,17 @@ t检验通常作为比较均值的专门工具,但它也可以被视为一般 我们也可以图形方式查看线性模型结果(参见图 [15.1](#fig:PotTVViolin) 的右侧面板)。在这种情况下,不吸烟者的预测值是β0̂\帽子【beta _ 0】(2.0),而吸烟者的预测值是β0̂ -为了计算这种分析的标准误差,我们可以使用与线性回归完全相同的方程,因为这实际上是线性回归的另一个例子。事实上,如果您将上述t检验的p值与大麻使用变量的线性回归分析中的p值进行比较,您会发现线性回归分析的p值恰好是t检验的两倍,因为线性回归分析正在执行双尾检验。 +为了计算这种分析的标准误差,我们可以使用与线性回归完全相同的方程,因为这实际上是线性回归的另一个例子。事实上,如果您将上述 t 检验的 p 值与大麻使用变量的线性回归分析中的 p 值进行比较,您会发现线性回归分析的 p 值恰好是 t 检验的两倍,因为线性回归分析正在执行双尾检验。 ### 15.3.1 比较两种方法的效果大小 -比较两个均值最常用的效应大小是科恩的d,它(你可能记得第 [10](#ci-effect-size-power) 章)是用标准差单位表示的效应大小。对于使用上述一般线性模型(即,使用单个虚拟编码变量)估计的t检验,这表示为: +比较两个均值最常用的效应大小是科恩的 d,它(你可能记得第 [10](#ci-effect-size-power) 章)是用标准差单位表示的效应大小。对于使用上述一般线性模型(即,使用单个虚拟编码变量)估计的 t 检验,这表示为: d=β̂σresIdua -我们还可以计算出r2r^2进行这种分析,它告诉我们吸食大麻在看电视的方差中占了多大比例。这个值(在上面的线性模型分析总结的底部报告)是0.05,这告诉我们,虽然这种影响在统计上可能是显著的,但它在看电视的变化中占相对较小的比例。 +我们还可以计算出r2r^2进行这种分析,它告诉我们吸食大麻在看电视的方差中占了多大比例。这个值(在上面的线性模型分析总结的底部报告)是 0.05,这告诉我们,虽然这种影响在统计上可能是显著的,但它在看电视的变化中占相对较小的比例。 @@ -175,7 +175,7 @@ t检验通常作为比较均值的专门工具,但它也可以被视为一般 ## Bayes factor type: BFindepSample, JZS ``` -由于数据的组织方式,第二行显示了本次分析的相关贝叶斯因子,即61.4。这向我们表明,反对零假设的证据是相当有力的。 +由于数据的组织方式,第二行显示了本次分析的相关贝叶斯因子,即 61.4。这向我们表明,反对零假设的证据是相当有力的。 @@ -183,13 +183,13 @@ t检验通常作为比较均值的专门工具,但它也可以被视为一般 ## 15.5 比较成对观察值 -在实验研究中,我们经常使用*受试者内*设计,在这种设计中,我们在多个测量值上比较同一个人。来自这种设计的测量通常被称为*重复测量*。例如,在NHANES数据集中,血压被测量三次。假设我们有兴趣测试样本中个体间第一次和第二次测量的平均收缩压是否存在差异(图 [15.2](#fig:BPfig) )。 +在实验研究中,我们经常使用*受试者内*设计,在这种设计中,我们在多个测量值上比较同一个人。来自这种设计的测量通常被称为*重复测量*。例如,在 NHANES 数据集中,血压被测量三次。假设我们有兴趣测试样本中个体间第一次和第二次测量的平均收缩压是否存在差异(图 [15.2](#fig:BPfig) )。 ![Left: Violin plot of systolic blood pressure on first and second recording, from NHANES. Right: Same violin plot with lines connecting the two data points for each individual.](img/file81.png) -图15.2:左图:NHANES第一次和第二次记录的收缩压小提琴图。右图:同样的小提琴图,用线条连接每个人的两个数据点。 +图 15.2:左图:NHANES 第一次和第二次记录的收缩压小提琴图。右图:同样的小提琴图,用线条连接每个人的两个数据点。 -我们看到,第一次和第二次测量的平均血压(大约一点)似乎没有太大的差异。首先,让我们使用独立样本t检验来测试差异,这忽略了数据点对来自相同个体的事实。 +我们看到,第一次和第二次测量的平均血压(大约一点)似乎没有太大的差异。首先,让我们使用独立样本 t 检验来测试差异,这忽略了数据点对来自相同个体的事实。 ``` ## @@ -211,13 +211,13 @@ t检验通常作为比较均值的专门工具,但它也可以被视为一般 ![Histogram of difference scores between first and second BP measurement. The vertical line represents the mean difference in the sample.](img/file82.png) -图15.3:第一次和第二次血压测量的差值直方图。垂直线代表样本中的平均差异。 +图 15.3:第一次和第二次血压测量的差值直方图。垂直线代表样本中的平均差异。 ### 15.5.1 标志测试 -测试差异的一个简单方法是使用*符号测试*。为此,我们取差值并计算其符号,然后我们使用二项式检验来询问正号的比例是否不同于0.5。 +测试差异的一个简单方法是使用*符号测试*。为此,我们取差值并计算其符号,然后我们使用二项式检验来询问正号的比例是否不同于 0.5。 ``` ## @@ -239,9 +239,9 @@ t检验通常作为比较均值的专门工具,但它也可以被视为一般 -### 15.5.2 配对t检验 +### 15.5.2 配对 t 检验 -更常见的策略是使用*配对t检验*,这相当于对每个人内部测量值之间的平均差异是否为零的单样本t检验。我们可以使用我们的统计软件进行计算,告诉它数据点是成对的: +更常见的策略是使用*配对 t 检验*,这相当于对每个人内部测量值之间的平均差异是否为零的单样本 t 检验。我们可以使用我们的统计软件进行计算,告诉它数据点是成对的: ``` ## @@ -270,9 +270,9 @@ t检验通常作为比较均值的专门工具,但它也可以被视为一般 ## Bayes factor type: BFoneSample, JZS ``` -观察到的贝叶斯因子2.97告诉我们,尽管在配对t检验中效果显著,但它实际上提供了非常弱的证据来支持替代假设。 +观察到的贝叶斯因子 2.97 告诉我们,尽管在配对 t 检验中效果显著,但它实际上提供了非常弱的证据来支持替代假设。 -配对t检验也可以根据线性模型来定义;有关这方面的更多详细信息,请参见附录。 +配对 t 检验也可以根据线性模型来定义;有关这方面的更多详细信息,请参见附录。 @@ -282,11 +282,11 @@ t检验通常作为比较均值的专门工具,但它也可以被视为一般 ## 15.6 比较两个以上意味着 -我们经常想要比较两个以上的平均数,以确定它们之间是否有任何不同。假设我们正在分析一项高血压治疗临床试验的数据。在这项研究中,志愿者被随机分配到三种情况中的一种:药物1、药物2或安慰剂。让我们生成一些数据并绘制它们(见图 [15.4](#fig:DrugTrial) +我们经常想要比较两个以上的平均数,以确定它们之间是否有任何不同。假设我们正在分析一项高血压治疗临床试验的数据。在这项研究中,志愿者被随机分配到三种情况中的一种:药物 1、药物 2 或安慰剂。让我们生成一些数据并绘制它们(见图 [15.4](#fig:DrugTrial) ![Box plots showing blood pressure for three different groups in our clinical trial.](img/file83.png) -图15.4:箱线图显示了我们临床试验中三个不同组的血压。 +图 15.4:箱线图显示了我们临床试验中三个不同组的血压。 @@ -300,13 +300,13 @@ t检验通常作为比较均值的专门工具,但它也可以被视为一般 【m】【s】【e】【r】【r】 r= -使用ANOVA,我们希望在均值间无差异的零假设下,测试模型解释的方差是否大于我们随机预期的方差。而对于t分布,在零假设下期望值为零,但这里不是这样,因为平方和总是正数。幸运的是,有另一种理论分布描述了在零假设下平方和的比率是如何分布的:分布 *F* (见图 [15.5](#fig:FDist) )。这种分布有两个自由度,分别对应于分子(本例中为模型)和分母(本例中为误差)的自由度。 +使用 ANOVA,我们希望在均值间无差异的零假设下,测试模型解释的方差是否大于我们随机预期的方差。而对于 t 分布,在零假设下期望值为零,但这里不是这样,因为平方和总是正数。幸运的是,有另一种理论分布描述了在零假设下平方和的比率是如何分布的:分布 *F* (见图 [15.5](#fig:FDist) )。这种分布有两个自由度,分别对应于分子(本例中为模型)和分母(本例中为误差)的自由度。 ![F distributions under the null hypothesis, for different values of degrees of freedom.](img/file84.png) -图15.5:不同自由度值的零假设下的f分布。 +图 15.5:不同自由度值的零假设下的 f 分布。 -为了创建ANOVA模型,我们扩展了您在上一章中遇到的*虚拟编码*的概念。请记住,对于比较两个平均值的t检验,我们创建了一个虚拟变量,其中一个条件的值为1,其他条件的值为0。在这里,我们通过创建两个虚拟变量来扩展这一思想,一个编码药物1的条件,另一个编码药物2的条件。就像在t检验中一样,我们将有一个条件(在这种情况下,安慰剂)没有虚拟变量,因此代表了与其他条件进行比较的基线;它的平均值定义了模型的截距。使用药品1和2的虚拟编码,我们可以使用与上一章相同的方法来拟合模型: +为了创建 ANOVA 模型,我们扩展了您在上一章中遇到的*虚拟编码*的概念。请记住,对于比较两个平均值的 t 检验,我们创建了一个虚拟变量,其中一个条件的值为 1,其他条件的值为 0。在这里,我们通过创建两个虚拟变量来扩展这一思想,一个编码药物 1 的条件,另一个编码药物 2 的条件。就像在 t 检验中一样,我们将有一个条件(在这种情况下,安慰剂)没有虚拟变量,因此代表了与其他条件进行比较的基线;它的平均值定义了模型的截距。使用药品 1 和 2 的虚拟编码,我们可以使用与上一章相同的方法来拟合模型: ``` ## @@ -330,9 +330,9 @@ t检验通常作为比较均值的专门工具,但它也可以被视为一般 ## F-statistic: 10.7 on 2 and 105 DF, p-value: 5.83e-05 ``` -这个命令的输出为我们提供了两件事。首先,它向我们展示了每个虚拟变量的t检验结果,这基本上告诉我们每个条件是否分别不同于安慰剂;似乎药物1有,而药物2没有。但是,请记住,如果我们想要解释这些测试,我们需要校正p值,以说明我们已经进行了多重假设测试的事实;我们将在下一章看到如何做到这一点的例子。 +这个命令的输出为我们提供了两件事。首先,它向我们展示了每个虚拟变量的 t 检验结果,这基本上告诉我们每个条件是否分别不同于安慰剂;似乎药物 1 有,而药物 2 没有。但是,请记住,如果我们想要解释这些测试,我们需要校正 p 值,以说明我们已经进行了多重假设测试的事实;我们将在下一章看到如何做到这一点的例子。 -请记住,我们开始想要测试的假设是,任何条件之间是否有任何差异;我们称之为*综合*假设检验,它是由F统计提供的检验。F统计量基本上告诉我们,我们的模型是否优于只包含截距的简单模型。在这种情况下,我们看到f检验非常显著,与我们的印象一致,即两组之间似乎确实存在差异(事实上我们知道存在差异,因为我们创建了数据)。 +请记住,我们开始想要测试的假设是,任何条件之间是否有任何差异;我们称之为*综合*假设检验,它是由 F 统计提供的检验。F 统计量基本上告诉我们,我们的模型是否优于只包含截距的简单模型。在这种情况下,我们看到 f 检验非常显著,与我们的印象一致,即两组之间似乎确实存在差异(事实上我们知道存在差异,因为我们创建了数据)。 @@ -345,8 +345,8 @@ t检验通常作为比较均值的专门工具,但它也可以被视为一般 阅读本章后,您应该能够: * 描述符号测试背后的基本原理 -* 描述如何使用t检验来比较一个平均值和一个假设值 -* 使用双样本t检验比较两个配对或非配对组的平均值 +* 描述如何使用 t 检验来比较一个平均值和一个假设值 +* 使用双样本 t 检验比较两个配对或非配对组的平均值 * 描述如何使用方差分析来检验两个以上平均数之间的差异。 @@ -357,9 +357,9 @@ t检验通常作为比较均值的专门工具,但它也可以被视为一般 -### 15.8.1 作为线性模型的成对t检验 +### 15.8.1 作为线性模型的成对 t 检验 -我们也可以根据一般的线性模型来定义配对t检验。为此,我们将每个受试者的所有测量结果作为数据点包含在内(在一个整洁的数据框内)。然后,我们在模型中包含一个变量,该变量对每个人的身份进行编码(在本例中,ID变量包含每个人的主题ID)。这被称为*混合模型*,因为它包括独立变量的影响以及个人的影响。标准的模型拟合过程`lm()`无法做到这一点,但我们可以使用一个流行的R包 *lme4* 中的`lmer()`函数来做到这一点,该包专门用于估计混合模型。公式中的`(1|ID)`告诉`lmer()`为`ID`变量的每个值(即数据集中的每个个体)估计一个单独的截距(这就是`1`所指的截距),然后估计一个与BP时间点相关的公共斜率。 +我们也可以根据一般的线性模型来定义配对 t 检验。为此,我们将每个受试者的所有测量结果作为数据点包含在内(在一个整洁的数据框内)。然后,我们在模型中包含一个变量,该变量对每个人的身份进行编码(在本例中,ID 变量包含每个人的主题 ID)。这被称为*混合模型*,因为它包括独立变量的影响以及个人的影响。标准的模型拟合过程`lm()`无法做到这一点,但我们可以使用一个流行的 R 包 *lme4* 中的`lmer()`函数来做到这一点,该包专门用于估计混合模型。公式中的`(1|ID)`告诉`lmer()`为`ID`变量的每个值(即数据集中的每个个体)估计一个单独的截距(这就是`1`所指的截距),然后估计一个与 BP 时间点相关的公共斜率。 ``` # compute mixed model for paired test @@ -399,7 +399,7 @@ summary(lmrResult) ## tmpntBPSys2 -0.167 ``` -您可以看到,这向我们显示了一个p值,它非常接近使用`t.test()`函数计算的配对t检验的结果。 +您可以看到,这向我们显示了一个 p 值,它非常接近使用`t.test()`函数计算的配对 t 检验的结果。 diff --git a/docs/16.md b/docs/16.md index 5b41d9e..04d5b5d 100644 --- a/docs/16.md +++ b/docs/16.md @@ -18,9 +18,9 @@ 作为多变量分析的一个例子,我们将看一个由我的小组收集并由艾森伯格等人发表的数据集 ( [**艾森伯格:2019um?**](#ref-Eisenberg:2019um) ) 。这个数据集是有用的,因为它有大量有趣的变量,这些变量是从相对大量的个人身上收集的,也因为它可以在网上免费获得,所以你可以自己探索它。 -进行这项研究是因为我们有兴趣了解心理功能的几个不同方面是如何相互联系的,特别关注自我控制的心理测量和相关概念。参与者在一周的时间里进行了长达十小时的认知测试和调查;在第一个例子中,我们将关注与自我控制的两个具体方面相关的变量。*反应抑制*被定义为快速停止一个动作的能力,在这项研究中,使用一组被称为*停止信号任务*的任务进行测量。这些任务感兴趣的变量是对一个人停止自己需要多长时间的估计,称为*停止信号反应时间* ( *SSRT* ),在数据集中有四种不同的测量方法。*冲动性*定义为凭冲动做出决定的倾向,不考虑潜在后果和长期目标。这项研究包括许多测量冲动性的不同调查,但我们将重点关注UPPS-P调查,该调查评估了冲动性的五个不同方面。 +进行这项研究是因为我们有兴趣了解心理功能的几个不同方面是如何相互联系的,特别关注自我控制的心理测量和相关概念。参与者在一周的时间里进行了长达十小时的认知测试和调查;在第一个例子中,我们将关注与自我控制的两个具体方面相关的变量。*反应抑制*被定义为快速停止一个动作的能力,在这项研究中,使用一组被称为*停止信号任务*的任务进行测量。这些任务感兴趣的变量是对一个人停止自己需要多长时间的估计,称为*停止信号反应时间* ( *SSRT* ),在数据集中有四种不同的测量方法。*冲动性*定义为凭冲动做出决定的倾向,不考虑潜在后果和长期目标。这项研究包括许多测量冲动性的不同调查,但我们将重点关注 UPPS-P 调查,该调查评估了冲动性的五个不同方面。 -在艾森伯格的研究中,计算了522名参与者的分数后,我们得出了每个人的9个数字。虽然多元数据有时可能有数千甚至数百万个变量,但先看看这些方法如何处理少量变量是很有用的。 +在艾森伯格的研究中,计算了 522 名参与者的分数后,我们得出了每个人的 9 个数字。虽然多元数据有时可能有数千甚至数百万个变量,但先看看这些方法如何处理少量变量是很有用的。 @@ -34,29 +34,29 @@ ### 16.2.1 矩阵分布图 -将少量变量可视化的一个有用方法是将每一对变量相对于另一个绘制成图,有时称为“矩阵散点图”;示例如图 [16.1](#fig:pairpanel) 所示。面板中的每一行/每一列指的是一个变量——在这个例子中,是我们在前面例子中的一个心理变量。图上的对角线元素以直方图的形式显示了每个变量的分布。对角线下方的元素显示了每对矩阵的散点图,上面覆盖了描述变量之间关系的回归线。对角线上方的元素显示每对变量的相关系数。当变量数量相对较少(约10或更少)时,这可能是深入了解多变量数据集的有效方法。 +将少量变量可视化的一个有用方法是将每一对变量相对于另一个绘制成图,有时称为“矩阵散点图”;示例如图 [16.1](#fig:pairpanel) 所示。面板中的每一行/每一列指的是一个变量——在这个例子中,是我们在前面例子中的一个心理变量。图上的对角线元素以直方图的形式显示了每个变量的分布。对角线下方的元素显示了每对矩阵的散点图,上面覆盖了描述变量之间关系的回归线。对角线上方的元素显示每对变量的相关系数。当变量数量相对较少(约 10 或更少)时,这可能是深入了解多变量数据集的有效方法。 ![Scatterplot of matrices for the nine variables in the self-control dataset. The diagonal elements in the matrix show the histogram for each of the individual variables. The lower left panels show scatterplots of the relationship between each pair of variables, and the upper right panel shows the correlation coefficient for each pair of variables.](img/file85.png) -图16.1:自身对照数据集中九个变量的矩阵散点图。矩阵中的对角线元素显示了每个变量的直方图。左下面板显示每对变量之间关系的散点图,右上面板显示每对变量的相关系数。 +图 16.1:自身对照数据集中九个变量的矩阵散点图。矩阵中的对角线元素显示了每个变量的直方图。左下面板显示每对变量之间关系的散点图,右上面板显示每对变量的相关系数。 -### 16 . 2 . 2热图 +### 16 . 2 . 2 热图 -在某些情况下,我们希望一次可视化大量变量之间的关系,通常侧重于相关系数。一种有用的方法是将相关值绘制成*热图*,其中热图的颜色与相关值相关。图 [16.2](#fig:hmap) 显示了一个变量相对较少的例子,使用了我们上面的心理学例子。在这种情况下,热图有助于数据的结构向我们“突出”;我们看到SSRT变量和UPPS变量之间有很强的相关性,而两组变量之间的相关性相对较小。 +在某些情况下,我们希望一次可视化大量变量之间的关系,通常侧重于相关系数。一种有用的方法是将相关值绘制成*热图*,其中热图的颜色与相关值相关。图 [16.2](#fig:hmap) 显示了一个变量相对较少的例子,使用了我们上面的心理学例子。在这种情况下,热图有助于数据的结构向我们“突出”;我们看到 SSRT 变量和 UPPS 变量之间有很强的相关性,而两组变量之间的相关性相对较小。 ![Heatmap of the correlation matrix for the nine self-control variables. The brighter yellow areas in the top left and bottom right highlight the higher correlations within the two subsets of variables.](img/file86.png) -图16.2:九个自控变量的相关矩阵热图。左上方和右下方较亮的黄色区域突出显示了这两个变量子集内较高的相关性。 +图 16.2:九个自控变量的相关矩阵热图。左上方和右下方较亮的黄色区域突出显示了这两个变量子集内较高的相关性。 -热图对于可视化大量变量之间的相关性变得特别有用。我们可以用脑成像数据作为例子。神经科学研究人员通常使用功能性磁共振成像(fMRI)从大脑中的大量位置收集关于大脑功能的数据,然后评估这些位置之间的相关性,以测量这些区域之间的“功能连接性”。例如,图 [16.3](#fig:parcelheatmap) 显示了一个大型相关矩阵的热图,该热图基于单个个体(你的真实)大脑中300多个区域的活动。只需查看热图,数据中清晰结构的存在就会显现出来。具体来说,我们看到有大量大脑区域的活动彼此高度相关(在沿着相关矩阵对角线的大黄色块中可见),而这些块也与其他块强烈负相关(在对角线外的大蓝色块中可见)。热图是一个强大的工具,可以轻松地可视化大型数据矩阵。 +热图对于可视化大量变量之间的相关性变得特别有用。我们可以用脑成像数据作为例子。神经科学研究人员通常使用功能性磁共振成像(fMRI)从大脑中的大量位置收集关于大脑功能的数据,然后评估这些位置之间的相关性,以测量这些区域之间的“功能连接性”。例如,图 [16.3](#fig:parcelheatmap) 显示了一个大型相关矩阵的热图,该热图基于单个个体(你的真实)大脑中 300 多个区域的活动。只需查看热图,数据中清晰结构的存在就会显现出来。具体来说,我们看到有大量大脑区域的活动彼此高度相关(在沿着相关矩阵对角线的大黄色块中可见),而这些块也与其他块强烈负相关(在对角线外的大蓝色块中可见)。热图是一个强大的工具,可以轻松地可视化大型数据矩阵。 ![A heatmap showing the correlation coefficient of brain activity between 316 regions in the left hemisphere of a single individiual. Cells in yellow reflect strong positive correlation, whereas cells in blue reflect strong negative correlation. The large blocks of positive correlation along the diagonal of the matrix correspond to the major connected networks in the brain](img/file87.png) -图16.3:显示一个人左半球316个区域之间大脑活动相关系数的热图。黄色单元反映了强正相关,而蓝色单元反映了强负相关。沿着矩阵对角线的大块正相关对应于大脑中的主要连接网络 +图 16.3:显示一个人左半球 316 个区域之间大脑活动相关系数的热图。黄色单元反映了强正相关,而蓝色单元反映了强负相关。沿着矩阵对角线的大块正相关对应于大脑中的主要连接网络 @@ -68,11 +68,11 @@ 聚类是指基于观察值的相似性来识别数据集中相关观察值或变量组的一组方法。通常,这种相似性将根据多元值之间的*距离*的某种度量来量化。然后,聚类方法会找到成员间距离最小的组。 -一种常用的聚类距离度量是*欧几里德距离*,它基本上是连接两个数据点的线的长度。图 [16.4](#fig:eucdist) 显示了一个有两个数据点和两个维度(X和Y)的数据集的例子。这两点之间的欧几里得距离是连接空间中的点的虚线的长度。 +一种常用的聚类距离度量是*欧几里德距离*,它基本上是连接两个数据点的线的长度。图 [16.4](#fig:eucdist) 显示了一个有两个数据点和两个维度(X 和 Y)的数据集的例子。这两点之间的欧几里得距离是连接空间中的点的虚线的长度。 ![A depiction of the Euclidean distance between two points, (1,2) and (4,3). The two points differ by 3 along the X axis and by 1 along the Y axis.](img/file88.png) -图16.4:两点(1,2)和(4,3)之间欧几里得距离的描述。这两个点沿X轴相差3 °,沿Y轴相差1°。 +图 16.4:两点(1,2)和(4,3)之间欧几里得距离的描述。这两个点沿 X 轴相差 3 °,沿 Y 轴相差 1°。 欧几里德距离的计算方法是,对每个维度上的点的位置差求平方,将这些平方差相加,然后求平方根。当有两个维度xxyy时,这将被计算为: @@ -84,23 +84,23 @@ 如果欧几里得距离的公式看起来有点熟悉,这是因为它与我们大多数人在几何课上学到的*勾股定理*相同,勾股定理根据两条边的长度计算直角三角形斜边的长度。在这种情况下,三角形各边的长度对应于两个维度上各点之间的距离。虽然这个例子是二维的,但是我们经常会处理比二维多得多的数据,但是同样的想法可以扩展到任意数量的维度。 -欧几里德距离的一个重要特征是,它对数据的总体平均值和可变性很敏感。从这个意义上说,它不同于相关系数,相关系数以一种对总体均值或变异性不敏感的方式来衡量变量之间的线性关系。出于这个原因,通常在计算欧几里德距离之前对数据进行缩放,这相当于将每个变量转换成其Z得分版本。 +欧几里德距离的一个重要特征是,它对数据的总体平均值和可变性很敏感。从这个意义上说,它不同于相关系数,相关系数以一种对总体均值或变异性不敏感的方式来衡量变量之间的线性关系。出于这个原因,通常在计算欧几里德距离之前对数据进行缩放,这相当于将每个变量转换成其 Z 得分版本。 ### 16 . 3 . 1K-均值聚类 -一种常用的数据聚类方法是 *K-means聚类*。该技术识别一组聚类中心,然后将每个数据点分配给其中心离该数据点最近(即,具有最低欧几里得距离)的聚类。举个例子,我们以全球多个国家的经纬度作为我们的数据点,看看K-means聚类是否能有效识别世界各大洲。 +一种常用的数据聚类方法是 *K-means 聚类*。该技术识别一组聚类中心,然后将每个数据点分配给其中心离该数据点最近(即,具有最低欧几里得距离)的聚类。举个例子,我们以全球多个国家的经纬度作为我们的数据点,看看 K-means 聚类是否能有效识别世界各大洲。 -大多数统计软件包都有一个内置函数,可以使用一个命令来执行K-means聚类,但是一步一步地理解它是如何工作的是很有用的。我们必须首先确定一个特定的K值,即数据中的聚类数。需要指出的是,集群数量没有唯一的“正确”值;人们可以使用各种技术来尝试确定哪个解决方案是“最佳”的,但它们通常会给出不同的答案,因为它们包含不同的假设或权衡。尽管如此,聚类技术(如K-means)是理解数据结构的重要工具,尤其是当数据变得高维时。 +大多数统计软件包都有一个内置函数,可以使用一个命令来执行 K-means 聚类,但是一步一步地理解它是如何工作的是很有用的。我们必须首先确定一个特定的 K 值,即数据中的聚类数。需要指出的是,集群数量没有唯一的“正确”值;人们可以使用各种技术来尝试确定哪个解决方案是“最佳”的,但它们通常会给出不同的答案,因为它们包含不同的假设或权衡。尽管如此,聚类技术(如 K-means)是理解数据结构的重要工具,尤其是当数据变得高维时。 -在选择了我们希望找到的聚类数( *K* )之后,我们必须得出K个位置,这将是我们对聚类中心的开始猜测(因为我们最初不知道中心在哪里)。一种简单的开始方式是随机选择K个实际数据点,并使用它们作为我们的起点,它们被称为*质心*。然后,我们计算每个数据点到每个质心的欧几里德距离,并根据每个点最近的质心将其分配到一个聚类中。使用这些新的聚类分配,我们通过平均分配给该聚类的所有点的位置来重新计算每个聚类的质心。然后重复这一过程,直到找到稳定的解决方案;我们称之为*迭代*过程,因为它会迭代直到答案不变,或者直到达到某种其他限制,比如最大可能迭代次数。 +在选择了我们希望找到的聚类数( *K* )之后,我们必须得出 K 个位置,这将是我们对聚类中心的开始猜测(因为我们最初不知道中心在哪里)。一种简单的开始方式是随机选择 K 个实际数据点,并使用它们作为我们的起点,它们被称为*质心*。然后,我们计算每个数据点到每个质心的欧几里德距离,并根据每个点最近的质心将其分配到一个聚类中。使用这些新的聚类分配,我们通过平均分配给该聚类的所有点的位置来重新计算每个聚类的质心。然后重复这一过程,直到找到稳定的解决方案;我们称之为*迭代*过程,因为它会迭代直到答案不变,或者直到达到某种其他限制,比如最大可能迭代次数。 ![A two-dimensional depiction of clustering on the latitude and longitude of countries across the world. The square black symbols show the starting centroids for each cluster, and the lines show the movement of the centroid for that cluster across the iterations of the algorithm.](img/file89.png) -图16.5:世界各国纬度和经度聚类的二维描述。黑色方形符号显示每个聚类的起始质心,线条显示该聚类的质心在算法迭代过程中的移动。 +图 16.5:世界各国纬度和经度聚类的二维描述。黑色方形符号显示每个聚类的起始质心,线条显示该聚类的质心在算法迭代过程中的移动。 -将K-means聚类应用于纬度/经度数据(图 [16.5](#fig:kmeans) ),我们看到得到的聚类和大陆之间有合理的匹配,尽管没有一个大陆与任何聚类完全匹配。我们可以通过绘制一个表来进一步检验这一点,该表将每个聚类的成员与每个国家的实际大陆进行比较;这种表格通常被称为*混淆矩阵*。 +将 K-means 聚类应用于纬度/经度数据(图 [16.5](#fig:kmeans) ),我们看到得到的聚类和大陆之间有合理的匹配,尽管没有一个大陆与任何聚类完全匹配。我们可以通过绘制一个表来进一步检验这一点,该表将每个聚类的成员与每个国家的实际大陆进行比较;这种表格通常被称为*混淆矩阵*。 ``` ## @@ -116,17 +116,17 @@ * 第一组包括所有欧洲国家,以及北非和亚洲国家。 * 第二组包括亚洲国家和几个非洲国家。 * 第三组包括南美洲南部的国家。 -* 聚类4包含所有北美国家以及南美北部国家。 -* 第5组包括大洋洲和几个亚洲国家 -* 第6组包括所有其余的非洲国家。 +* 聚类 4 包含所有北美国家以及南美北部国家。 +* 第 5 组包括大洋洲和几个亚洲国家 +* 第 6 组包括所有其余的非洲国家。 -虽然在这个例子中我们知道实际的聚类(即世界的大陆),但一般来说,我们实际上不知道无监督学习问题的基本事实,所以我们只能相信聚类方法已经在数据中找到了有用的结构。然而,关于K-means聚类和迭代过程的一个要点是,它们不能保证每次运行时都给出相同的答案。使用随机数来确定起点意味着起点每次都可能不同,并且根据数据,这有时会导致找到不同的解决方案。对于这个例子,K-means聚类有时会找到包含北美和南美的单个聚类,有时会找到两个聚类(就像这里使用的随机种子的特定选择一样)。每当使用涉及迭代解决方案的方法时,使用不同的随机种子多次重新运行该方法是很重要的,以确保运行之间的答案不会相差太大。如果是这样,那么我们应该避免根据不稳定的结果做出强有力的结论。事实上,在更普遍的聚类结果的基础上避免强有力的结论可能是一个好主意;它们主要用于直观地了解数据集中可能存在的结构。 +虽然在这个例子中我们知道实际的聚类(即世界的大陆),但一般来说,我们实际上不知道无监督学习问题的基本事实,所以我们只能相信聚类方法已经在数据中找到了有用的结构。然而,关于 K-means 聚类和迭代过程的一个要点是,它们不能保证每次运行时都给出相同的答案。使用随机数来确定起点意味着起点每次都可能不同,并且根据数据,这有时会导致找到不同的解决方案。对于这个例子,K-means 聚类有时会找到包含北美和南美的单个聚类,有时会找到两个聚类(就像这里使用的随机种子的特定选择一样)。每当使用涉及迭代解决方案的方法时,使用不同的随机种子多次重新运行该方法是很重要的,以确保运行之间的答案不会相差太大。如果是这样,那么我们应该避免根据不稳定的结果做出强有力的结论。事实上,在更普遍的聚类结果的基础上避免强有力的结论可能是一个好主意;它们主要用于直观地了解数据集中可能存在的结构。 ![A visualization of the clustering results from 10 runs of the K-means clustering algorithm with K=3\. Each row in the figure represents a different run of the clustering algorithm (with different random starting points), and variables sharing the same color are members of the same cluster.](img/file90.png) -图16.6:K = 3的K均值聚类算法的10次运行的聚类结果的可视化。图中的每一行代表聚类算法的不同运行(具有不同的随机起点),共享相同颜色的变量是同一聚类的成员。 +图 16.6:K = 3 的 K 均值聚类算法的 10 次运行的聚类结果的可视化。图中的每一行代表聚类算法的不同运行(具有不同的随机起点),共享相同颜色的变量是同一聚类的成员。 -我们可以将K-means聚类应用于自控变量,以确定哪些变量彼此关系最密切。对于K=2,K-means算法始终挑选出一个包含SSRT变量的聚类和一个包含冲动性变量的聚类。K值越高,结果越不一致;例如,当K=3时,该算法有时会识别出仅包含UPPS感觉寻求变量的第三个聚类,而在其他情况下,它会将SSRT变量分成两个独立的聚类(如图 [16.6](#fig:kmeansSro) 所示)。K=2的聚类的稳定性表明,这可能是这些数据的最稳健的聚类,但这些结果也突出了多次运行算法以确定任何特定聚类结果是否稳定的重要性。 +我们可以将 K-means 聚类应用于自控变量,以确定哪些变量彼此关系最密切。对于 K=2,K-means 算法始终挑选出一个包含 SSRT 变量的聚类和一个包含冲动性变量的聚类。K 值越高,结果越不一致;例如,当 K=3 时,该算法有时会识别出仅包含 UPPS 感觉寻求变量的第三个聚类,而在其他情况下,它会将 SSRT 变量分成两个独立的聚类(如图 [16.6](#fig:kmeansSro) 所示)。K=2 的聚类的稳定性表明,这可能是这些数据的最稳健的聚类,但这些结果也突出了多次运行算法以确定任何特定聚类结果是否稳定的重要性。 @@ -140,13 +140,13 @@ ![A dendrogram depicting the relative similarity of the nine self-control variables. The three colored vertical lines represent three different cutoffs, resulting in either two (blue line), three (green line), or four (red line) clusters.](img/file91.png) -图16.7:描述九个自控变量相对相似性的树状图。三条彩色垂直线代表三个不同的截止点,产生两个(蓝线)、三个(绿线)或四个(红线)聚类。 +图 16.7:描述九个自控变量相对相似性的树状图。三条彩色垂直线代表三个不同的截止点,产生两个(蓝线)、三个(绿线)或四个(红线)聚类。 -图 [16.7](#fig:dendro) 显示了自调节数据集生成的树状图。这里我们看到,变量之间的关系是有结构的,可以通过“切割”树来创建不同数量的集群,从而在不同的级别上理解:如果我们以25°切割树,我们会得到两个集群;如果我们在20度切割它,我们得到三个集群,在19度我们得到四个集群。 +图 [16.7](#fig:dendro) 显示了自调节数据集生成的树状图。这里我们看到,变量之间的关系是有结构的,可以通过“切割”树来创建不同数量的集群,从而在不同的级别上理解:如果我们以 25°切割树,我们会得到两个集群;如果我们在 20 度切割它,我们得到三个集群,在 19 度我们得到四个集群。 -有趣的是,通过自身对照数据的分层聚类分析发现的解决方案与在大多数K-means聚类运行中发现的解决方案是相同的,这是令人欣慰的。 +有趣的是,通过自身对照数据的分层聚类分析发现的解决方案与在大多数 K-means 聚类运行中发现的解决方案是相同的,这是令人欣慰的。 -我们对此分析的解释是,与变量集之间相比,每个变量集(SSRT和UPPS)内部都有高度的相似性。在UPPS变量中,感觉寻求变量似乎独立于其他变量,而其他变量彼此更加相似。在SSRT变量中,刺激选择性SSRT变量似乎不同于其他三个更相似的变量。这些是可以从聚类分析中得出的结论。再次重要的是指出不存在单一的“正确的”集群数量;不同的方法依赖于不同的假设或启发,可以给出不同的结果和解释。一般来说,最好在几个不同的级别上呈现数据集群,并确保这不会显著改变数据的解释。 +我们对此分析的解释是,与变量集之间相比,每个变量集(SSRT 和 UPPS)内部都有高度的相似性。在 UPPS 变量中,感觉寻求变量似乎独立于其他变量,而其他变量彼此更加相似。在 SSRT 变量中,刺激选择性 SSRT 变量似乎不同于其他三个更相似的变量。这些是可以从聚类分析中得出的结论。再次重要的是指出不存在单一的“正确的”集群数量;不同的方法依赖于不同的假设或启发,可以给出不同的结果和解释。一般来说,最好在几个不同的级别上呈现数据集群,并确保这不会显著改变数据的解释。 @@ -164,21 +164,21 @@ 主成分分析背后的思想是找到一组变量的低维描述,该描述说明了完整数据集中最大可能的信息量。深入理解主成分分析需要对线性代数有所了解,这不在本书范围内;请参阅本章末尾的参考资料,获取有关该主题的有用指南。在这一节中,我将概述这个概念,希望能激起你学习更多的兴趣。 -我们将从一个只有两个变量的简单例子开始,以便直观地了解它是如何工作的。首先,我们为变量X和Y生成一些合成数据,这两个变量之间的相关性为0.7。主成分分析的目标是找到数据集中观察变量的线性组合,它将解释最大的方差;这里的想法是,数据中的方差是信号和噪声的组合,我们希望找到变量之间最强的共同信号。第一个主成分是解释最大方差的组合。第二个分量解释了最大剩余方差,同时也与第一个分量无关。有了更多的变量,我们可以继续这个过程,以获得与变量一样多的分量(假设观测值多于变量),尽管在实践中,我们通常希望找到少量的分量来解释大部分的方差。 +我们将从一个只有两个变量的简单例子开始,以便直观地了解它是如何工作的。首先,我们为变量 X 和 Y 生成一些合成数据,这两个变量之间的相关性为 0.7。主成分分析的目标是找到数据集中观察变量的线性组合,它将解释最大的方差;这里的想法是,数据中的方差是信号和噪声的组合,我们希望找到变量之间最强的共同信号。第一个主成分是解释最大方差的组合。第二个分量解释了最大剩余方差,同时也与第一个分量无关。有了更多的变量,我们可以继续这个过程,以获得与变量一样多的分量(假设观测值多于变量),尽管在实践中,我们通常希望找到少量的分量来解释大部分的方差。 -在我们的二维例子中,我们可以计算主成分,并将它们绘制在数据上(图 [16.8](#fig:pcaPlot) )。我们看到的是,第一个主成分(显示为绿色)遵循最大方差的方向。这条线与线性回归线相似,但不完全相同;当线性回归解决方案最小化在相同X值的每个数据点和回归线之间的距离(即垂直距离)时,主成分最小化数据点和表示该成分的线之间的欧几里德距离(即垂直于该成分的距离)。第二个分量指向与第一个分量垂直的方向(相当于不相关)。 +在我们的二维例子中,我们可以计算主成分,并将它们绘制在数据上(图 [16.8](#fig:pcaPlot) )。我们看到的是,第一个主成分(显示为绿色)遵循最大方差的方向。这条线与线性回归线相似,但不完全相同;当线性回归解决方案最小化在相同 X 值的每个数据点和回归线之间的距离(即垂直距离)时,主成分最小化数据点和表示该成分的线之间的欧几里德距离(即垂直于该成分的距离)。第二个分量指向与第一个分量垂直的方向(相当于不相关)。 ![A plot of synthetic data, with the first principal component plotted in green and the second in red.](img/file92.png) -图16.8:合成数据图,第一个主成分标为绿色,第二个标为红色。 +图 16.8:合成数据图,第一个主成分标为绿色,第二个标为红色。 -通常使用主成分分析来降低更复杂数据集的维数。例如,假设我们想知道早期数据集中所有四个停止信号任务变量的表现是否与五个冲动性调查变量相关。我们可以分别对这些数据集执行PCA,并检查数据中有多少方差是由第一主成分解释的,这将作为我们对数据的总结。 +通常使用主成分分析来降低更复杂数据集的维数。例如,假设我们想知道早期数据集中所有四个停止信号任务变量的表现是否与五个冲动性调查变量相关。我们可以分别对这些数据集执行 PCA,并检查数据中有多少方差是由第一主成分解释的,这将作为我们对数据的总结。 ![A plot of the variance accounted for (or *scree plot*) for PCA applied separately to the response inhibition and impulsivity variables from the Eisenberg dataset.](img/file93.png) -图16.9:五氯苯甲醚的方差图(或 *scree图*)分别应用于艾森伯格数据集的反应抑制和冲动性变量。 +图 16.9:五氯苯甲醚的方差图(或 *scree 图*)分别应用于艾森伯格数据集的反应抑制和冲动性变量。 -我们在图 [16.9](#fig:VAF) 中看到,对于停止信号变量,第一主成分约占数据方差的60%,而对于UPPS,它约占方差的55%。然后,我们可以计算使用第一个主成分从每组变量获得的分数之间的相关性,以确定两组变量之间是否存在关系。两个汇总变量之间的相关性为-0.014,表明在该数据集中,反应抑制和冲动性之间没有总体关系。 +我们在图 [16.9](#fig:VAF) 中看到,对于停止信号变量,第一主成分约占数据方差的 60%,而对于 UPPS,它约占方差的 55%。然后,我们可以计算使用第一个主成分从每组变量获得的分数之间的相关性,以确定两组变量之间是否存在关系。两个汇总变量之间的相关性为-0.014,表明在该数据集中,反应抑制和冲动性之间没有总体关系。 ``` ## @@ -194,17 +194,17 @@ ## -0.015 ``` -我们也可以一次对所有这些变量进行主成分分析。查看图 [16.7](#fig:dendro) 中的方差图(也称为*scree图),我们可以看到前两个分量占数据中方差的很大一部分。然后,我们可以查看这两个组件上每个单独变量的负载,以了解每个特定变量如何与不同的组件相关联。 +我们也可以一次对所有这些变量进行主成分分析。查看图 [16.7](#fig:dendro) 中的方差图(也称为*scree 图),我们可以看到前两个分量占数据中方差的很大一部分。然后,我们可以查看这两个组件上每个单独变量的负载,以了解每个特定变量如何与不同的组件相关联。 ![Plot of variance accounted for by PCA components computed on the full set of self-control variables.](img/file94.png) -(#fig:imp_pc_scree)根据全套自控变量计算的PCA成分的方差图。 +(#fig:imp_pc_scree)根据全套自控变量计算的 PCA 成分的方差图。 ![Plot of variable loadings in PCA solution including all self-control variables. Each variable is shown in terms of its loadings on each of the two components; reflected in the two rows respectively.](img/file95.png) -图16.10:包含所有自控变量的PCA溶液中的可变负荷图。每个变量都以其在两个分量上的载荷来表示;分别反映在两排。 +图 16.10:包含所有自控变量的 PCA 溶液中的可变负荷图。每个变量都以其在两个分量上的载荷来表示;分别反映在两排。 -对冲动性数据集(图 [16.10](#fig:pcaVarPlot) )这样做,我们看到第一个分量(在图的第一行)对大多数UPPS变量具有非零载荷,对每个SSRT变量几乎为零载荷,而第二个主分量则相反,它主要加载SSRT变量。这告诉我们,第一主成分主要捕获与冲动性测量相关的方差,而第二主成分主要捕获与反应抑制测量相关的方差。你可能会注意到,对于这些变量中的大多数,载荷实际上是负的;载荷的符号是任意的,所以我们应该确保看到大的正负载荷。 +对冲动性数据集(图 [16.10](#fig:pcaVarPlot) )这样做,我们看到第一个分量(在图的第一行)对大多数 UPPS 变量具有非零载荷,对每个 SSRT 变量几乎为零载荷,而第二个主分量则相反,它主要加载 SSRT 变量。这告诉我们,第一主成分主要捕获与冲动性测量相关的方差,而第二主成分主要捕获与反应抑制测量相关的方差。你可能会注意到,对于这些变量中的大多数,载荷实际上是负的;载荷的符号是任意的,所以我们应该确保看到大的正负载荷。 @@ -212,7 +212,7 @@ ### 16.4.2 因素分析 -虽然主成分分析可用于将数据集减少到较少数量的复合变量,但PCA的标准方法有一些局限性。最重要的是,它确保组件是不相关的;虽然这有时很有用,但在很多情况下,我们希望提取可能相互关联的维度。第二个限制是PCA不考虑被分析变量的测量误差,这会导致难以解释部件上的最终载荷。虽然PCA的修改可以解决这些问题,但在一些领域(如心理学)更常见的是使用一种称为*探索性因子分析*(或EFA)的技术来降低数据集的维度。 [1](#fn1) +虽然主成分分析可用于将数据集减少到较少数量的复合变量,但 PCA 的标准方法有一些局限性。最重要的是,它确保组件是不相关的;虽然这有时很有用,但在很多情况下,我们希望提取可能相互关联的维度。第二个限制是 PCA 不考虑被分析变量的测量误差,这会导致难以解释部件上的最终载荷。虽然 PCA 的修改可以解决这些问题,但在一些领域(如心理学)更常见的是使用一种称为*探索性因子分析*(或 EFA)的技术来降低数据集的维度。 [1](#fn1) 全民教育背后的想法是,每个观察到的变量都是通过一组潜在变量(即无法直接观察到的变量)的贡献组合而成的,同时每个变量都有一定的测量误差。出于这个原因,全民教育模型通常被称为属于一类被称为*潜在变量模型*的统计模型。 @@ -224,13 +224,13 @@ (#fig:efa_cor_hmap)热图显示了从三个潜在变量生成的变量之间的相关性。 -我们可以认为EFA是一次性估计一组线性模型的参数,其中每个模型将每个观察变量与潜在变量相关联。对于我们的例子,这些方程看起来如下。在这些等式中,\ beta字符有两个下标,一个表示任务,另一个表示潜在变量,还有一个变量【ϵ】表示误差。这里我们将假设一切都有一个零均值,所以我们不需要为每个方程包括一个额外的截距项。 +我们可以认为 EFA 是一次性估计一组线性模型的参数,其中每个模型将每个观察变量与潜在变量相关联。对于我们的例子,这些方程看起来如下。在这些等式中,\ beta字符有两个下标,一个表示任务,另一个表示潜在变量,还有一个变量【ϵ】表示误差。这里我们将假设一切都有一个零均值,所以我们不需要为每个方程包括一个额外的截距项。 nback=beta[1,1]*WM+β[1,2]*FR+β[1,3]*IMP+ϵdspan=beta[2,1]*WM+β[2,2]*FR+β[2,3]*IMP+ϵospan=beta[3,1]*WM+β[3,2]*FR+β[3,3]*IMP+ϵravens=beta[4,1]*WM+β[4,2]*FR+β[4,3]*IMP+ϵcrt=beta[5,1]*WM+β[5,2]*FR+β[5,3]*IMP+ϵUPPS=beta[6,1]*WM+β[6,2]*FR+β[6,3]*IMP+ϵBIS11=beta[7,1]*WM+β[7,2]*FR+β[7,3]*IMP+ϵdickman=beta[8,1]*WM+β[8,2]*FR+β[8,3]*IMP+ϵ \begin{array}{lcl} nback & = &beta_{[1, 1]} * WM + \beta_{[1, 2]} * FR + \beta_{[1, 3]} * IMP + \epsilon \\ dspan & = &beta_{[2, 1]} * WM + \beta_{[2, 2]} * FR + \beta_{[2, 3]} * IMP + \epsilon \\ ospan & = &beta_{[3, 1]} * WM + \beta_{[3, 2]} * FR + \beta_{[3, 3]} * IMP + \epsilon \\ ravens & = &beta_{[4, 1]} * WM + \beta_{[4, 2]} * FR + \beta_{[4, 3]} * IMP + \epsilon \\ crt & = &beta_{[5, 1]} * WM + \beta_{[5, 2]} * FR + \beta_{[5, 3]} * IMP + \epsilon \\ UPPS & = &beta_{[6, 1]} * WM + \beta_{[6, 2]} * FR + \beta_{[6, 3]} * IMP + \epsilon \\ BIS11 & = &beta_{[7, 1]} * WM + \beta_{[7, 2]} * FR + \beta_{[7, 3]} * IMP + \epsilon \\ dickman & = &beta_{[8, 1]} * WM + \beta_{[8, 2]} * FR + \beta_{[8, 3]} * IMP + \epsilon \\ \end{array} -实际上,我们使用EFA想要做的是估计系数(betas)的*矩阵*,该矩阵将潜在变量映射到观察变量。对于我们正在生成的数据,我们知道这个矩阵中的大多数贝塔系数为零,因为我们是这样创建它们的;对于每个任务,只有一个权重设置为1,这意味着每个任务是单个潜在变量的有噪声的测量。 +实际上,我们使用 EFA 想要做的是估计系数(betas)的*矩阵*,该矩阵将潜在变量映射到观察变量。对于我们正在生成的数据,我们知道这个矩阵中的大多数贝塔系数为零,因为我们是这样创建它们的;对于每个任务,只有一个权重设置为 1,这意味着每个任务是单个潜在变量的有噪声的测量。 -我们可以将EFA应用于我们的合成数据集来估计这些参数。除了提到重要的一点之外,我们不会详细讨论全民教育实际上是如何实施的。本书中之前的大多数分析都依赖于试图最小化观测数据值和模型预测值之间差异的方法。用于估计EFA参数的方法试图最小化观察变量间的观察到的*协方差*和模型参数隐含的协方差之间的差异。为此,这些方法通常被称为*协方差结构模型*。 +我们可以将 EFA 应用于我们的合成数据集来估计这些参数。除了提到重要的一点之外,我们不会详细讨论全民教育实际上是如何实施的。本书中之前的大多数分析都依赖于试图最小化观测数据值和模型预测值之间差异的方法。用于估计 EFA 参数的方法试图最小化观察变量间的观察到的*协方差*和模型参数隐含的协方差之间的差异。为此,这些方法通常被称为*协方差结构模型*。 让我们对我们的综合数据进行探索性因素分析。与聚类方法一样,我们需要首先确定我们想要在模型中包含多少潜在因素。在这种情况下,我们知道有三个因素,所以让我们从这一点开始;稍后,我们将研究直接从数据中估计因子数量的方法。这是我们的统计软件对此模型的输出: @@ -255,13 +255,13 @@ ## MR3 0.47 0.03 1.00 ``` -我们想问的一个问题是,我们的模型实际上有多符合数据。这个问题没有单一的答案;相反,研究人员开发了许多不同的方法,为模型与数据的拟合程度提供了一些见解。例如,一个常用的标准是基于近似的 (RMSEA)统计的*均方根误差,其量化了预测的协方差与实际协方差有多远;小于0.08的RMSEA值通常被认为反映了充分适合的模型。在这里的例子中,RMSEA值是0.026,这表明模型非常适合。* +我们想问的一个问题是,我们的模型实际上有多符合数据。这个问题没有单一的答案;相反,研究人员开发了许多不同的方法,为模型与数据的拟合程度提供了一些见解。例如,一个常用的标准是基于近似的 (RMSEA)统计的*均方根误差,其量化了预测的协方差与实际协方差有多远;小于 0.08 的 RMSEA 值通常被认为反映了充分适合的模型。在这里的例子中,RMSEA 值是 0.026,这表明模型非常适合。* -我们还可以检查参数估计,以查看模型是否恰当地识别了数据中的结构。通常将其绘制成图表,从潜在变量(表示为椭圆)指向观察变量(表示为矩形),其中箭头表示潜在变量上观察变量的实际负载;这种图形通常被称为*路径图*,因为它反映了与变量相关的路径。如图 [16.11](#fig:faDiagram) 所示。在这种情况下,EFA程序正确地识别了数据中存在的结构,既识别了哪些观察变量与每个潜在变量相关,又识别了潜在变量之间的相关性。 +我们还可以检查参数估计,以查看模型是否恰当地识别了数据中的结构。通常将其绘制成图表,从潜在变量(表示为椭圆)指向观察变量(表示为矩形),其中箭头表示潜在变量上观察变量的实际负载;这种图形通常被称为*路径图*,因为它反映了与变量相关的路径。如图 [16.11](#fig:faDiagram) 所示。在这种情况下,EFA 程序正确地识别了数据中存在的结构,既识别了哪些观察变量与每个潜在变量相关,又识别了潜在变量之间的相关性。 ![Path diagram for the exploratory factor analysis model.](img/file97.png) -图16.11:探索性因素分析模型的路径图。 +图 16.11:探索性因素分析模型的路径图。 @@ -271,17 +271,17 @@ 应用全民教育的主要挑战之一是确定因素的数量。一种常见的方法是在改变因素数量的同时检查模型的拟合度,然后选择给出最佳拟合度的模型。这不是万无一失的,有多种方法可以量化模型的拟合度,有时会给出不同的答案。 -有人可能会认为,我们可以简单地看看模型的拟合程度,然后挑选出最拟合的因素数量,但这是行不通的,因为更复杂的模型总是会更好地拟合数据(正如我们在前面关于过度拟合的讨论中看到的)。出于这个原因,我们需要使用一个模型拟合的度量标准,它对模型中的参数数量进行惩罚。出于这个例子的目的,我们将选择一种用于量化模型拟合的常用方法,它被称为*样本大小调整贝叶斯信息标准*(或 *SABIC* )。这种方法量化了模型与数据的拟合程度,同时还考虑了模型中的参数数量(在这种情况下与因子数量相关)以及样本大小。虽然SABIC的绝对值是不可解释的,但当使用相同的数据和相同类型的模型时,我们可以使用SABIC来比较模型,以确定哪个模型最适合该数据。关于SABIC和类似的其他指标(被称为*信息标准*)需要知道的一件重要事情是,较低的值代表模型更好的拟合,因此在这种情况下,我们希望找到具有最低SABIC的因子的数量。在图 [16.12](#fig:sabicPlot) 中,我们看到具有最低SABIC的模型有三个因子,这表明这种方法能够准确地确定用于生成数据的因子的数量。 +有人可能会认为,我们可以简单地看看模型的拟合程度,然后挑选出最拟合的因素数量,但这是行不通的,因为更复杂的模型总是会更好地拟合数据(正如我们在前面关于过度拟合的讨论中看到的)。出于这个原因,我们需要使用一个模型拟合的度量标准,它对模型中的参数数量进行惩罚。出于这个例子的目的,我们将选择一种用于量化模型拟合的常用方法,它被称为*样本大小调整贝叶斯信息标准*(或 *SABIC* )。这种方法量化了模型与数据的拟合程度,同时还考虑了模型中的参数数量(在这种情况下与因子数量相关)以及样本大小。虽然 SABIC 的绝对值是不可解释的,但当使用相同的数据和相同类型的模型时,我们可以使用 SABIC 来比较模型,以确定哪个模型最适合该数据。关于 SABIC 和类似的其他指标(被称为*信息标准*)需要知道的一件重要事情是,较低的值代表模型更好的拟合,因此在这种情况下,我们希望找到具有最低 SABIC 的因子的数量。在图 [16.12](#fig:sabicPlot) 中,我们看到具有最低 SABIC 的模型有三个因子,这表明这种方法能够准确地确定用于生成数据的因子的数量。 ![Plot of SABIC for varying numbers of factors.](img/file98.png) -图16.12:不同因素的SABIC图。 +图 16.12:不同因素的 SABIC 图。 -现在,让我们看看当我们将该模型应用于来自Eisenberg等人的数据集的真实数据时会发生什么,该数据集包含在上述示例中模拟的所有八个变量的测量值。对于这些真实数据,具有三个因素的模型也具有最低的SABIC。 +现在,让我们看看当我们将该模型应用于来自 Eisenberg 等人的数据集的真实数据时会发生什么,该数据集包含在上述示例中模拟的所有八个变量的测量值。对于这些真实数据,具有三个因素的模型也具有最低的 SABIC。 ![Path diagram for the three-factor model on the Eisenberg et al. data.](img/file99.png) -图16.13:艾森伯格等人数据的三因素模型的路径图。 +图 16.13:艾森伯格等人数据的三因素模型的路径图。 绘制路径图(图 [16.13](#fig:faDiagramSro) )我们看到,真实数据展示了一个与模拟数据非常相似的因素结构。这并不奇怪,因为模拟数据是基于对这些不同任务的了解而生成的,但令人欣慰的是,人类行为足够系统化,我们可以可靠地识别这些类型的关系。主要区别在于工作记忆因子(MR3)和流畅推理因子(MR1)之间的相关性甚至比模拟数据中的更高。这一结果在科学上是有用的,因为它向我们表明,虽然工作记忆和流畅推理密切相关,但将它们分开建模是有用的。 @@ -318,5 +318,5 @@ * * * -1. 因子分析的另一个应用被称为*验证性因子分析*(或CFA),我们在此不做讨论;在实践中,它的应用可能会有问题,最近的工作已经开始转向修改全民教育,可以回答经常使用综合行动框架解决的问题。 ( [**马什:2014?**](#ref-Marsh:2014th) ) [↩︎](#fnref1) +1. 因子分析的另一个应用被称为*验证性因子分析*(或 CFA),我们在此不做讨论;在实践中,它的应用可能会有问题,最近的工作已经开始转向修改全民教育,可以回答经常使用综合行动框架解决的问题。 ( [**马什:2014?**](#ref-Marsh:2014th) ) [↩︎](#fnref1) diff --git a/docs/17.md b/docs/17.md index d5497d6..1efd89e 100644 --- a/docs/17.md +++ b/docs/17.md @@ -2,7 +2,7 @@ # 17 实用统计建模 -在这一章中,我们将把我们所学的知识运用到一个实际的例子中。2007年,Christopher Gardner和来自Stanford的同事在美国医学协会杂志上发表了一项名为“Atkins,Zone,Ornish和LEARN饮食对绝经前超重妇女体重变化和相关风险因素的比较——A到Z减肥研究:随机试验”的研究 ( [Gardner等人,2007年](ch020.xhtml#ref-gard:kiaz:alha:2007) ) 。我们将通过这项研究来展示如何从头到尾分析一个实验数据集。 +在这一章中,我们将把我们所学的知识运用到一个实际的例子中。2007 年,Christopher Gardner 和来自 Stanford 的同事在美国医学协会杂志上发表了一项名为“Atkins,Zone,Ornish 和 LEARN 饮食对绝经前超重妇女体重变化和相关风险因素的比较——A 到 Z 减肥研究:随机试验”的研究 ( [Gardner 等人,2007 年](ch020.xhtml#ref-gard:kiaz:alha:2007) ) 。我们将通过这项研究来展示如何从头到尾分析一个实验数据集。 @@ -24,7 +24,7 @@ 根据作者的说法,他们研究的目标是: -> 比较代表从低到高碳水化合物摄入范围的4种减肥食谱对减肥和相关代谢变量的影响。 +> 比较代表从低到高碳水化合物摄入范围的 4 种减肥食谱对减肥和相关代谢变量的影响。 @@ -32,7 +32,7 @@ ### 17.1.2 2:识别或收集适当的数据 -为了回答他们的问题,研究人员将311名超重/肥胖女性随机分配到四种不同饮食中的一种(阿特金斯、Zone、Ornish或LEARN),并随着时间的推移测量她们的体重和许多其他健康指标。作者记录了大量的变量,但对于感兴趣的主要问题,让我们专注于一个变量:身体质量指数(身体质量指数)。此外,由于我们的目标是测量身体质量指数的持久变化,我们将只关注饮食开始后12个月的测量。 +为了回答他们的问题,研究人员将 311 名超重/肥胖女性随机分配到四种不同饮食中的一种(阿特金斯、Zone、Ornish 或 LEARN),并随着时间的推移测量她们的体重和许多其他健康指标。作者记录了大量的变量,但对于感兴趣的主要问题,让我们专注于一个变量:身体质量指数(身体质量指数)。此外,由于我们的目标是测量身体质量指数的持久变化,我们将只关注饮食开始后 12 个月的测量。 @@ -42,9 +42,9 @@ ![Box plots for each condition, with the 50th percentile (i.e the median) shown as a black line for each group.](img/file100.png) -图17.1:每种情况下的箱线图,第50个百分位数(即中位数)显示为每组的黑线。 +图 17.1:每种情况下的箱线图,第 50 个百分位数(即中位数)显示为每组的黑线。 -从A到Z研究的实际数据是不公开的,所以我们将使用他们论文中报告的汇总数据来生成一些合成数据,这些数据大致与他们研究中获得的数据相匹配,每组的均值和标准差都相同。一旦我们有了数据,我们可以将它们可视化,以确保没有异常值。箱线图有助于观察分布的形状,如图 [17.1](#fig:AtoZBMIChangeDensity) 所示。这些数据看起来相当合理——在单个组中有几个异常值(由方框图外的点表示),但对于其他组来说,它们似乎并不极端。我们还可以看到,这些分布的方差似乎有点不同,阿特金斯比其他人显示出更大的可变性。这意味着任何假设组间方差相等的分析都可能是不合适的。幸运的是,我们计划使用的方差分析模型对此相当稳健。 +从 A 到 Z 研究的实际数据是不公开的,所以我们将使用他们论文中报告的汇总数据来生成一些合成数据,这些数据大致与他们研究中获得的数据相匹配,每组的均值和标准差都相同。一旦我们有了数据,我们可以将它们可视化,以确保没有异常值。箱线图有助于观察分布的形状,如图 [17.1](#fig:AtoZBMIChangeDensity) 所示。这些数据看起来相当合理——在单个组中有几个异常值(由方框图外的点表示),但对于其他组来说,它们似乎并不极端。我们还可以看到,这些分布的方差似乎有点不同,阿特金斯比其他人显示出更大的可变性。这意味着任何假设组间方差相等的分析都可能是不合适的。幸运的是,我们计划使用的方差分析模型对此相当稳健。 @@ -61,7 +61,7 @@ * 方差分析是合适的 * 观察是独立的吗? * 随机分配应确保独立性假设是适当的 - * 差异分数的使用(在这种情况下是开始体重和12个月后体重之间的差异)有些争议,特别是当各组之间的起点不同时。在这种情况下,各组之间的起始权重非常相似,因此我们将使用差异分数,但一般来说,在将这种模型应用于实际数据之前,人们会希望咨询统计学家。 + * 差异分数的使用(在这种情况下是开始体重和 12 个月后体重之间的差异)有些争议,特别是当各组之间的起点不同时。在这种情况下,各组之间的起始权重非常相似,因此我们将使用差异分数,但一般来说,在将这种模型应用于实际数据之前,人们会希望咨询统计学家。 @@ -73,11 +73,11 @@ 因变量自变量\ text {因变量} \ sim \ text {自变量} -在这种情况下,我们希望将身体质量指数的变化(存储在名为 *BMIChange12Months* 的变量中)视为饮食(存储在名为*diet的变量中)的函数,因此我们使用公式: +在这种情况下,我们希望将身体质量指数的变化(存储在名为 *BMIChange12Months* 的变量中)视为饮食(存储在名为*diet 的变量中)的函数,因此我们使用公式: 【B3】【b】【m】【I】【c】【a】 -大多数统计软件(包括R)会在模型包含一个名义变量时自动创建一组哑变量(比如 *diet* 变量,包含每个人接受的饮食名称)。以下是该模型与我们的数据相吻合的结果: +大多数统计软件(包括 R)会在模型包含一个名义变量时自动创建一组哑变量(比如 *diet* 变量,包含每个人接受的饮食名称)。以下是该模型与我们的数据相吻合的结果: ``` ## @@ -102,7 +102,7 @@ ## F-statistic: 3.58 on 3 and 307 DF, p-value: 0.0143 ``` -请注意,软件自动生成了与四种饮食中的三种相对应的虚拟变量,使得阿特金斯饮食没有虚拟变量。这意味着截距代表阿特金斯饮食组的平均值,其他三个变量模拟了每种饮食的平均值与阿特金斯饮食的平均值之间的差异。选择Atkins作为未建模的基线变量仅仅是因为它在字母顺序中是第一个。 +请注意,软件自动生成了与四种饮食中的三种相对应的虚拟变量,使得阿特金斯饮食没有虚拟变量。这意味着截距代表阿特金斯饮食组的平均值,其他三个变量模拟了每种饮食的平均值与阿特金斯饮食的平均值之间的差异。选择 Atkins 作为未建模的基线变量仅仅是因为它在字母顺序中是第一个。 @@ -114,13 +114,13 @@ ![Distribution of residuals for for each condition](img/file101.png) -图17.2:每种条件下的残差分布 +图 17.2:每种条件下的残差分布 -我们应用于线性模型的统计检验的另一个重要假设是模型的残差是正态分布的。线性模型要求*数据*呈正态分布,这是一种常见的误解,但事实并非如此;正确统计的唯一要求是残差呈正态分布。图 [17.3](#fig:diagnosticQQPlot) 的右侧面板显示了Q-Q(分位数-分位数)图,该图根据残差在正态分布中的分位数,绘制了残差与其期望值的关系。如果残差呈正态分布,那么数据点应该沿着虚线分布,在这种情况下,它看起来很好,除了在底部很明显的几个异常值,因为该模型对违反正态分布的情况也相对稳健,这些异常值相当小,我们将继续使用结果。 +我们应用于线性模型的统计检验的另一个重要假设是模型的残差是正态分布的。线性模型要求*数据*呈正态分布,这是一种常见的误解,但事实并非如此;正确统计的唯一要求是残差呈正态分布。图 [17.3](#fig:diagnosticQQPlot) 的右侧面板显示了 Q-Q(分位数-分位数)图,该图根据残差在正态分布中的分位数,绘制了残差与其期望值的关系。如果残差呈正态分布,那么数据点应该沿着虚线分布,在这种情况下,它看起来很好,除了在底部很明显的几个异常值,因为该模型对违反正态分布的情况也相对稳健,这些异常值相当小,我们将继续使用结果。 ![Q-Q plot of actual residual values against theoretical residual values](img/file102.png) -图17.3:实际残差值与理论残差值的Q-Q图 +图 17.3:实际残差值与理论残差值的 Q-Q 图 @@ -128,9 +128,9 @@ ### 17.1.7 7。测试假设并量化影响大小 -首先,让我们回顾一下方差分析的结果汇总,如上面的步骤5所示。显著性f检验表明饮食之间存在显著差异,但我们也应该注意到该模型实际上并没有解释数据中的太多差异;R平方值仅为0.03,表明该模型仅解释了体重减轻差异的百分之几。因此,我们不想过度解读这个结果。 +首先,让我们回顾一下方差分析的结果汇总,如上面的步骤 5 所示。显著性 f 检验表明饮食之间存在显著差异,但我们也应该注意到该模型实际上并没有解释数据中的太多差异;R 平方值仅为 0.03,表明该模型仅解释了体重减轻差异的百分之几。因此,我们不想过度解读这个结果。 -综合F检验的显著结果也没有告诉我们哪种饮食不同于其他饮食。通过比较不同条件下的平均值,我们可以发现更多信息。因为我们要进行几次比较,所以需要对这些比较进行校正,这需要使用一种称为Tukey方法的程序来完成,该方法由我们的统计软件实现: +综合 F 检验的显著结果也没有告诉我们哪种饮食不同于其他饮食。通过比较不同条件下的平均值,我们可以发现更多信息。因为我们要进行几次比较,所以需要对这些比较进行校正,这需要使用一种称为 Tukey 方法的程序来完成,该方法由我们的统计软件实现: ``` ## diet emmean SE df lower.CL upper.CL .group @@ -147,7 +147,7 @@ ## Consider using 'pairs()', 'pwpp()', or 'pwpm()' instead. ``` -最右边一栏中的字母显示了哪些组彼此不同,使用的方法是根据正在进行的比较次数进行调整;共享一个字母的条件彼此之间没有显著差异。这表明阿特金斯饮食法和学习饮食法彼此没有区别(因为它们共享字母a),学习饮食法、欧尼斯饮食法和区域饮食法彼此没有区别(因为它们共享字母b),但是阿特金斯饮食法不同于欧尼斯饮食法和区域饮食法(因为它们没有共享字母)。 +最右边一栏中的字母显示了哪些组彼此不同,使用的方法是根据正在进行的比较次数进行调整;共享一个字母的条件彼此之间没有显著差异。这表明阿特金斯饮食法和学习饮食法彼此没有区别(因为它们共享字母 a),学习饮食法、欧尼斯饮食法和区域饮食法彼此没有区别(因为它们共享字母 b),但是阿特金斯饮食法不同于欧尼斯饮食法和区域饮食法(因为它们没有共享字母)。 @@ -165,11 +165,11 @@ | 奥尼什语 | Seventy-six | Zero point three eight | | 地区 | Seventy-nine | Zero point three four | -从数据来看,似乎各组之间的比率略有不同,在Ornish和Zone饮食中有更多的代谢综合征病例——这正是结果较差的饮食。假设我们对测试各组之间代谢综合征的发生率是否有显著差异感兴趣,因为这可能会使我们担心这些差异可能会影响饮食结果的结果。 +从数据来看,似乎各组之间的比率略有不同,在 Ornish 和 Zone 饮食中有更多的代谢综合征病例——这正是结果较差的饮食。假设我们对测试各组之间代谢综合征的发生率是否有显著差异感兴趣,因为这可能会使我们担心这些差异可能会影响饮食结果的结果。 -#### 17.1.8.1确定合适的型号 +#### 17.1.8.1 确定合适的型号 * 什么样的因变量? * 比例 @@ -187,7 +187,7 @@ ## X-squared = 4, df = 3, p-value = 0.3 ``` -该测试表明,平均值之间没有显著差异。然而,它并没有告诉我们有多确定没有差别;请记住,在NHST理论下,我们总是在假设零为真的情况下工作,除非数据向我们展示了足够的证据,使我们拒绝零假设。 +该测试表明,平均值之间没有显著差异。然而,它并没有告诉我们有多确定没有差别;请记住,在 NHST 理论下,我们总是在假设零为真的情况下工作,除非数据向我们展示了足够的证据,使我们拒绝零假设。 如果我们想量化支持或反对零的证据呢?我们可以用贝叶斯因子来做这件事。 @@ -202,7 +202,7 @@ ## Bayes factor type: BFcontingencyTable, independent multinomial ``` -这向我们表明,替代假设比零假设的可能性高0.058倍,这意味着在给定这些数据的情况下,零假设比替代假设的可能性高1/0.058 ~ 17倍。这是相当有力的,如果不是完全压倒性的,支持零假设的证据。 +这向我们表明,替代假设比零假设的可能性高 0.058 倍,这意味着在给定这些数据的情况下,零假设比替代假设的可能性高 1/0.058 ~ 17 倍。这是相当有力的,如果不是完全压倒性的,支持零假设的证据。 diff --git a/docs/18.md b/docs/18.md index d3f81b4..5c90cb9 100644 --- a/docs/18.md +++ b/docs/18.md @@ -2,22 +2,22 @@ # 18 做可重复的研究 -大多数人认为科学是回答世界问题的可靠方法。当我们的医生开出一种疗法时,我们相信它已经被研究证明是有效的,我们也同样相信我们乘坐的飞机不会从天上掉下来。然而,自2005年以来,越来越多的人担心,科学可能并不总是像我们长期以来认为的那样有效。在这一章中,我们将讨论这些关于科学研究可再现性的问题,并概述确保我们的统计结果尽可能可再现的步骤。 +大多数人认为科学是回答世界问题的可靠方法。当我们的医生开出一种疗法时,我们相信它已经被研究证明是有效的,我们也同样相信我们乘坐的飞机不会从天上掉下来。然而,自 2005 年以来,越来越多的人担心,科学可能并不总是像我们长期以来认为的那样有效。在这一章中,我们将讨论这些关于科学研究可再现性的问题,并概述确保我们的统计结果尽可能可再现的步骤。 ## 我们认为科学应该如何运作 -假设我们对一个关于儿童如何选择吃什么的研究项目感兴趣。这是知名饮食研究者布莱恩·万辛克及其同事在2012年的一项研究中提出的问题。标准的(我们将看到,有些天真的)观点是这样的: +假设我们对一个关于儿童如何选择吃什么的研究项目感兴趣。这是知名饮食研究者布莱恩·万辛克及其同事在 2012 年的一项研究中提出的问题。标准的(我们将看到,有些天真的)观点是这样的: * 你从一个假设开始 * 用受欢迎的人物做品牌应该会让孩子们更经常地选择“健康”食品 * 你收集一些数据 - * 让孩子们在贴有Elmo品牌标签或对照标签的饼干和苹果之间进行选择,并记录他们的选择 + * 让孩子们在贴有 Elmo 品牌标签或对照标签的饼干和苹果之间进行选择,并记录他们的选择 * 你做统计来检验零假设 - * “预先计划的比较显示,Elmo品牌的苹果与儿童选择苹果而不是饼干的比例增加有关,从20.7%增加到33.8%(χ2\chi^2= 5.158;p = . 02)([Wansink,Just,and Payne 2012](ch020.xhtml#ref-wans:just:payn:2012) ) + * “预先计划的比较显示,Elmo 品牌的苹果与儿童选择苹果而不是饼干的比例增加有关,从 20.7%增加到 33.8%(χ2\chi^2= 5.158;p = . 02)([Wansink,Just,and Payne 2012](ch020.xhtml#ref-wans:just:payn:2012) ) * 你根据数据做出结论 - * “这项研究表明,使用品牌或吸引人的品牌人物对健康食品的益处可能大于对放纵的、高度加工的食品的益处。就像有吸引力的名字可以增加学校餐厅健康食品的选择一样,品牌和卡通人物也可以对幼儿产生同样的效果。 ( [万辛克刚和佩恩2012](ch020.xhtml#ref-wans:just:payn:2012) ) + * “这项研究表明,使用品牌或吸引人的品牌人物对健康食品的益处可能大于对放纵的、高度加工的食品的益处。就像有吸引力的名字可以增加学校餐厅健康食品的选择一样,品牌和卡通人物也可以对幼儿产生同样的效果。 ( [万辛克刚和佩恩 2012](ch020.xhtml#ref-wans:just:payn:2012) ) @@ -25,11 +25,11 @@ ## 科学(有时)实际上是如何运作的 -布莱恩·万辛克因他的《无意识饮食》一书而闻名,他在公司演讲的费用一度高达数万美元。2017年,一组研究人员开始仔细审查他发表的一些研究,从一组关于人们在自助餐吃了多少披萨的论文开始。研究人员要求Wansink分享研究数据,但他拒绝了,因此他们深入研究了他发表的论文,并在论文中发现了大量的不一致和统计问题。围绕这一分析的公开报道导致许多其他人挖掘Wansink的过去,包括获得Wansink和他的合作者之间的电子邮件。正如斯蒂芬妮·李在Buzzfeed 上报道的那样,这些电子邮件显示了Wansink的实际研究实践离天真的模型有多远: +布莱恩·万辛克因他的《无意识饮食》一书而闻名,他在公司演讲的费用一度高达数万美元。2017 年,一组研究人员开始仔细审查他发表的一些研究,从一组关于人们在自助餐吃了多少披萨的论文开始。研究人员要求 Wansink 分享研究数据,但他拒绝了,因此他们深入研究了他发表的论文,并在论文中发现了大量的不一致和统计问题。围绕这一分析的公开报道导致许多其他人挖掘 Wansink 的过去,包括获得 Wansink 和他的合作者之间的电子邮件。正如斯蒂芬妮·李在 Buzzfeed 上报道的那样,这些电子邮件显示了 Wansink 的实际研究实践离天真的模型有多远: -> …早在2008年9月,当佩恩在数据收集后不久查看数据时,他没有发现苹果和埃尔默之间有强有力的联系——至少目前没有。…“我已经将儿童研究的一些初步结果附在你的报告中,”佩恩给他的合作者写道。“不要绝望。看起来水果上的贴纸可能会有用(更神奇一点)。”… Wansink也承认这篇论文很薄弱,因为他正准备向期刊投稿。p值为0.06,略低于0.05的黄金标准临界值。正如他在2012年1月7日的电子邮件中所说,这是一个“症结”。…“在我看来应该更低,”他写道,并附上了一份草稿。“你要不要看一看,看看你有什么想法。如果你能得到数据,而且它需要一些调整,那么最好能得到一个低于0.05的值。”…2012年晚些时候,这项研究发表在著名的JAMA Pediatrics杂志上,p值为0.06。但在2017年9月,它被收回,并被一个列出p值为0.02的版本所取代。一个月后,它又因为一个完全不同的原因被收回:万辛克承认,该实验并没有像他最初声称的那样在8至11岁的儿童身上进行,而是在学龄前儿童身上进行。 +> …早在 2008 年 9 月,当佩恩在数据收集后不久查看数据时,他没有发现苹果和埃尔默之间有强有力的联系——至少目前没有。…“我已经将儿童研究的一些初步结果附在你的报告中,”佩恩给他的合作者写道。“不要绝望。看起来水果上的贴纸可能会有用(更神奇一点)。”… Wansink 也承认这篇论文很薄弱,因为他正准备向期刊投稿。p 值为 0.06,略低于 0.05 的黄金标准临界值。正如他在 2012 年 1 月 7 日的电子邮件中所说,这是一个“症结”。…“在我看来应该更低,”他写道,并附上了一份草稿。“你要不要看一看,看看你有什么想法。如果你能得到数据,而且它需要一些调整,那么最好能得到一个低于 0.05 的值。”…2012 年晚些时候,这项研究发表在著名的 JAMA Pediatrics 杂志上,p 值为 0.06。但在 2017 年 9 月,它被收回,并被一个列出 p 值为 0.02 的版本所取代。一个月后,它又因为一个完全不同的原因被收回:万辛克承认,该实验并没有像他最初声称的那样在 8 至 11 岁的儿童身上进行,而是在学龄前儿童身上进行。 -这种行为终于赶上了万辛克;他的15项研究被撤回,2018年,他辞去了康奈尔大学的教职。 +这种行为终于赶上了万辛克;他的 15 项研究被撤回,2018 年,他辞去了康奈尔大学的教职。 @@ -37,15 +37,15 @@ ## 18.3 科学中的再现性危机 -虽然我们认为Wansink案例中的欺诈行为相对罕见,但越来越清楚的是,重复性问题在科学界比以前想象的要普遍得多。这在2015年变得尤为明显,当时一大群研究人员在杂志 *Science* 上发表了一项研究,题为“估计心理科学的可重复性” ( [开放科学合作2015](ch020.xhtml#ref-open:2015) ) 。在这篇论文中,研究人员选取了100项已发表的心理学研究,并试图重现论文中最初报道的结果。他们的发现令人震惊:尽管97%的原始论文报告了具有统计学意义的发现,但在重复研究中,只有37%的效果具有统计学意义。尽管心理学中的这些问题受到了极大的关注,但它们似乎存在于几乎每个科学领域,从癌症生物学 ( [Errington等人2014](ch020.xhtml#ref-erri:iorn:gunn:2014) ) 和化学 ( [Baker 2017](ch020.xhtml#ref-bake:2017) ) 到经济学 ( [Christensen和Miguel 2016](19.html#ref-NBERw22989) ) 和社会科学 ( [Camerer等人2017)](19.html#ref-Camerer2018EvaluatingTR) +虽然我们认为 Wansink 案例中的欺诈行为相对罕见,但越来越清楚的是,重复性问题在科学界比以前想象的要普遍得多。这在 2015 年变得尤为明显,当时一大群研究人员在杂志 *Science* 上发表了一项研究,题为“估计心理科学的可重复性” ( [开放科学合作 2015](ch020.xhtml#ref-open:2015) ) 。在这篇论文中,研究人员选取了 100 项已发表的心理学研究,并试图重现论文中最初报道的结果。他们的发现令人震惊:尽管 97%的原始论文报告了具有统计学意义的发现,但在重复研究中,只有 37%的效果具有统计学意义。尽管心理学中的这些问题受到了极大的关注,但它们似乎存在于几乎每个科学领域,从癌症生物学 ( [Errington 等人 2014](ch020.xhtml#ref-erri:iorn:gunn:2014) ) 和化学 ( [Baker 2017](ch020.xhtml#ref-bake:2017) ) 到经济学 ( [Christensen 和 Miguel 2016](19.html#ref-NBERw22989) ) 和社会科学 ( [Camerer 等人 2017)](19.html#ref-Camerer2018EvaluatingTR) -2010年后出现的再现性危机实际上是由约翰·约安尼迪斯预测的,他是一位来自斯坦福的医生,在2005年写了一篇题为“为什么大多数发表的研究结果都是假的”的论文。在这篇文章中,约安尼迪斯认为,在现代科学的背景下使用零假设统计测试必然会导致高水平的错误结果。 +2010 年后出现的再现性危机实际上是由约翰·约安尼迪斯预测的,他是一位来自斯坦福的医生,在 2005 年写了一篇题为“为什么大多数发表的研究结果都是假的”的论文。在这篇文章中,约安尼迪斯认为,在现代科学的背景下使用零假设统计测试必然会导致高水平的错误结果。 ### 18.3.1 阳性预测值和统计显著性 -Ioannidis的分析侧重于一个被称为*阳性预测值*的概念,它被定义为真实的阳性结果(通常被翻译为“具有统计显著性的发现”)的比例: +Ioannidis 的分析侧重于一个被称为*阳性预测值*的概念,它被定义为真实的阳性结果(通常被翻译为“具有统计显著性的发现”)的比例: PPV=P(truePsI )p(trepoIt+p(falseposPPV = \ frac { p(true \ positive \ result)} { p(true \ positive \ result)+p(false \ positive \ result)}假设我们知道我们的假设为真的概率(p( 那么一个真阳性结果的概率简单来说就是p(hIsTrue @@ -53,29 +53,29 @@ Ioannidis的分析侧重于一个被称为*阳性预测值*的概念,它被定 【p】(【f】【l13】= -PPV的定义是: +PPV 的定义是: 【p】【p】【v】=p 【I】+ -让我们首先举一个例子,假设为真的概率很高,比如说0.8——尽管注意,一般来说我们实际上无法知道这个概率。假设我们用α=0.05\ alpha = 0.05β=\ beta = 0.2的标准值进行一项研究。我们可以将PPV计算为: +让我们首先举一个例子,假设为真的概率很高,比如说 0.8——尽管注意,一般来说我们实际上无法知道这个概率。假设我们用α=0.05\ alpha = 0.05β=\ beta = 0.2的标准值进行一项研究。我们可以将 PPV 计算为: PPV=0.8*(10.20.8*+(1—T56】0.8)*0.05=0.98 然而,请注意,假设为真的可能性如此之高的研究领域可能不是一个非常有趣的研究领域;当研究告诉我们意想不到的事情时,它是最重要的! -让我们对一个字段做同样的分析,其中p(hIsTrue【T22)=0.1p(hIsTrue)在这种情况下,PPV是: +让我们对一个字段做同样的分析,其中p(hIsTrue【T22)=0.1p(hIsTrue)在这种情况下,PPV 是: 【p】【p】【v】=【0.1】 +(【0.1】)】 这意味着在一个大多数假设都可能是错误的领域(也就是说,一个有趣的科学领域,研究人员正在测试有风险的假设),即使我们发现一个积极的结果,它也更有可能是假的而不是真的!事实上,这只是我们在假设检验的背景下讨论的基础利率效应的另一个例子——当一个结果不太可能发生时,那么几乎可以肯定的是,大多数积极的结果都将是假阳性。 -我们可以对此进行模拟,以显示PPV如何与统计功效相关,作为假设为真的先验概率的函数(见图 [18.1](#fig:PPVsim) ) +我们可以对此进行模拟,以显示 PPV 如何与统计功效相关,作为假设为真的先验概率的函数(见图 [18.1](#fig:PPVsim) ) ![A simulation of posterior predictive value as a function of statistical power (plotted on the x axis) and prior probability of the hypothesis being true (plotted as separate lines).](img/file103.png) -图18.1:后验预测值作为统计功效(绘制在x轴上)和假设为真的先验概率(绘制为单独的线条)的函数的模拟。 +图 18.1:后验预测值作为统计功效(绘制在 x 轴上)和假设为真的先验概率(绘制为单独的线条)的函数的模拟。 -不幸的是,在许多科学领域,统计能力仍然很低 ( [Smaldino和McElreath 2016](ch020.xhtml#ref-smal:mcel:2016) ) ,这表明许多已发表的研究结果是虚假的。 +不幸的是,在许多科学领域,统计能力仍然很低 ( [Smaldino 和 McElreath 2016](ch020.xhtml#ref-smal:mcel:2016) ) ,这表明许多已发表的研究结果是虚假的。 -Jonathan Schoenfeld和John Ioannidis在一篇题为“我们吃的所有东西都与癌症有关吗?一份系统的食谱评论" ( [舍恩菲尔德和约安尼迪斯2013](ch020.xhtml#ref-scho:ioan:2013) ) 。他们检查了大量评估不同食物和癌症风险之间关系的论文,发现80%的成分与增加或降低癌症风险有关。在大多数情况下,统计证据是薄弱的,当跨研究的结果相结合,结果是无效的。 +Jonathan Schoenfeld 和 John Ioannidis 在一篇题为“我们吃的所有东西都与癌症有关吗?一份系统的食谱评论" ( [舍恩菲尔德和约安尼迪斯 2013](ch020.xhtml#ref-scho:ioan:2013) ) 。他们检查了大量评估不同食物和癌症风险之间关系的论文,发现 80%的成分与增加或降低癌症风险有关。在大多数情况下,统计证据是薄弱的,当跨研究的结果相结合,结果是无效的。 @@ -83,15 +83,15 @@ Jonathan Schoenfeld和John Ioannidis在一篇题为“我们吃的所有东西 ### 18.3.2 胜利者的诅咒 -当统计能力较低时,还会出现另一种错误:我们对效应大小的估计会被夸大。这种现象通常被称为“赢家的诅咒”,它来自经济学,指的是这样一个事实,即对于某些类型的拍卖(价值对每个人来说都是一样的,就像一罐25美分的硬币,出价是私人的),赢家肯定会支付高于商品价值的价格。在科学中,赢家的诅咒指的是这样一个事实,即从重大结果(即赢家)估计的效应大小几乎总是对真实效应大小的高估。 +当统计能力较低时,还会出现另一种错误:我们对效应大小的估计会被夸大。这种现象通常被称为“赢家的诅咒”,它来自经济学,指的是这样一个事实,即对于某些类型的拍卖(价值对每个人来说都是一样的,就像一罐 25 美分的硬币,出价是私人的),赢家肯定会支付高于商品价值的价格。在科学中,赢家的诅咒指的是这样一个事实,即从重大结果(即赢家)估计的效应大小几乎总是对真实效应大小的高估。 -我们可以对此进行模拟,以了解显著结果的估计效应大小与实际潜在效应大小之间的关系。让我们生成真实效应大小为d = 0.2的数据,并估计那些检测到显著效应的结果的效应大小。图 [18.2](#fig:CurseSim) 的左图显示,当功率较低时,与实际效果大小相比,显著结果的估计效果大小可能被大大夸大。 +我们可以对此进行模拟,以了解显著结果的估计效应大小与实际潜在效应大小之间的关系。让我们生成真实效应大小为 d = 0.2 的数据,并估计那些检测到显著效应的结果的效应大小。图 [18.2](#fig:CurseSim) 的左图显示,当功率较低时,与实际效果大小相比,显著结果的估计效果大小可能被大大夸大。 ![Left: A simulation of the winner's curse as a function of statistical power (x axis). The solid line shows the estimated effect size, and the dotted line shows the actual effect size. Right: A histogram showing effect size estimates for a number of samples from a dataset, with significant results shown in blue and non-significant results in red. ](img/file104.png) -图18.2:左图:作为统计能力(x轴)函数的赢家诅咒的模拟。实线表示估计的效果大小,虚线表示实际的效果大小。右图:一个直方图,显示了数据集内多个样本的效应大小估计值,显著结果显示为蓝色,不显著结果显示为红色。 +图 18.2:左图:作为统计能力(x 轴)函数的赢家诅咒的模拟。实线表示估计的效果大小,虚线表示实际的效果大小。右图:一个直方图,显示了数据集内多个样本的效应大小估计值,显著结果显示为蓝色,不显著结果显示为红色。 -我们可以通过单个模拟来了解为什么会出现这种情况。在图 [18.2](#fig:CurseSim) 的右侧面板中,您可以看到1000个样本的估计效应大小的直方图,根据测试是否具有统计显著性来区分。从图中可以清楚地看出,如果我们只根据显著的结果来估计效果的大小,那么我们的估计就会被夸大;只有当大多数结果是显著的(即功率高,效应相对大)时,我们的估计才会接近实际的效应大小。 +我们可以通过单个模拟来了解为什么会出现这种情况。在图 [18.2](#fig:CurseSim) 的右侧面板中,您可以看到 1000 个样本的估计效应大小的直方图,根据测试是否具有统计显著性来区分。从图中可以清楚地看出,如果我们只根据显著的结果来估计效果的大小,那么我们的估计就会被夸大;只有当大多数结果是显著的(即功率高,效应相对大)时,我们的估计才会接近实际的效应大小。 @@ -101,39 +101,39 @@ Jonathan Schoenfeld和John Ioannidis在一篇题为“我们吃的所有东西 ## 18.4 可疑的研究实践 -一本由美国心理学协会 ( [Darley、Zanna和Roediger 2004](ch020.xhtml#ref-darl:zann:roed:2004) ) 出版的名为《完整的学术:职业指南》的畅销书,旨在为有抱负的研究人员提供如何建立职业生涯的指导。在著名社会心理学家Daryl Bem题为“撰写实证期刊文章”的一章中,Bem提供了一些关于如何撰写研究论文的建议。不幸的是,他建议的实践存在很大问题,并被称为*有问题的研究实践* (QRPs)。 +一本由美国心理学协会 ( [Darley、Zanna 和 Roediger 2004](ch020.xhtml#ref-darl:zann:roed:2004) ) 出版的名为《完整的学术:职业指南》的畅销书,旨在为有抱负的研究人员提供如何建立职业生涯的指导。在著名社会心理学家 Daryl Bem 题为“撰写实证期刊文章”的一章中,Bem 提供了一些关于如何撰写研究论文的建议。不幸的是,他建议的实践存在很大问题,并被称为*有问题的研究实践* (QRPs)。 > 你应该写哪篇文章?您可以写两篇文章:(1)您在设计研究时计划写的文章,或者(2)您看到结果后最有意义的文章。它们很少相同,正确答案是(2)。 -贝姆在这里建议的被称为*倾听*(在结果已知后的假设) ( [克尔1998](ch020.xhtml#ref-kerr:1998) ) 。这可能看起来无伤大雅,但有问题,因为它允许研究人员将事后结论(我们应该持保留态度)重新框定为先验预测(我们会对此更有信心)。从本质上讲,它允许研究人员根据事实改写他们的理论,而不是使用理论做出预测,然后进行测试——类似于移动球门柱,使球到达任何地方。因此,消除不正确的想法变得非常困难,因为目标总是可以移动以匹配数据。贝姆继续说道: +贝姆在这里建议的被称为*倾听*(在结果已知后的假设) ( [克尔 1998](ch020.xhtml#ref-kerr:1998) ) 。这可能看起来无伤大雅,但有问题,因为它允许研究人员将事后结论(我们应该持保留态度)重新框定为先验预测(我们会对此更有信心)。从本质上讲,它允许研究人员根据事实改写他们的理论,而不是使用理论做出预测,然后进行测试——类似于移动球门柱,使球到达任何地方。因此,消除不正确的想法变得非常困难,因为目标总是可以移动以匹配数据。贝姆继续说道: > **分析数据**从各个角度检查数据。分别分析性别。组成新的综合指数。如果一个数据提出了一个新的假设,试着在数据的其他地方找到进一步的证据。如果你看到有趣模式的模糊痕迹,尝试重新组织数据,使它们更加清晰。如果有你不喜欢的参与者,或者试验,观察者,或者给你异常结果的面试官,放弃他们(暂时)。为一些有趣的事情——任何事情——进行一次钓鱼探险。不,这不是不道德的。 -Bem在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分析,直到发现一个重要的结果。贝姆是正确的,如果一个人要报告对数据进行的每一次分析,那么这种方法就不是“不道德的”。然而,很少看到论文讨论对数据集进行的所有分析;更确切地说,论文经常只呈现*起作用*的分析——这通常意味着他们发现了一个具有统计学意义的结果。有许多不同的方法可以用来破解: +Bem 在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分析,直到发现一个重要的结果。贝姆是正确的,如果一个人要报告对数据进行的每一次分析,那么这种方法就不是“不道德的”。然而,很少看到论文讨论对数据集进行的所有分析;更确切地说,论文经常只呈现*起作用*的分析——这通常意味着他们发现了一个具有统计学意义的结果。有许多不同的方法可以用来破解: -* 每次受试后分析数据,一旦p < .05,停止收集数据 -* 分析许多不同的变量,但只报告那些p < .05的变量 -* 收集许多不同的实验条件,但只报告那些p<.05/> -* 排除参与者以获得p<.05/> -* 转换数据以获得p<.05/> +* 每次受试后分析数据,一旦 p < .05,停止收集数据 +* 分析许多不同的变量,但只报告那些 p < .05 的变量 +* 收集许多不同的实验条件,但只报告那些 p<.05/> +* 排除参与者以获得 p<.05/> +* 转换数据以获得 p<.05/> -由 Simmons、Nelson和Simonsohn ( [2011](ch020.xhtml#ref-simm:nels:simo:2011) ) 撰写的一篇著名论文显示,使用这类p-hacking策略会大大增加实际的假阳性率,导致大量的假阳性结果。 +由 Simmons、Nelson 和 Simonsohn ( [2011](ch020.xhtml#ref-simm:nels:simo:2011) ) 撰写的一篇著名论文显示,使用这类 p-hacking 策略会大大增加实际的假阳性率,导致大量的假阳性结果。 -### 18.4.1 ESP还是QRP? +### 18.4.1 ESP 还是 QRP? -2011年,同样是达里尔·贝姆发表了一篇文章 ( [贝姆2011](ch020.xhtml#ref-bem:2011) ) ,声称发现了超感知觉的科学证据。该文章指出: +2011 年,同样是达里尔·贝姆发表了一篇文章 ( [贝姆 2011](ch020.xhtml#ref-bem:2011) ) ,声称发现了超感知觉的科学证据。该文章指出: -> 这篇文章报道了9个实验,涉及1,000多名参与者,通过“时间反转”公认的心理效应来测试追溯影响,以便在假定的因果刺激事件发生之前获得个体的反应。…在所有9个实验中,psi性能的平均效应大小(d)为0.22,除一个实验外,所有实验都产生了具有统计学意义的结果。 +> 这篇文章报道了 9 个实验,涉及 1,000 多名参与者,通过“时间反转”公认的心理效应来测试追溯影响,以便在假定的因果刺激事件发生之前获得个体的反应。…在所有 9 个实验中,psi 性能的平均效应大小(d)为 0.22,除一个实验外,所有实验都产生了具有统计学意义的结果。 -随着研究人员开始检查Bem的文章,很明显他已经参与了他在上面讨论的章节中推荐的所有快速反应程序。正如Tal Yarkoni在一篇研究文章的博客文章中指出的: +随着研究人员开始检查 Bem 的文章,很明显他已经参与了他在上面讨论的章节中推荐的所有快速反应程序。正如 Tal Yarkoni 在一篇研究文章的博客文章中指出的: * 不同研究的样本量不同 * 不同的研究似乎被混为一谈或割裂开来 * 这些研究允许许多不同的假设,不清楚哪些是事先计划好的 -* 即使不清楚是否有方向预测,Bem也使用了单尾检验(所以alpha实际上是0.1) -* 大多数p值非常接近0.05 +* 即使不清楚是否有方向预测,Bem 也使用了单尾检验(所以 alpha 实际上是 0.1) +* 大多数 p 值非常接近 0.05 * 目前还不清楚有多少其他研究已经进行但没有报道 @@ -150,9 +150,9 @@ Bem在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分 ### 18.5.1 预注册 -获得最大牵引力的一个想法是*预注册*,其中一个人将一项研究的详细描述(包括所有数据分析)提交给一个可信的存储库(如[开放科学框架](http://osf.io)或【AsPredicted.org】T4)。通过在分析数据之前详细说明自己的计划,预注册提供了更大的信心,即分析不会受到p-hacking或其他有问题的研究实践的影响。 +获得最大牵引力的一个想法是*预注册*,其中一个人将一项研究的详细描述(包括所有数据分析)提交给一个可信的存储库(如[开放科学框架](http://osf.io)或【AsPredicted.org】T4)。通过在分析数据之前详细说明自己的计划,预注册提供了更大的信心,即分析不会受到 p-hacking 或其他有问题的研究实践的影响。 -预注册在医学临床试验中的作用是惊人的。2000年,美国国家心肺血液研究所(NHLBI)开始要求所有的临床试验在ClinicalTrials.gov使用该系统进行预注册。这为观察研究预注册的效果提供了一个自然的实验。当卡普兰和欧文( [2015](ch020.xhtml#ref-kapl:irvi:2015) ) 随着时间的推移检查临床试验结果时,他们发现2000年后临床试验的阳性结果数量与之前相比大大减少。虽然有许多可能的原因,但似乎有可能在研究注册之前,研究人员能够改变他们的方法或假设,以便找到阳性结果,这在要求注册后变得更加困难。 +预注册在医学临床试验中的作用是惊人的。2000 年,美国国家心肺血液研究所(NHLBI)开始要求所有的临床试验在 ClinicalTrials.gov 使用该系统进行预注册。这为观察研究预注册的效果提供了一个自然的实验。当卡普兰和欧文( [2015](ch020.xhtml#ref-kapl:irvi:2015) ) 随着时间的推移检查临床试验结果时,他们发现 2000 年后临床试验的阳性结果数量与之前相比大大减少。虽然有许多可能的原因,但似乎有可能在研究注册之前,研究人员能够改变他们的方法或假设,以便找到阳性结果,这在要求注册后变得更加困难。 @@ -160,7 +160,7 @@ Bem在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分 ### 18.5.2 可重复的实践 -由 Simmons、Nelson和Simonsohn ( [2011](ch020.xhtml#ref-simm:nels:simo:2011) ) 撰写的论文列出了一套使研究更具可重复性的建议实践,所有这些都应该成为研究人员的标准: +由 Simmons、Nelson 和 Simonsohn ( [2011](ch020.xhtml#ref-simm:nels:simo:2011) ) 撰写的论文列出了一套使研究更具可重复性的建议实践,所有这些都应该成为研究人员的标准: > 作者必须在数据收集开始前决定终止数据收集的规则,并在文章中报告该规则。* The author must collect at least 20 observations per cell, otherwise provide a convincing proof of data collection cost.* The author must list all variables collected in the study. The author must report all the experimental conditions, including the failed operation.* If the observations are deleted, the author must also report the statistical results if they are included.* If the analysis contains covariates, the author must report the statistical results of the analysis without covariates.T13】 @@ -172,9 +172,9 @@ Bem在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分 科学的标志之一是*复制*的理念——也就是说,其他研究人员应该能够进行相同的研究并获得相同的结果。不幸的是,正如我们在前面讨论的复制项目的结果中看到的,许多发现是不可复制的。确保一个人的研究的可复制性的最好方法是首先自己复制它;对于一些研究来说,这是不可能的,但只要有可能,就应该确保自己的发现在新的样本中成立。该新样本应该有足够的能量来找到感兴趣的效应大小;在许多情况下,这实际上需要比原来更大的样本。 -关于复制,记住几件事很重要。首先,复制尝试失败的事实并不一定意味着最初的发现是错误的;请记住,在80%能量的标准水平下,即使真的有影响,结果仍有五分之一的可能不显著。出于这个原因,在我们决定是否相信之前,我们通常希望看到任何重要发现的多次重复。不幸的是,包括心理学在内的许多领域过去都没有遵循这个建议,导致“教科书”上的发现很可能是错误的。关于Daryl Bem对ESP的研究,一项涉及7项研究的大型复制尝试未能复制他的发现 ( [Galak et al. 2012](ch020.xhtml#ref-gala:lebo:nels:2012) ) 。 +关于复制,记住几件事很重要。首先,复制尝试失败的事实并不一定意味着最初的发现是错误的;请记住,在 80%能量的标准水平下,即使真的有影响,结果仍有五分之一的可能不显著。出于这个原因,在我们决定是否相信之前,我们通常希望看到任何重要发现的多次重复。不幸的是,包括心理学在内的许多领域过去都没有遵循这个建议,导致“教科书”上的发现很可能是错误的。关于 Daryl Bem 对 ESP 的研究,一项涉及 7 项研究的大型复制尝试未能复制他的发现 ( [Galak et al. 2012](ch020.xhtml#ref-gala:lebo:nels:2012) ) 。 -第二,请记住,p值并没有为我们提供一个发现复制可能性的度量。正如我们之前所讨论的,p值是在特定的零假设下关于一个人的数据的可能性的陈述;它没有告诉我们任何关于该发现实际上为真的概率(正如我们在贝叶斯分析一章中所学的)。为了知道复制的可能性,我们需要知道发现为真的概率,而我们通常不知道。 +第二,请记住,p 值并没有为我们提供一个发现复制可能性的度量。正如我们之前所讨论的,p 值是在特定的零假设下关于一个人的数据的可能性的陈述;它没有告诉我们任何关于该发现实际上为真的概率(正如我们在贝叶斯分析一章中所学的)。为了知道复制的可能性,我们需要知道发现为真的概率,而我们通常不知道。 @@ -186,9 +186,9 @@ Bem在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分 到目前为止,我们一直专注于在新实验中复制其他研究人员发现的能力,但可重复性的另一个重要方面是能够复制某人对自己数据的分析,我们称之为*计算可重复性。*这要求研究人员共享他们的数据和分析代码,以便其他研究人员既可以尝试重现结果,也可以对相同的数据测试不同的分析方法。心理学越来越倾向于开放代码和数据共享;例如,期刊*心理科学*现在为共享研究材料、数据和代码的论文提供“徽章”,以及预注册。 -重现分析的能力是我们强烈提倡使用脚本化分析(例如使用R的分析)而不是使用“点击式”软件包的一个原因。这也是我们提倡使用自由和开源软件(如R)而不是商业软件包的原因,商业软件包需要其他人购买软件才能复制任何分析。 +重现分析的能力是我们强烈提倡使用脚本化分析(例如使用 R 的分析)而不是使用“点击式”软件包的一个原因。这也是我们提倡使用自由和开源软件(如 R)而不是商业软件包的原因,商业软件包需要其他人购买软件才能复制任何分析。 -有许多方法可以共享代码和数据。共享代码的一种常见方式是通过支持软件版本控制的网站,如T2 Github T3。小型数据集也可以通过这些相同的网站共享;更大的数据集可以通过数据共享门户共享,如[芝诺多](https://zenodo.org/),或通过特定类型数据的专门门户共享(如[神经影像数据的OpenNeuro](http://openneuro.org) )。 +有许多方法可以共享代码和数据。共享代码的一种常见方式是通过支持软件版本控制的网站,如 T2 Github T3。小型数据集也可以通过这些相同的网站共享;更大的数据集可以通过数据共享门户共享,如[芝诺多](https://zenodo.org/),或通过特定类型数据的专门门户共享(如[神经影像数据的 OpenNeuro](http://openneuro.org) )。 @@ -204,7 +204,7 @@ Bem在这里建议的被称为 *p-hacking* ,指的是尝试许多不同的分 ## 18.8 学习目标 -* 描述P-hacking的概念及其对科学实践的影响 +* 描述 P-hacking 的概念及其对科学实践的影响 * 描述阳性预测值的概念及其与统计功效的关系 * 描述预注册的概念以及它如何有助于防范可疑的研究实践 -- GitLab