提交 0e5f513c 编写于 作者: W wizardforcel

2020-04-16 22:50:41

上级 1b8302c8
......@@ -62,48 +62,48 @@
所有相关图都有一个重要的缺点:它们相当抽象。虽然它们向我们展示了数据中的重要模式,但它们也隐藏了基础数据点,并可能使我们得出错误的结论。最好是可视化原始数据,而不是从中计算出的抽象的派生数量。幸运的是,我们经常可以在显示重要模式和通过应用降维技术显示原始数据之间找到一个平衡。
## 12.3 尺寸减小
## 12.3 降维
维度减少依赖于关键洞察力,即大多数高维数据集由多个相关变量组成,这些变量传达重叠信息。这样的数据集可以减少到较少数量的关键维度,而不会丢失太多关键信息。作为一个简单直观的例子,考虑一个人的多种身体特征的数据集,包括每个人的身高和体重,手臂和腿的长度,腰部,臀部和胸部的周长等数量。我们可以理解立即所有这些数量将首先与每个人的总体规模相关。在其他条件相同的情况下,较大的人会更高,体重更重,手臂和腿更长,腰围,臀部和胸围更大。下一个重要的方面是人的性别。雄性和雌性的测量值对于相当大小的人来说是显着不同的。例如,女人的臀围往往比男人高,其他一切都是平等的。
降维依赖于一个关键视角,即大多数高维数据集由多个相关变量组成,这些变量传达重叠信息。这样的数据集可以减少到较少数量的关键维度,而不会丢失太多关键信息。作为一个简单直观的例子,考虑一个人的多种身体特征的数据集,包括每个人的身高和体重,手臂和腿的长度,腰部,臀部和胸部的周长等数量。我们可以立即理解,所有这些数量将首先与每个人的总体规模相关。在其他条件相同的情况下,较大的人会更高,体重更重,手臂和腿更长,腰围,臀部和胸围更大。下一个重要的维度是人的性别。男性和女性的测量值对于大小相似的人来说是显着不同的。例如,女人的臀围往往比男人高,其他一切都是一致的。
有许多减少尺寸的技术。我将在这里讨论一种最常用的技术,称为 _ 主成分分析 _(PCA)。 PCA 通过数据中原始变量的线性组合引入一组新的变量(称为主成分,PC),标准化为零均值和单位方差(参见图 12.8 ,用于二维玩具示例) 。选择 PC 使得它们不相关,并且对它们进行排序,使得第一组件捕获数据中尽可能大的变化量,并且随后的组件捕获越来越少。通常,只能从前两台或三台 PC 看到数据中的关键功能
有许多降维的技术。我将在这里讨论一种最常用的技术,称为主成分分析(PCA)。 PCA 通过数据中原始变量的线性组合引入一组新的变量(称为主成分,PC),原始变量标准化为零均值和单位方差(参见图 12.8 ,用于二维玩具示例) 。选择主成分使得它们不相关,并且对它们进行排序,使得第一个成分捕获数据中尽可能大的变化量,并且随后的成分捕获越来越少的变化量。通常,只能从前两或三个主成分中看到数据中的关键特征
![](img/ecd14ef784b90cf338eaa10dfd508753.jpg)
图 12.8:二维示例主成分(PC)分析。 (a)原始数据。作为示例数据,我使用蓝鸟队数据集中的头长和头骨大小测量值。雌鸟和雄鸟以颜色区分,但这种区别对 PC 分析没有影响。 (b)作为 PCA 的第一步,我们将原始数据值缩放为零均值和单位方差。然后,我们沿着数据的最大变化方向定义新变量(主要组件,PC)。 (c)最后,我们将数据投影到新坐标中。在数学上,该投影相当于原点周围的数据点的旋转。在此处显示的 2D 示例中,数据点顺时针旋转 45 度。
图 12.8:二维示例主成分(PC)分析。 (a)原始数据。作为示例数据,我使用蓝鸟数据集中的头长和头骨大小测量值。雌鸟和雄鸟以颜色区分,但这种区分对主成分分析没有影响。 (b)作为 PCA 的第一步,我们将原始数据值缩放为零均值和单位方差。然后,我们沿着数据的最大变化方向定义新变量(主成分,PC)。 (c)最后,我们将数据投影到新坐标中。在数学上,该投影相当于数据点在原点周围的旋转。在此处显示的 2D 示例中,数据点顺时针旋转 45 度。
当我们执行 PCA 时,我们通常对两条信息感兴趣:(i)PC 的组成和(ii)主要组件空间中各个数据点的位置。让我们看一下取证玻璃数据集的 PC 分析中的这两部分。
当我们执行 PCA 时,我们通常对两条信息感兴趣:(i)主成分的组成和(ii)主成分空间中各个数据点的位置。让我们在取证玻璃数据集的主成分分析中看一下这两部分。
首先,我们来看组件组成(图 12.9 )。在这里,我们只考虑前两个组件,PC 1 和 PC 2.因为 PC 是原始变量的线性组合(在标准化之后),我们可以将原始变量表示为箭头,指示它们对 PC 的贡献程度。在这里,我们看到钡和钠主要贡献于 PC 1 而不是 PC 2,钙和钾主要贡献于 PC 2 而不是 PC 1,其他变量对两种成分的贡献不同(图 [12.9)](visualizing-associations.html#fig:forensic-PCA-rotation) )。箭头的长度各不相同,因为有两台以上的 PC。例如,铁的箭头特别短,因为它主要用于高阶 PC(未示出)。
首先,我们来看主成分组成(图 12.9)。在这里,我们只考虑前两个成分,PC1 和 PC2。因为 PC 是原始变量(在标准化之后)的线性组合,我们可以将原始变量表示为箭头,指示它们对主成分的贡献程度。在这里,我们看到钡和钠主要贡献于 PC1 而不是 PC2,钙和钾主要贡献于 PC2 而不是 PC1,其他变量对两种成分的贡献不同(图 12.9)。箭头的长度各不相同,因为有两个以上的主成分。例如,铁的箭头特别短,因为它主要用于高阶主成分(未示出)。
![](img/d997f265448c7fed56094c8d02fedbfa.jpg)
图 12.9:取证玻璃数据集的主成分分析(PCA)中前两个成分的组成。组分 1(PC 1)主要测量玻璃碎片中铝,钡,钠和镁含量,而组分 2(PC 2)主要测量钙和钾含量,并在一定程度上测量铝的含量和镁
图 12.9:取证玻璃数据集的主成分分析(PCA)中前两个成分的组成。主成分 1(PC 1)主要测量玻璃碎片中铝,钡,钠和镁含量,而主成分 2(PC 2)主要测量钙和钾含量,并在一定程度上测量铝和镁的含量
接下来,我们将原始数据投影到主要组件空间(图 12.10 )。我们在该图中看到了不同类型的玻璃碎片的清晰聚类。来自前照灯和车窗的碎片落入 PC 图中清晰描绘的区域,几乎没有异常值。来自餐具和容器的碎片更加分散,但与前照灯和窗户碎片明显不同。通过比较图 12.10 和图 12.9 ,我们可以得出结论,窗口样品的镁含量高于平均值,低于平均钡,铝和钠含量,而相反的是适用于前照灯样品
接下来,我们将原始数据投影到主成分空间(图 12.10 )。我们在该图中看到了不同类型的玻璃碎片的清晰聚类。来自前照灯和车窗的碎片落入 PC 图中清晰描绘的几个区域,几乎没有利群店。来自餐具和容器的碎片更加分散,但与前照灯和窗户碎片明显不同。通过比较图 12.10 和图 12.9 ,我们可以得出结论,窗户样本的镁含量高于平均值,钡,铝和钠含量低于平均值,而前照灯样品相反
![](img/306259d1091a5d5d29c7a4ecdaf0c710.jpg)
图 12.10:在 12.9 中定义的主要成分空间中可视化的单个玻璃碎片的组成。我们看到不同类型的玻璃样品聚集在 PC 1 和 2 的特征值上。特别是,前照灯的特征在于负 PC 1 值,而窗口倾向于具有正 PC 1 值。餐具和容器的 PC 1 值接近零,并且往往具有正 PC 2 值。但是,有一些例外情况,容器碎片同时具有负 PC 1 值和负 PC 2 值。这些碎片的组成与所分析的所有其他碎片完全不同。
图 12.10:单个玻璃碎片的组成,在 12.9 中定义的主成分空间中可视化。我们看到不同类型的玻璃样品聚集在不同 PC1 和 2 的特征值上。特别是,前照灯的特征是负 PC1 值,而窗户倾向于具有正 PC1 值。餐具和容器的 PC1 值接近零,并且往往具有正 PC2 值。但是,有一些例外情况,容器碎片同时具有负 PC1 值和负 PC2 值。这些碎片的组成与所分析的所有其他碎片完全不同。
## 12.4 配对数据
多变量定量数据的一个特例是配对数据:在略微不同的条件下有两个或多个相同数量的测量值的数据。示例包括每个受试者的两个可比较的测量值(例如,人的右臂和左臂的长度),在不同时间点对同一受试者重复测量(例如,一年中两个不同时间的人的体重),或测量两个密切相关的科目(例如,两个同卵双胞胎的高度)。对于配对数据,可以合理地假设属于一对的两个测量值彼此更相似,而不是属于其他对的测量值。两个双胞胎大约相同的高度,但高度与其他双胞胎不同。因此,对于配对数据,我们需要选择可突出显示配对测量之间任何差异的可视化。
多变量定量数据的一个特例是配对数据:在略微不同的条件下,有两个或多个相同数量的测量值的数据。示例包括每个受试者的两个类似测量值(例如,人的右臂和左臂的长度),在不同时间点对同一受试者的重复测量(例如,一年中两个不同时间的人的体重),或两个密切相关的主题的测量(例如,两个同卵双胞胎的高度)。对于配对数据,可以合理地假设,属于一对的两个测量值,而不是其他对的测量值彼此更相似。两个双胞胎的高度大约相同,但高度与其他双胞胎不同。因此,对于配对数据,我们需要选择可突出配对测量之间任何差异的可视化。
在这种情况下,一个很好的选择是在对角线上标记 *x* = *y* 的简单散点图。在这样的图中,如果每对的两次测量之间的唯一差异是随机噪声,那么样本中的所有点将围绕该线对称地散射。相比之下,配对测量之间的任何系统差异将在数据点相对于对角线向上或向下的系统移位中可见。例如,考虑一下 1970 年和 2010 年 166 个国家的人均二氧化碳排放量(CO <sub>2</sub> )(图 12.11 )。此示例突出显示配对数据的两个常见功能。首先,大多数点相对接近对角线。尽管各国的 CO <sub>2</sub> 排放量差异超过近四个数量级,但在 40 年的时间跨度内,每个国家的排放量相当一致。其次,这些点相对于对角线系统地向上移动。在所考虑的 40 年中,大多数国家的 CO <sub>2</sub> 排放量增加。
在这种情况下,一个很好的选择是在对角线上标记 *x = y* 的简单散点图。在这样的图中,如果每对的两个测量之间的唯一差异是随机噪声,那么样本中的所有点将围绕该线对称地分布。相比之下,配对测量之间的任何系统差异,将在数据点相对于对角线向上或向下的系统移位中可见。例如,考虑一下 1970 年和 2010 年 166 个国家的人均二氧化碳(CO2)排放量(图 12.11 )。此示例突出显示配对数据的两个常见特征。首先,大多数点相对接近对角线。尽管各国的 CO2 排放量差异超过近四个数量级,但在 40 年的时间跨度内,每个国家的排放量相当一致。其次,这些点相对于对角线系统地向上移动。在所考虑的 40 年中,大多数国家的 CO2 排放量增加。
![](img/be1e2c90f201b569fb93bb8c9a839e39.jpg)
图 12。11:1970 年和 2010 年,166 个国家的人均二氧化碳排放量(CO <sub>2</sub> )。每个点代表一个国家。对角线表示 1970 年和 2010 年相同的 CO <sub>2</sub> 排放。这些点相对于对角线系统地向上移动:在大多数国家,2010 年的排放量高于 1970 年。数据来源:碳二氧化碳信息分析中心
图 12.11:1970 年和 2010 年,166 个国家的人均二氧化碳(CO2)排放量。每个点代表一个国家。对角线表示 1970 年和 2010 年的相同 CO2 排放量。这些点相对于对角线系统地向上移动:在大多数国家,2010 年的排放量高于 1970 年。数据来源:二氧化碳信息分析中心
当我们有大量数据点和/或对整个数据集与零期望的系统偏差感兴趣时,图 12.11 等散点图很有效。相比之下,如果我们只有少量的观察结果并且主要对每个案例的身份感兴趣,那么 _ 斜率图 _ 可能是更好的选择。在斜率图中,我们将各个测量值绘制为排列成两列的点,并通过将成对的点与线连接来指示配对。每条线的斜率突出了变化的幅度和方向。图 12.12 使用这种方法显示 2000 年至 2010 年间人均 CO <sub>2</sub> 排放量差异最大的 10 个国家。
当我们有大量数据点,和/或对整个数据集与零期望的系统偏差感兴趣时,图 12.11 这样的散点图很有效。相比之下,如果我们只有少量的观察结果,并且主要对每个个例的身份感兴趣,那么斜率图可能是更好的选择。在斜率图中,我们将各个测量值绘制为排列成两列的点,并通过将成对的点与线连接来表示偶对。每条线的斜率突出了变化的幅度和方向。图 12.12 使用这种方法显示 2000 年至 2010 年间人均 CO2 排放量差异最大的 10 个国家。
![](img/9c54d2017efcba0ce62b07410c45de8a.jpg)
图 12.12:2000 年和 2010 年人均二氧化碳排放量(CO <sub>2</sub> ),这两年间差异最大的十个国家。数据来源:二氧化碳信息分析中心
图 12.12:2000 年和 2010 年人均二氧化碳(CO2)排放量,显示差异最大的十个国家。数据来源:二氧化碳信息分析中心
与散点图相比,坡度图具有一个重要优势:它们可用于一次比较两个以上的测量值。例如,我们可以修改图 12.12 以显示三个时间点的 CO <sub>2</sub> 排放,这里是 2000 年,2005 年和 2010 年(图 12.13 )。这一选择突出了整个十年排放量发生重大变化的国家以及卡塔尔或特立尼达和多巴哥等国家,其中第一个五年间隔和第二个周期的变化存在很大差异。
与散点图相比,斜率图具有一个重要优势:它们可用于一次比较两个以上的测量值。例如,我们可以修改图 12.12 来显示三个时间点的 CO2 排放量,这里是 2000 年,2005 年和 2010 年(图 12.13 )。这一选择突出了整个十年排放量发生重大变化的国家,以及卡塔尔或特立尼达和多巴哥等国家,它们的第一个和第二个五年间隔的趋势有很大差异。
![](img/8b58af3dad914395487da65a553d7369.jpg)
图 12。13:2000 年,2005 年和 2010 年人均 CO <sub>2</sub> 排放量,对于 2000 年至 2010 年间差异最大的 10 个国家。数据来源:二氧化碳信息分析中心
\ No newline at end of file
图 12.13:2000 年,2005 年和 2010 年人均 CO2 排放量,显示差异最大的 10 个国家。数据来源:二氧化碳信息分析中心
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册