提交 2f3b2dda 编写于 作者: W wizardforcel

2020-04-23 22:00:34

上级 cade4c7e
......@@ -60,13 +60,13 @@
## 6.2 分组和堆叠条形
前一小节中的所有示例都显示了定量数量如何根据一个类别变量而变化。然而,我们经常同时对两个类别变量感兴趣。例如,美国人口普查局提供按年龄和种族划分的中位数收入水平。我们可以用分组条形图(图 6.7)可视化该数据集。在分组条形图中,我们在 *x* 轴的每个位置绘制一组条形图,由一个类别变量确定,然后我们根据另一个类别变量在每个组内绘制条形图。
前一小节中的所有示例都显示了定量数量如何根据一个类别变量而变化。然而,我们经常同时对两个类别变量感兴趣。例如,美国人口普查局提供按年龄和种族划分的收入中位数。我们可以用分组条形图(图 6.7)可视化该数据集。在分组条形图中,我们在 *x* 轴的每个位置绘制一组条形图,由一个类别变量确定,然后我们根据另一个类别变量在每个组内绘制条形图。
![](img/4b187afa397eb4fba6d39bc22157428f.jpg)
图 6.7:2016 年美国家庭年收入中位数,按年龄组和种族划分。年龄组沿着 *x* 轴显示,并且对于每个年龄组,有四个条形,分别对应于亚洲人,白人,拉美人和黑人的中位数收入。数据来源:美国人口普查局
图 6.7:2016 年美国家庭年收入中位数,按年龄组和种族划分。年龄组沿着 *x* 轴显示,并且对于每个年龄组,有四个条形,分别对应于亚洲人,白人,拉美人和黑人的收入中位数。数据来源:美国人口普查局
分组条形图一次显示大量信息,它们可能令人困惑。事实上,即使我没有将图 6.7 标记为坏或丑,我觉得很难阅读。特别是,对于特定的种族分组,很难比较不同年龄组的中位数收入。因此,只有当我们主要关注种族分组的收入水平差异(分别针对特定年龄组)时,这个图表才适用。如果我们更关心种族分组收入水平的总体模式,可能最好沿着 *x* 轴显示种族,并在每个种族分组中显示年龄为不同的条形图(图 6.8)。
分组条形图一次显示大量信息,它们可能令人困惑。事实上,即使我没有将图 6.7 标记为坏或丑,我觉得很难阅读。特别是,对于特定的种族分组,很难比较不同年龄组的收入中位数。因此,只有当我们主要关注种族分组的收入水平差异(分别针对特定年龄组)时,这个图表才适用。如果我们更关心种族分组收入水平的总体模式,可能最好沿着 *x* 轴显示种族,并在每个种族分组中显示年龄为不同的条形图(图 6.8)。
![](img/db8a89cb4c50a901438d0dd9a9566d77.jpg)
......
......@@ -12,17 +12,17 @@
## 17.1 沿线性轴可视化
我们首先考虑最常见的情景,即沿线性比例的金额可视化。图 17.1 显示构成夏威夷州的五个县的收入中位数。这是报纸文章中可能遇到的典型人物。快速浏览一下这个数字表明,夏威夷的县非常贫穷,而檀香山的县比其他县富裕得多。然而,图 17.1 相当具有误导性,因为所有金条都以 50,000 美元的中位收入开始。因此,虽然每个条形的终点正确地代表了每个县的实际收入中位数,但条形高度代表中位数收入超过 50,000 美元的程度,这是一个任意数字。并且人类感知是这样的:条形高度是我们在观察该图时所感知的关键数量,而不是相对于 *y* 轴的条形终点的位置。
我们首先考虑最常见的情景,即沿线性比例的金额可视化。图 17.1 显示构成夏威夷州的五个县的收入中位数。这是报纸文章中可能遇到的典型人物。快速浏览一下这个数字表明,夏威夷的县非常贫穷,而檀香山的县比其他县富裕得多。然而,图 17.1 相当具有误导性,因为所有金条都以 50,000 美元的中位收入开始。因此,虽然每个条形的终点正确地代表了每个县的实际收入中位数,但条形高度代表收入中位数超过 50,000 美元的程度,这是一个任意数字。并且人类感知是这样的:条形高度是我们在观察该图时所感知的关键数量,而不是相对于 *y* 轴的条形终点的位置。
![](img/452cc298918aa248e14a3a062ffd04b9.jpg)
图 17.1:夏威夷州五个县的中位数收入。这个数字具有误导性,因为 *y* 轴刻度从 50,000 美元而不是 0 美元开始。结果,条形高度与所示数值不成比例,夏威夷县与其他四个县之间的收入差距看起来比实际大得多。数据来源:2015 年五年美国社区调查。
图 17.1:夏威夷州五个县的收入中位数。这个数字具有误导性,因为 *y* 轴刻度从 50,000 美元而不是 0 美元开始。结果,条形高度与所示数值不成比例,夏威夷县与其他四个县之间的收入差距看起来比实际大得多。数据来源:2015 年五年美国社区调查。
这些数据的适当可视化使得故事不那么激动(图 17.2 )。虽然各州之间的收入中位数存在差异,但它们远远没有图 17.1 所暗示的那么大。总体而言,不同县的收入中位数有些可比。
![](img/c29d5217256b112d4a56295377638bac.jpg)
图 17.2:夏威夷州五个县的中位数收入。这里, *y* 轴刻度从 0 美元开始,因此准确显示了五个县的中位数收入的相对大小。数据来源:2015 年五年美国社区调查。
图 17.2:夏威夷州五个县的收入中位数。这里, *y* 轴刻度从 0 美元开始,因此准确显示了五个县的收入中位数的相对大小。数据来源:2015 年五年美国社区调查。
线性刻度上的条应始终从 0 开始。
......
......@@ -38,7 +38,7 @@
![](img/a3e525a9682ffe2d8a33b0d18cc87cd6.jpg)
图 4.4:德克萨斯州的年收入中位数。德克萨斯州主要城市地区的收入中位数最高,特别是在休斯顿和达拉斯附近。西德克萨斯州的 Loving 县没有中位数收入估算值,因此该县显示为灰色。数据来源:2015 年的美国五年社区调查
图 4.4:德克萨斯州的年收入中位数。德克萨斯州主要城市地区的收入中位数最高,特别是在休斯顿和达拉斯附近。西德克萨斯州的 Loving 县没有收入中位数估算值,因此该县显示为灰色。数据来源:2015 年的美国五年社区调查
在某些情况下,我们需要将数据值的偏差可视化为相对于中性点的两个方向之一。一个简单的例子是包含正数和负数的数据集。我们可能想要使用不同颜色来显示它们,这样就可以立即看出一个值是正还是负,以及它在任何一个方向上到零的距离。在这种情况下,适当的颜色刻度是发散颜色刻度。我们可以将一个不同的刻度视为两个连续的刻度,它们在一个共同的中点处拼接在一起,通常用浅色来表示(图 4.5 )。发散刻度需要平衡,以便从中心的浅色到外侧的深色的渐变,在任一方向上大致相同。否则,数据值的感知幅度将取决于它是否高于或低于中点值。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册