提交 68ec07e1 编写于 作者: W wizardforcel

2020-04-03 11:14:27

上级 0cd68882
# 6 可视化量
# 6 可视化
> 原文: [https://serialmentor.com/dataviz/visualizing-amounts.html](https://serialmentor.com/dataviz/visualizing-amounts.html)
在许多情况下,我们对某些数字的大小感兴趣。例如,我们可能想要想象不同品牌汽车的总销量,或生活在不同城市的总人数,或奥林匹克运动员从事不同运动的年龄。在所有这些情况下,我们都有一组类别(例如,汽车,城市或体育的品牌)和每个类别的定量值。我将这些情况称为可视化量,因为这些可视化中的主要重点将放在定量值的大小上。此场景中的标准可视化是条形图,它有多种变体,包括简单条形以及分组和堆叠条形。条形图的替代方案是点图和热图。
在许多情况下,我们对某些数字的大小感兴趣。例如,我们可能需要想像不同品牌汽车的总销量,或生活在不同城市的总人数,或从事不同运动的奥林匹克运动员的年龄。在所有这些情况下,我们都有一组类别(例如,汽车,城市或运动)和每个类别的定量值。我将这些情况称为可视化数量,因为这些可视化中的主要重点将放在定量值的大小上。此场景中的标准可视化是条形图,它有多种变体,包括简单条形以及分组和堆叠条形。条形图的替代方案是散点图和热图。
## 6.1 条形图
为了激发酒吧情节的概念,请考虑特定周末最受欢迎电影的总票房销售情况。表 6.1 显示了 2017 年圣诞周末前五周的总票房销售情况。电影“星球大战:最后的绝地”是本周末最受欢迎的电影,超过第四名 - 排名第五的电影“最伟大的演员”和“费迪南德”差不多是 10 倍。
为了启发条形图的概念,请考虑特定周末最受欢迎电影的总票房销量。表 6.1 显示了 2017 年圣诞周末前五周的总票房销量。电影“Star Wars: The Last Jedi”是本周末最受欢迎的电影,远远超过第四名和第五名的电影“The Greatest Showman”和“Ferdinand”差不多 10 倍。
<caption>Table 6.1: Highest grossing movies for the weekend of December 22-24, 2017\. Data source: Box Office Mojo ([http://www.boxofficemojo.com/](http://www.boxofficemojo.com/)). Used with permission</caption>
| | 秩 | 标题 | 周末总 | | |
| --- | :-: | :-- | --: | --- | --- |
| | 1 | 星球大战:最后的绝地 | $ 71,565,498 | | |
| | 2 | Jumanji:欢迎来到丛林 | $ 36,169,328 | | |
| | 3 | 音高完美 3 | $ 19,928,525 | | |
| | 4 | 最伟大的表演者 | $ 8,805,843 | | |
| | 五 | 费迪南德 | $ 7,316,746 | | |
表 6.1:2017 年 12 月 22 日至 24 日周末的最高票房电影。数据来源:[Box Office Mojo](http://www.boxofficemojo.com/),经许可使用
这种数据通常用垂直条形图显示。对于每部电影,我们绘制一个从零开始的条形图,并一直延伸到该电影的周末总值的美元值(图 6.1 )。该可视化称为 _ 条形图 _ 或 _ 条形图 _。
| 排名 | 标题 | 周末总票房 |
| :-: | :-- | --: |
| 1 | Star Wars: The Last Jedi | $71,565,498 |
| 2 | Jumanji: Welcome to the Jungle | $36,169,328 |
| 3 | Pitch Perfect 3 | $19,928,525 |
| 4 | The Greatest Showman | $8,805,843 |
| 5 | Ferdinand | $7,316,746 |
这种数据通常用垂直条形图显示。对于每部电影,我们绘制一个从零开始的条形图,并一直延伸到该电影的周末总值的美元值(图 6.1)。该可视化称为条形图。
![](img/87c15fb04e85e642e8ff305f664017f0.jpg)
图 6.1:2017 年 12 月 22 日至 24 日周末的最高票房电影,显示为条形图。数据来源:Box Office Mojo( [http://www.boxofficemojo.com/](http://www.boxofficemojo.com/) )。经许可使用
图 6.1:2017 年 12 月 22 日至 24 日周末的最高票房电影。数据来源:[Box Office Mojo](http://www.boxofficemojo.com/)经许可使用
我们通常遇到的垂直条的一个问题是识别每个条的标签占用了大量的水平空间。事实上,我不得不将图 6.1 设置得相当宽,并将条形空间放在一边,以便我可以将电影标题放在下面。为了节省水平空间,我们可以将杆放在一起并旋转标签(图 6.2 )。但是,我不是旋转标签的大力支持者。我发现最终的情节很难阅读。而且,根据我的经验,每当标签太长而不能水平放置时,它们看起来也不好看。
我们通常遇到的垂直条形的一个问题是,标注每个条形的标签占用了大量的水平空间。事实上,我不得不将图 6.1 设置得相当宽,并将条形的间距变大,以便我可以将电影标题放在下面。为了节省水平空间,我们可以将条形放在一起并旋转标签(图 6.2 )。但是,我不是旋转标签的大力支持者。我发现最终的绘图很难阅读。而且,根据我的经验,每当标签太长而不能水平放置时,它们看起来也不好看。
![](img/b0e21f8e827792c86362901a0dcaafed.jpg)
图 6.2:2017 年 12 月 22 日至 24 日周末的最高票房电影,显示为带有旋转轴刻度标签的条形图。旋转轴刻度标签往往难以阅读,并且需要在绘图下方难以使用空间。出于这些原因,我通常认为旋转刻度标签的图表很难看。数据来源:Box Office Mojo( [http://www.boxofficemojo.com/](http://www.boxofficemojo.com/) )。经许可使用
图 6.2:2017 年 12 月 22 日至 24 日周末的最高票房电影,显示为带有旋转轴刻度标签的条形图。旋转轴刻度标签往往难以阅读,并且需要使用绘图下方的笨拙的空间。出于这些原因,我通常认为旋转刻度标签的图表很难看。数据来源:[Box Office Mojo](http://www.boxofficemojo.com/)经许可使用
长标签的更好解决方案通常是交换 _x_ 和 _y_ 轴,使条形水平运行(图 6.3 )。在交换轴之后,我们获得了一个紧凑的图形,其中所有可视元素(包括所有文本)都是水平方向的。因此,该图比图 6.2 或甚至图 6.1 更容易阅读。
长标签的更好解决方案通常是交换 *x**y* 轴,使条形水平放置(图 6.3)。在交换轴之后,我们获得了一个紧凑的图形,其中所有可视元素(包括所有文本)都是水平方向的。因此,该图比图 6.2 或甚至图 6.1 更容易阅读。
![](img/39eb49afe05f02a6886eb9e313330c00.jpg)
......@@ -39,35 +40,35 @@
![](img/5bb28b1a5789ed4578068954cefa0a4d.jpg)
图 6.4:2017 年 12 月 22 日至 24 日周末最高票房电影,显示为水平条形图。这里,条形按照电影标题长度的降序排列。这种条形排列是任意的,它没有用于有意义的目的,并且它使得结果图形比图 6.3 更不直观。数据来源:Box Office Mojo( [http://www.boxofficemojo.com/](http://www.boxofficemojo.com/) )。经许可使用
图 6.4:2017 年 12 月 22 日至 24 日周末的最高票房电影,显示为水平条形图。这里,条形按照电影标题长度降序排列。这种条形排列是任意的,它没有用于有意义的目的,并且它使得所得图形比图 6.3 更不直观。数据来源:[Box Office Mojo](http://www.boxofficemojo.com/)经许可使用
然而,当条形表示的类别没有自然排序时,我们应该只重新排列条形。每当存在自然排序时(即,当我们的分类变量是有序因子时),我们应该在可视化中保留该排序。例如,图 6.5 显示了按年龄组划分的美国年收入中位数。在这种情况下,杆应按年龄增加的顺序排列。按照条形高度排序同时改变年龄组是没有意义的(图 6.6 )。
然而,当条形表示的类别没有自然排序时,我们应该仅仅重新排列条形。每当存在自然排序时(即,当我们的分类变量是有序因子时),我们应该在可视化中保留该排序。例如,图 6.5 显示了按年龄组划分的美国年收入中位数。在这种情况下,条形应按年龄升序排列。按照条形高度排序同时改变年龄组是没有意义的(图 6.6)。
![](img/ae4594f5029b45030628cb9aca9949d3.jpg)
图 6.5:2016 年美国家庭年收入与年龄组的中位数。 45-54 岁年龄组的收入中位数最高。数据来源:美国人口普查局
图 6.5:2016 年美国家庭年收入中位数,按年龄组划分。 45-54 岁年龄组的收入中位数最高。数据来源:美国人口普查局
![](img/88834fd88fe9e0ef61e4f28b4dabf027.jpg)
图 6.6:2016 年美国家庭年收入与年龄组的中位数,按收入排序。虽然这种酒吧的顺序看起来很有吸引力,但是年龄组的顺序现在令人困惑。数据来源:美国人口普查局
图 6.6:2016 年美国家庭年收入中位数,按年龄组年龄组,按收入排序。虽然这种条形的顺序看起来很有吸引力,但是年龄组的顺序现在令人困惑。数据来源:美国人口普查局
注意酒吧订单。如果条形表示无序类别,则通过升序或降序数据值对它们进行排序。
注意条形顺序。如果条形表示无序类别,则按照数据值的升序或降序对它们进行排序。
## 6.2 分组和堆叠条
## 6.2 分组和堆叠条
前一小节中的所有示例都显示了定量数量如何根据一个分类变量而变化。然而,我们经常同时对两个分类变量感兴趣。例如,美国人口普查局提供按年龄和种族划分的中位数收入水平。我们可以用 _ 分组条形图 _(图 6.7 )可视化该数据集。在分组条形图中,我们在 _x_ 轴的每个位置绘制一组条形图,由一个分类变量确定,然后我们根据另一个分类变量在每个组内绘制条形图。
前一小节中的所有示例都显示了定量数量如何根据一个分类变量而变化。然而,我们经常同时对两个分类变量感兴趣。例如,美国人口普查局提供按年龄和种族划分的中位数收入水平。我们可以用 _ 分组条形图 _(图 6.7 )可视化该数据集。在分组条形图中,我们在 *x* 轴的每个位置绘制一组条形图,由一个分类变量确定,然后我们根据另一个分类变量在每个组内绘制条形图。
![](img/4b187afa397eb4fba6d39bc22157428f.jpg)
图 6.7:2016 年美国家庭年收入与年龄组和种族的比例中位数。年龄组沿着 _x_ 轴显示,并且对于每个年龄组,有四个柱,分别对应于亚洲人,白人,西班牙人和黑人的中位数收入。数据来源:美国人口普查局
图 6.7:2016 年美国家庭年收入与年龄组和种族的比例中位数。年龄组沿着 *x* 轴显示,并且对于每个年龄组,有四个柱,分别对应于亚洲人,白人,西班牙人和黑人的中位数收入。数据来源:美国人口普查局
分组条形图一次显示大量信息,它们可能令人困惑。事实上,即使我没有将图 6.7 标记为坏或丑,我觉得很难阅读。特别是,对于特定的种族群体,很难比较不同年龄组的中位数收入。因此,只有当我们主要关注种族群体的收入水平差异(分别针对特定年龄组)时,这个数字才适用。如果我们更关心种族群体收入水平的总体模式,可能最好沿着 _x_ 轴显示种族,并在每个种族群体中显示年龄为不同的条形图(图 6.8 ])。
分组条形图一次显示大量信息,它们可能令人困惑。事实上,即使我没有将图 6.7 标记为坏或丑,我觉得很难阅读。特别是,对于特定的种族群体,很难比较不同年龄组的中位数收入。因此,只有当我们主要关注种族群体的收入水平差异(分别针对特定年龄组)时,这个数字才适用。如果我们更关心种族群体收入水平的总体模式,可能最好沿着 *x* 轴显示种族,并在每个种族群体中显示年龄为不同的条形图(图 6.8 ])。
![](img/db8a89cb4c50a901438d0dd9a9566d77.jpg)
图 6.8:2016 年美国家庭年收入与年龄组和种族的比例中位数。与图 6.7 相反,现在沿着 _x_ 轴显示种族,并且对于每个种族,我们根据七个年龄组显示七个小节。数据来源:美国人口普查局
图 6.8:2016 年美国家庭年收入与年龄组和种族的比例中位数。与图 6.7 相反,现在沿着 *x* 轴显示种族,并且对于每个种族,我们根据七个年龄组显示七个小节。数据来源:美国人口普查局
图 6.7 和 6.8 均沿着 _x_ 轴的位置编码一个分类变量,另一个按条形颜色编码。在这两种情况下,按位置编码都很容易阅读,而按条颜色编码则需要更多精力,因为我们必须在精神上匹配条形图颜色与图例中的颜色。我们可以通过显示四个单独的常规条形图而不是一个分组条形图来避免这种额外的心理努力(图 6.9 )。我们选择哪种不同的选择最终是品味问题。我可能会选择图 6.9 ,因为它避免了对不同条形颜色的需要。
图 6.7 和 6.8 均沿着 *x* 轴的位置编码一个分类变量,另一个按条形颜色编码。在这两种情况下,按位置编码都很容易阅读,而按条颜色编码则需要更多精力,因为我们必须在精神上匹配条形图颜色与图例中的颜色。我们可以通过显示四个单独的常规条形图而不是一个分组条形图来避免这种额外的心理努力(图 6.9 )。我们选择哪种不同的选择最终是品味问题。我可能会选择图 6.9 ,因为它避免了对不同条形颜色的需要。
![](img/735d8ba526a8212a9215ac35419d69f1.jpg)
......@@ -81,13 +82,13 @@
图 6.10:泰坦尼克号的一,二,三班乘客的男女乘客人数。
图 6.10 与我之前显示的条形图的不同之处在于没有明确的 _y_ 轴。我已经显示了每个条形代表的实际数值。每当绘图仅显示少量不同的值时,将实际数字添加到绘图中是有意义的。这大大增加了绘图传达的信息量,而没有增加太多的视觉噪声,并且它消除了对显式 _y_ 轴的需要。
图 6.10 与我之前显示的条形图的不同之处在于没有明确的 *y* 轴。我已经显示了每个条形代表的实际数值。每当绘图仅显示少量不同的值时,将实际数字添加到绘图中是有意义的。这大大增加了绘图传达的信息量,而没有增加太多的视觉噪声,并且它消除了对显式 *y* 轴的需要。
## 6.3 点图和热图
条形图不是可视化金额的唯一选项。条形的一个重要限制是它们需要从零开始,因此条形长度与所示的量成比例。对于某些数据集,这可能不切实际或可能会模糊关键功能。在这种情况下,我们可以通过在 _x_ 或 _y_ 轴的适当位置放置点来指示量。
条形图不是可视化金额的唯一选项。条形的一个重要限制是它们需要从零开始,因此条形长度与所示的量成比例。对于某些数据集,这可能不切实际或可能会模糊关键功能。在这种情况下,我们可以通过在 *x**y* 轴的适当位置放置点来指示量。
图 6.11 演示了这种可视化方法,用于美洲 25 个国家的预期寿命数据集。这些国家的公民的预期寿命在 60 到 81 岁之间,每个人的预期寿命值在 _x_ 轴的适当位置显示为蓝点。通过将轴范围限制在 60 至 81 年的间隔,该图突出了该数据集的主要特征:加拿大在所有列出的国家中具有最高的预期寿命,而玻利维亚和海地的预期寿命远低于所有其他国家。如果我们使用了条形而不是点(图 6.12 ),我们已经做了一个不太引人注目的数字。因为这个图中的条纹很长,并且它们都具有几乎相同的长度,所以眼睛被吸引到条形的中间而不是它们的端点,并且该图形无法传达其信息。
图 6.11 演示了这种可视化方法,用于美洲 25 个国家的预期寿命数据集。这些国家的公民的预期寿命在 60 到 81 岁之间,每个人的预期寿命值在 *x* 轴的适当位置显示为蓝点。通过将轴范围限制在 60 至 81 年的间隔,该图突出了该数据集的主要特征:加拿大在所有列出的国家中具有最高的预期寿命,而玻利维亚和海地的预期寿命远低于所有其他国家。如果我们使用了条形而不是点(图 6.12 ),我们已经做了一个不太引人注目的数字。因为这个图中的条纹很长,并且它们都具有几乎相同的长度,所以眼睛被吸引到条形的中间而不是它们的端点,并且该图形无法传达其信息。
![](img/1f94fa1b3a3744fa49dd8544be1093b3.jpg)
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册