提交 d9c1e465 编写于 作者: W wizardforcel

2020-04-25 19:57:53

上级 bad5d7e4
# 18 处理重叠点
> 原文: [https://serialmentor.com/dataviz/overlapping-points.html](https://serialmentor.com/dataviz/overlapping-points.html)
> 原文: [18 Handling overlapping points](https://serialmentor.com/dataviz/overlapping-points.html)
> 校验:[飞龙](https://github.com/wizardforcel)
> 自豪地采用[谷歌翻译](https://translate.google.cn/)
当我们想要显示大型或非常大的数据集时,我们经常遇到这样的挑战:简单的 *x* - *y* 散点图不能工作得很好,因为许多点位于彼此的顶部并且部分或完全重叠。如果以低精度或四舍五入的方式记录数据值,即使在小数据集中也会出现类似的问题,这样多个观察值具有完全相同的数值。通常用于描述这种情况的技术术语是“过度绘图”,即,将许多点绘制在彼此之上。在这里,我将描述您在遇到此挑战时可以采取的几种策略。
......@@ -52,48 +56,50 @@
图 18.7:以分钟为单位的起飞延误与航班起飞时间的关系。每个彩色六边形代表当时起飞的起飞延误为指定值的所有航班。着色表示该六边形的航班数。
## 18.3 轮廓线
## 18.3 等值线
我们还可以估算绘图区域内的点密度,并用轮廓线指示不同点密度的区域,而不是将数据点分组为矩形或六边形。当点密度在 *x**y* 维度上缓慢变化时,该技术很有效。
我们还可以估算绘图区域内的点密度,并用等值线指示不同点密度的区域,而不是将数据点分组为矩形或六边形。当点密度在 *x**y* 维度上缓慢变化时,该技术很有效。
作为这种方法的一个例子,我们返回第 [12](visualizing-associations.html#visualizing-associations) 章节中的蓝鸟队数据集。图 12.1 显示了 123 只蓝鸟的头长和体重之间的关系,并且这些点之间存在一些重叠。我们可以通过使点更小和部分透明来更清楚地突出点的分布,并将它们绘制在描绘相似点密度区域的等高线之上(图 18.8 )。我们可以通过对由轮廓线包围的区域进行着色来进一步增强对点密度变化的感知,对于表示较高点密度的区域使用较暗的颜色(图 18.9 )。
作为这种方法的一个例子,我们返回第 12 章节的蓝鸟数据集。图 12.1 显示了 123 只蓝鸟的头长和体重之间的关系,并且这些点之间存在一些重叠。我们可以通过使点更小和部分透明,来更清楚地突出点的分布,并将它们绘制在等值线之上(图 18.8 ),它描绘点密度相似的区域。我们可以通过对由等值线包围的区域进行着色,来进一步增强对点密度变化的感知,对于表示较高点密度的区域使用较暗的颜色(图 18.9 )。
![](img/4a70baf6fc15a6acd02675324243c164.jpg)
图 18.8:123 个蓝鸟的头长与体重的关系,如图 12.1 所示。每个点对应一只鸟,线表示相似点密度的区域。点密度朝着图的中心增加,接近体重 75g,头长在 55mm 和 57.5mm 之间。数据来源:欧柏林学院的 Keith Tarvin
图 18.8:123 个蓝鸟的头长与体重的关系,如图 12.1 所示。每个点对应一只鸟,线条表示点密度相似的区域。点密度朝着图的中心增加,体重接近 75g,头长在 55mm 和 57.5mm 之间。数据来源:欧柏林学院的 Keith Tarvin
![](img/97a546315ae9339eb8096500fada3860.jpg)
图 18.9:123 个蓝鸟的头长与体重的关系。这个图与图 12.1 几乎相同,但现在轮廓线包围的区域用越来越深的灰色阴影着色。这种阴影产生了更强的视觉印象,即朝向点云的中心增加点密度。数据来源:欧柏林学院的 Keith Tarvin
图 18.9:123 个蓝鸟的头长与体重的关系。这个图与图 12.1 几乎相同,但现在等值线包围的区域用越来越深的灰色阴影着色。这种阴影产生了更强的视觉印象,即点密度朝着点云的中心增加。数据来源:欧柏林学院的 Keith Tarvin
章节 [12](visualizing-associations.html#visualizing-associations) 中,我们还分别研究了雄鸟和雌鸟的头长和体重之间的关系(图 12.2 )。我们可以通过为雄鸟和雌鸟分别绘制彩色轮廓线来绘制轮廓线(图 18.10 )。
第 12 章中,我们还分别研究了雄鸟和雌鸟的头长和体重之间的关系(图 12.2 )。我们可以通过为雄鸟和雌鸟分别绘制彩色等值线来绘制等值线图(图 18.10 )。
![](img/62f4b6ab53cfa7db3c4e96604a4a7684.jpg)
图 18.10:123 个蓝鸟的头长与体重的关系。如图 12.2 ,我们还可以在绘制轮廓线时通过颜色指示鸟类的性别。该图突出显示了雄鸟和雌鸟的点分布是如何不同的。特别是,雄性鸟类在地块区域的一个区域中更密集地聚集,而雌性鸟类则更加分散。数据来源:欧柏林学院的 Keith Tarvin
图 18.10:123 个蓝鸟的头长与体重的关系。如图 12.2 ,我们还可以在绘制等值线时通过颜色指示鸟类的性别。该图突出显示了雄鸟和雌鸟的点的分布是如何不同的。特别是,雄鸟在绘图区域的一个区域中更密集,而雌鸟则更加分散。数据来源:欧柏林学院的 Keith Tarvin
绘制不同颜色的多组轮廓线可以是一次显示多个点云分布的强大策略。但是,这种技术需要谨慎使用。它仅在具有不同颜色的组的数量较小(两到三个)并且组明确分开时才有效。否则,我们最终会得到一条颜色不同的毛球,它们彼此交叉,并且根本不显示任何特定的图案。
绘制不同颜色的多组等值线,可能是一次显示多个点云分布的强大策略。但是,这种技术需要谨慎使用。它仅在具有不同颜色的组的数量较小(两到三个),并且组明确分离时才有效。否则,我们最终会得到一条毛球,它的不同颜色的线彼此交叉,并且根本不显示任何特定的图案。
为了说明这个潜在的问题,我将使用钻石数据集,其中包含 53,940 颗钻石的信息,包括它们的价格,重量(克拉)和切割。图 18.11 将此数据集显示为散点图。我们看到了过度绘图的明显问题。有许多不同颜色的点在彼此之上,除了钻石落在价格克拉谱上的整体大纲之外,不可能辨别出任何东西。
为了说明这个潜在的问题,我将使用钻石数据集,其中包含 53,940 颗钻石的信息,包括它们的价格,重量(克拉)和切割。图 18.11 将此数据集显示为散点图。我们看到了过度绘图的明显问题。有许多不同颜色的点在彼此之上,除了钻石落在价格克拉谱上的整体形状之外,不可能辨别出任何东西。
![](img/445657b8b96ebb32eac6f61142afaee1.jpg)
图 18.11:钻石价格与其克拉值的比值,为 53,940 枚单颗钻石。每颗钻石的切割都用颜色表示。该图被标记为“坏”,因为广泛的过度绘图使得无法辨别出不同钻石切割中的任何图案。数据来源:Hadley Wickham,ggplot2
图 18.11:53,940 枚单颗钻石的钻石价格与其克拉值的关系。每颗钻石的切割都用颜色表示。该图被标记为“不好”,因为大量的过度绘图使我们无法辨别不同钻石切割的任何规律。数据来源:Hadley Wickham,ggplot2
我们可以尝试为不同的切割质量绘制彩色轮廓线,如图 18.10 。但是,在钻石数据集中,我们有五种不同的颜色,这些组强烈重叠。因此,等高线图(图 18.12 )并没有比原始散点图好很多(图 18.11 )。
我们可以尝试为不同的切割质量绘制彩色等值线,如图 18.10 。但是,在钻石数据集中,我们有五种不同的颜色,这些组严重重叠。因此,等值线图(图 18.12 )并没有比原始散点图好很多(图 18.11 )。
![](img/27649340133660591a227b39f72d4a27.jpg)
图 18.12:钻石价格与克拉价值的关系。如图 18.11 ,但现在个别点已被轮廓线所取代。得到的图仍然标记为“坏”,因为轮廓线全部位于彼此之上。无论是单个切割的点分布还是整体点分布都不能被辨别出来。数据来源:Hadley Wickham,ggplot2
图 18.12:钻石价格与克拉值的关系。如图 18.11 ,但现在个别点已被等值线所取代。得到的图仍然标记为“不好”,因为等值线全部位于彼此之上。无论是单个切割的点的分布还是整体的点的分布都不能被辨别出来。数据来源:Hadley Wickham,ggplot2
这有助于在自己的绘图面板中绘制每个切割质量的轮廓线(图 18.13 )。在一个面板中绘制它们的目的可能是为了实现组之间的视觉比较,但是图 18.12 非常繁忙,无法进行比较。相反,在图 18.13 中,背景网格使我们能够通过关注轮廓线相对于网格线的确切位置来对切割质量进行比较。 (通过在每个面板中绘制部分透明的单个点而不是轮廓线,可以实现类似的效果。)
在独立的绘图面板中绘制每个切割质量的等值线,会有所帮助(图 18.13 )。在一个面板中绘制它们的目的,可能是为了实现组之间的视觉比较,但是图 18.12 非常嘈杂,无法进行比较。相反,在图 18.13 中,背景网格使我们能够通过关注等值线相对于网格线的确切位置,来对切割质量进行比较。 (通过在每个面板中绘制部分透明的单个点而不是等值线,可以实现类似的效果。)
![](img/f9121ff8b76cbd7ae189ddc16683c6f4.jpg)
图 18.13:钻石价格与克拉价值的关系。在这里,我们从图 18.12 中获取了密度轮廓,并为每次切割分别绘制它们。我们现在可以看到,更好的削减(非常好,优质,理想)往往比较差的削减(公平,良好)具有更低的克拉值,但是每克拉的价格更高。数据来源:Hadley Wickham,ggplot2
图 18.13:钻石价格与克拉值的关系。在这里,我们从图 18.12 中获取了密度等值线,并为每个切割分别绘制它们。我们现在可以看到,更好的切割(非常好,优质,理想)往往比较差的切割(一般,良好)具有更低的克拉值,但是每克拉的价格更高。数据来源:Hadley Wickham,ggplot2
我们可以提出两个主要趋势。首先,更好的削减(非常好,优质,理想)往往比较差的削减(公平,良好)具有更低的克拉值。回想一下克拉是衡量钻石重量的指标(1 克拉= 0.2 克)。更好的切割往往会导致较轻的钻石(平均而言),因为需要更多的材料去除它们。其次,在相同的克拉值下,更好的削减倾向于提高价格。要查看此模式,请查看 0.5 克拉的价格分布示例。分布向上移动以获得更好的切割,特别是对于具有理想切割的钻石而言,其分布比具有公平或良好切割的钻石高得多。
我们可以提出两个主要趋势。首先,更好的切割(非常好,优质,理想)往往比较差的切割(一般,良好)具有更低的克拉值。回想一下克拉是衡量钻石重量的指标(1 克拉 = 0.2 克)。更好的切割往往会产生较轻的钻石(平均而言),因为需要去除更多的材料来创造它们。其次,在相同的克拉值下,更好的切割倾向于更高的价格。要查看此模式,请查看 0.5 克拉的价格分布示例。对于更好的切割,分布向上移动,特别是对于具有理想切割的钻石而言,其分布比具有一般或良好切割的钻石高得多。
### 参考
Carr,D.B.,R.J。Littlefield,W。L. Nicholson 和 J. S. Littlefield。 “大型 N 的散点图矩阵技术” _J. Am。统计。协会。_ 82:424-36。
\ No newline at end of file
```
Carr, D. B., R. J. Littlefield, W. L. Nicholson, and J. S. Littlefield. 1987. “Scatterplot Matrix Techniques for Large N.” J. Am. Stat. Assoc. 82: 424–36.
```
\ No newline at end of file
......@@ -50,7 +50,7 @@
![](img/cd98da843c526dfb36ae80e6cd009b31.jpg)
对于大量的点,由于过度绘图,常规散点图可能变得无法提供信息。在这种情况下,等线图,2D 箱形图或六角箱形图可以提供替代方案(第 18 章)。另一方面,当我们想要可视化两个以上的数量时,我们可以选择以相关图的形式而不是基础原始数据来绘制相关系数(章节 12.2 )。
对于大量的点,由于过度绘图,常规散点图可能变得无法提供信息。在这种情况下,等线图,2D 箱形图或六角箱形图可以提供替代方案(第 18 章)。另一方面,当我们想要可视化两个以上的数量时,我们可以选择以相关图的形式而不是基础原始数据来绘制相关系数(章节 12.2 )。
![](img/74b5d6e781a309f620f60f1b77e67c73.jpg)
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册