提交 bad5d7e4 编写于 作者: W wizardforcel

2020-04-25 19:37:17

上级 c8dbc6bc
......@@ -32,25 +32,25 @@
## 18.2 2D 直方图
当单个点的数量变得非常大时,部分透明度(有或没有抖动)将不足以解决过度绘图问题。通常会发生的是,具有高点密度的区域将显示为深色的均匀斑点,而在具有低点密度的区域中,各个点几乎不可见(图 18.5 )。而改变个别点的透明度水平将改善这些问题中的一个或另一个,同时使另一个问题恶化;没有透明度设置可以同时解决这两个问题。
当单个点的数量变得非常大时,部分透明度(有或没有抖动)将不足以解决过度绘图问题。通常会发生的是,点密度高的区域将显示为深色的均匀斑点,而在点密度低的区域中,各个点几乎不可见(图 18.5 )。而改变个别点的透明度水平将改善这些问题中的一个,同时使另一个问题恶化;没有透明度设置可以同时解决这两个问题。
![](img/36a99ef2560df031b20735f9c079395f.jpg)
图 18.5:2013 年所有从纽瓦克机场(EWR)起飞的航班的出发延误(以分钟为单位)与航班起飞时间的关系。每个点代表一次出发
图 18.5:2013 年从纽瓦克机场(EWR)起飞的所有航班的起飞延误(分钟)与航班起飞时间的关系。每个点代表一次起飞
图 18.5 显示超过 100,000 个单独航班的出发延误,每个点代表一次航班起飞。尽管我们已经使各个点相当透明,但是它们中的大多数只是在 0 到 300 分钟的出发延迟之间形成黑带。该频段模糊了大多数航班是否准时出发或大幅延迟(比如 50 分钟或更长时间)。同时,由于点的透明度,最延迟的航班(延迟 400 分钟或更长时间)几乎看不到。
图 18.5 显示超过 100,000 个单独航班的起飞延误,每个点代表一次航班起飞。尽管我们已经使各个点相当透明,但是它们中的大多数只是在 0 到 300 分钟的起飞延误之间形成黑带。这个带子模糊了大多数航班是否准时起飞或大幅延误(比如 50 分钟或更长时间)。同时,由于点的透明度,最延误的航班(延误 400 分钟或更长时间)几乎看不到。
在这种情况下,我们可以制作 2D 直方图,而不是绘制单个点。 2D 直方图在概念上类似于第一章 [7](histograms-density-plots.html#histograms-density-plots) 中讨论的一维直方图,但现在我们将数据分为二维。我们将整个 *x* - *y* 平面细分为小矩形,计算每个观察落入的观察数量,然后按该计数对矩形进行着色。图 18.6 显示了这种离场延迟数据方法的结果。该可视化清晰地突出了航班起飞数据的几个重要特征。首先,白天(早上 6 点到晚上 9 点)的绝大多数出发实际上是在没有延迟甚至提前(负面延迟)的​​情况下离开的。然而,适度的离职数量有很大的延迟。此外,一架飞机在当天离开的时间越多,它就越有延迟。重要的是,出发时间是实际的出发时间,而不是预定的出发时间。所以这个数字并不一定告诉我们计划提早离开的飞机从未经历过延误。然而,它告诉我们的是,如果飞机早早出发,它要么没有延迟,要么在极少数情况下延迟大约 900 分钟。
在这种情况下,我们可以制作 2D 直方图,而不是绘制单个点。 2D 直方图在概念上类似于第七章中讨论的一维直方图,但现在我们将数据在二维中分桶。我们将整个 *x* - *y* 平面细分为小矩形,计算落入每个桶的观察数量,然后按该计数来着色矩形。图 18.6 使用这种方法,显示了起飞延误数据的结果。该可视化清晰地突出了航班起飞数据的几个重要特征。首先,白天(早上 6 点到晚上 9 点)的绝大多数航班,实际上是在没有延误甚至提前(负延误)的​​情况下起飞的。然而,一定数量的航班有很大的延误。此外,一架飞机在当天的起飞得越晚,它的延误就越大。重要的是,起飞时间是实际的起飞时间,而不是预定的起飞时间。所以这个图表并不一定告诉我们计划提前起飞的飞机从未经历过延误。然而,它告诉我们的是,如果飞机提前起飞,它要么没有延误,要么在极少数情况下延误大约 900 分钟。
![](img/dda901bdf850f3f1a4078e75b0692f8b.jpg)
图 18.6:以分钟为单位的出发延误与航班起飞时间的关系。每个彩色矩形代表当时离开的所有航班和出发延误。着色表示该矩形表示的飞行数。
图 18.6:以分钟为单位的起飞延误与航班起飞时间的关系。每个彩色矩形代表当时起飞的起飞延误为指定值的所有航班。着色表示该矩形的航班数。
作为将数据合并为矩形的替代方法,我们也可以将其分成六边形。这种方法首先由 Carr 等人提出。 ( [1987](#ref-Carr-et-al-1987) )具有以下优点:六边形中的点平均比等面积方形中的点更接近六边形中心到达正方形的中心。因此,彩色六边形比彩色矩形更准确地表示数据。图 18.7 显示六边形装箱而非矩形装箱的航班起飞数据。
作为将数据合并为矩形的替代方法,我们也可以将其分成六边形。这种方法首先由 Carr 等人(1987)提出,具有以下优点:比等面积方形中的点,六边形中的点平均更接近其中心。因此,彩色六边形比彩色矩形更准确地表示数据。图 18.7 显示六边形分桶而非矩形分桶的航班起飞数据。
![](img/a87d75b85fc9e1df0e248f7e47d3bbc5.jpg)
图 18.7:以分钟为单位的出发延误与航班起飞时间的关系。每个彩色六边形代表当时离开的所有航班和出发延误。着色表示由该六边形表示的飞行次数。
图 18.7:以分钟为单位的起飞延误与航班起飞时间的关系。每个彩色六边形代表当时起飞的起飞延误为指定值的所有航班。着色表示该六边形的航班数。
## 18.3 轮廓线
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册