提交 6fcf8451 编写于 作者: W wizardforcel

2020-04-25 22:22:15

上级 8524c01a
......@@ -148,7 +148,7 @@
## 16.4 假设结果图
所有不确定性的静态可视化都受到以下问题的困扰:读者可能将不确定性可视化的某些方面解释为数据的确定性特征(确定性构造误差)。我们可以通过动画可视化不确定性,通过循环通过许多不同但同样可能的情节来避免这个问题。这种可视化被称为假设结果图(Hullman,Resnick 和 Adar [2015](#ref-Hullman_et_al_2015) )或 HOP。虽然在打印介质中不可能有 HOP,但它们在可以以 GIF 或 MP4 视频形式提供动画可视化的在线设置中非常有效。 HOP 在口头陈述的背景下也可以很好地运作。
所有不确定性的静态可视化都受到以下问题的困扰:读者可能将不确定性可视化的某些方面解释为数据的确定性特征(确定性构造误差)。我们可以通过动画可视化不确定性,通过循环通过许多不同但同样可能的绘图来避免这个问题。这种可视化被称为假设结果图(Hullman,Resnick 和 Adar [2015](#ref-Hullman_et_al_2015) )或 HOP。虽然在打印介质中不可能有 HOP,但它们在可以以 GIF 或 MP4 视频形式提供动画可视化的在线设置中非常有效。 HOP 在口头陈述的背景下也可以很好地运作。
为了说明 HOP 的概念,让我们再回到巧克力棒评级。当您站在杂货店考虑购买一些巧克力时,您可能不关心某些巧克力棒组的平均风味评级和相关的不确定性。相反,你可能想知道一个更简单的问题的答案,例如:如果我随机拿起一个加拿大和美国制造的巧克力棒,我应该期望哪两个更好?为了得到这个问题的答案,我们可以从数据集中随机选择加拿大和美国的条形,比较他们的评级,记录结果,然后多次重复这个过程。如果我们这样做,我们会发现在大约 53%的情况下,加拿大条形将排名更高,47%的情况下美国条形排名更高或两个条形并列。我们可以通过在这些随机抽取中的几个之间循环显示这个过程,并显示每个抽取的两个柱的相对排名(图 16.19 /图 16.20 )。
......
......@@ -44,7 +44,7 @@
## 21.2 化合物数字
并非每个具有多个面板的图形都符合小倍数的模式。有时我们只是想将几个独立的面板组合成一个组合图,传达一个总体点。在这种情况下,我们可以采用不同的情节并按行,列或其他更复杂的方式排列它们,并将整个排列称为一个数字。例如,见图 21.5 ,它继续分析美国高等教育机构收集的学士学位的趋势。图 21.5 的图(a)显示了从 1971 年到 2015 年授予的学位总数的增长,在此期间,授予的学位数大约翻了一番。 (b)小组显示了五个最受欢迎学位区域在同一时期内获得的学位百分比的变化。我们可以看到社会科学,历史和教育从 1971 年到 2015 年经历了大幅下降,而商业和卫生专业则出现了大幅增长。
并非每个具有多个面板的图形都符合小倍数的模式。有时我们只是想将几个独立的面板组合成一个组合图,传达一个总体点。在这种情况下,我们可以采用不同的绘图并按行,列或其他更复杂的方式排列它们,并将整个排列称为一个数字。例如,见图 21.5 ,它继续分析美国高等教育机构收集的学士学位的趋势。图 21.5 的图(a)显示了从 1971 年到 2015 年授予的学位总数的增长,在此期间,授予的学位数大约翻了一番。 (b)小组显示了五个最受欢迎学位区域在同一时期内获得的学位百分比的变化。我们可以看到社会科学,历史和教育从 1971 年到 2015 年经历了大幅下降,而商业和卫生专业则出现了大幅增长。
请注意,在我的小倍数示例中,复合图形的各个面板按字母顺序标记。通常使用拉丁字母表中的大写或小写字母。需要标签来唯一地指定特定面板。例如,当我想谈谈图 21.5 的部分显示所授予的学位百分比的变化时,我可以参考该图的图(b)或简单地参考图 21.5 ] b。如果没有标签,我将不得不尴尬地谈论图 21.5 的“右侧面板”或“左侧面板”,并且对于更复杂的面板布置而言,提及特定面板会更加尴尬。不需要标记,通常不会对小倍数进行标记,因为每个面板都由作为图形标签提供的刻面变量唯一指定。
......
......@@ -6,7 +6,7 @@
## 22.1 图标题和标题
每个图的一个关键组成部分是图标题。每个人都需要标题。标题的工作是准确地向读者传达这个数字是关于什么,它是什么点。但是,图标题可能不一定出现在您期望看到它的位置。考虑图 22.1 。它的标题是“腐败和人类发展:最发达的国家经历了最少的腐败。”然而,这个标题并未在图上方显示。相反,标题作为字幕块的第一部分提供,位于图形显示下方。这是我在本书中使用的风格。我一直显示没有综合标题和单独标题的数字。 (一个例外是 [5](directory-of-visualizations.html#directory-of-visualizations) 章节中的程式化情节示例,它们有标题而没有字幕。)
每个图的一个关键组成部分是图标题。每个人都需要标题。标题的工作是准确地向读者传达这个数字是关于什么,它是什么点。但是,图标题可能不一定出现在您期望看到它的位置。考虑图 22.1 。它的标题是“腐败和人类发展:最发达的国家经历了最少的腐败。”然而,这个标题并未在图上方显示。相反,标题作为字幕块的第一部分提供,位于图形显示下方。这是我在本书中使用的风格。我一直显示没有综合标题和单独标题的数字。 (一个例外是 [5](directory-of-visualizations.html#directory-of-visualizations) 章节中的程式化绘图示例,它们有标题而没有字幕。)
![](img/b1ac40846abe87e7e818f860d22efb27.jpg)
......@@ -24,7 +24,7 @@
## 22.2 轴和传奇头衔
就像每个情节都需要一个标题,轴和传说也需要标题。 (轴标题通常通俗地称为 _ 轴标签 _。)轴和图例标题和标签说明了显示的数据值以及它们如何映射到绘图美学。
就像每个绘图都需要一个标题,轴和传说也需要标题。 (轴标题通常通俗地称为 _ 轴标签 _。)轴和图例标题和标签说明了显示的数据值以及它们如何映射到绘图美学。
为了展示所有轴和图例都经过适当标注和标题的图表示例,我在第 [12](visualizing-associations.html#visualizing-associations) 章节中详细讨论了蓝色的 jay 数据集,并将其显示为气泡图(图 22.3 )。在该图中,轴标题清楚地表明 *x* 轴显示以克为单位的体重, *y* 轴显示以毫米为单位的头部长度。同样,图例标题显示点着色表示鸟类的性别,点大小表示鸟类的头骨大小,以毫米为单位。我强调,对于所有数值变量(体重,头长和头骨大小),相关标题不仅说明所显示的变量,还说明变量的测量单位。这是一种很好的做法,应该尽可能地完成。类别变量(例如性别)不需要单位。
......
......@@ -2,7 +2,7 @@
> 原文: [https://serialmentor.com/dataviz/balance-data-context.html](https://serialmentor.com/dataviz/balance-data-context.html)
我们可以将任何可视化中的图形元素大致细分为表示数据的元素和不表示数据的元素。前者是诸如散点图中的点,直方图或条形图中的条形或热图中的阴影区域等元素。后者是诸如绘图轴,轴刻度和标签,轴标题,图例和绘图注释等元素。这些元素通常为图的数据和/或视觉结构提供上下文。在设计绘图时,考虑用于表示数据和上下文的墨水量(章节 [17](proportional-ink.html#proportional-ink) )会很有帮助。一个常见的建议是减少非数据墨水的数量,遵循这些建议往往可以减少混乱和更优雅的可视化。同时,背景和视觉结构是重要的,过度地最小化提供它们的情节元素可能导致难以阅读,混淆或根本没有引人注目的数字。
我们可以将任何可视化中的图形元素大致细分为表示数据的元素和不表示数据的元素。前者是诸如散点图中的点,直方图或条形图中的条形或热图中的阴影区域等元素。后者是诸如绘图轴,轴刻度和标签,轴标题,图例和绘图注释等元素。这些元素通常为图的数据和/或视觉结构提供上下文。在设计绘图时,考虑用于表示数据和上下文的墨水量(章节 [17](proportional-ink.html#proportional-ink) )会很有帮助。一个常见的建议是减少非数据墨水的数量,遵循这些建议往往可以减少混乱和更优雅的可视化。同时,背景和视觉结构是重要的,过度地最小化提供它们的绘图元素可能导致难以阅读,混淆或根本没有引人注目的数字。
## 23.1 提供适当数量的背景
......@@ -38,11 +38,11 @@ Edward Tufte 在他的着作“定量信息的视觉显示”(Tufte [2001](#re
![](img/5a1aad0fdf7747306fa5171c7f7a721d.jpg)
图 23.5:按性别和阶级划分的泰坦尼克号乘客的生存情况。这个小倍数的情节过于简约。各个图案没有框架,因此很难看出图中的哪个部分属于哪个方面。此外,单个条不固定到清晰的基线,它们似乎漂浮。
图 23.5:按性别和阶级划分的泰坦尼克号乘客的生存情况。这个小倍数的绘图过于简约。各个图案没有框架,因此很难看出图中的哪个部分属于哪个方面。此外,单个条不固定到清晰的基线,它们似乎漂浮。
![](img/11f62167852862fdd049805a37eea768.jpg)
图 23.6:按性别和阶级划分的泰坦尼克号乘客的生存情况。这是图 23.5 的改进版本。每个方面的灰色背景清楚地描绘了构成该情节的六个分组(在第一,第二或第三类中幸存或死亡)。背景中的细水平线提供了条形高度的参考和方面之间条形高度的设施比较。
图 23.6:按性别和阶级划分的泰坦尼克号乘客的生存情况。这是图 23.5 的改进版本。每个方面的灰色背景清楚地描绘了构成该绘图的六个分组(在第一,第二或第三类中幸存或死亡)。背景中的细水平线提供了条形高度的参考和方面之间条形高度的设施比较。
## 23.2 背景网格
......@@ -54,7 +54,7 @@ R 软件 ggplot2 在灰色背景上使用相当突出的白线背景网格推广
图 23.7:四家主要科技公司的股价随时间变化。 2012 年 6 月,每家公司的股票价格已经标准化为 100。这个数字模仿了 ggplot2 的默认外观,灰色背景上有白色主要和次要网格线。在这个特定的例子中,我认为网格线压倒了数据线,结果是一个不均衡的数字,并没有充分强调数据。数据来源:雅虎财经
赞成灰色背景的论据包括它(i)帮助将情节视为单个视觉实体,以及(ii)防止情节在周围的黑暗文本中显示为白色框(Wickham [2016](#ref-Wickham2016) )。我完全同意第一点,这就是我在图 23.6 中使用灰色背景的原因。对于第二点,我要提醒一下,文本的感知暗度将取决于字体大小,字体和行间距,并且图形的感知暗度将取决于所用墨水的绝对量和颜色,包括所有数据墨水。在密集的 10 点 Times New Roman 中排版的科学纸张看起来比在 14 点 Palatino 排版的咖啡桌书本上要深一些,行间距为 1.5。同样,黄色的五个点的散点图看起来要比黑色的 10,000 个点的散点图轻得多。如果要使用灰色图形背景,请考虑图形前景的颜色强度,以及图形周围文本的预期布局和排版,并相应地调整背景灰色的选择。否则,可能会发生这样的情况:您的数字最终会在周围较轻的文本中突出显示为暗盒。此外,请记住,用于绘制数据的颜色需要使用灰色背景。我们倾向于在不同背景下不同地感知颜色,并且灰色背景需要比白色背景更暗且更饱和的前景色。
赞成灰色背景的论据包括它(i)帮助将绘图视为单个视觉实体,以及(ii)防止绘图在周围的黑暗文本中显示为白色框(Wickham [2016](#ref-Wickham2016) )。我完全同意第一点,这就是我在图 23.6 中使用灰色背景的原因。对于第二点,我要提醒一下,文本的感知暗度将取决于字体大小,字体和行间距,并且图形的感知暗度将取决于所用墨水的绝对量和颜色,包括所有数据墨水。在密集的 10 点 Times New Roman 中排版的科学纸张看起来比在 14 点 Palatino 排版的咖啡桌书本上要深一些,行间距为 1.5。同样,黄色的五个点的散点图看起来要比黑色的 10,000 个点的散点图轻得多。如果要使用灰色图形背景,请考虑图形前景的颜色强度,以及图形周围文本的预期布局和排版,并相应地调整背景灰色的选择。否则,可能会发生这样的情况:您的数字最终会在周围较轻的文本中突出显示为暗盒。此外,请记住,用于绘制数据的颜色需要使用灰色背景。我们倾向于在不同背景下不同地感知颜色,并且灰色背景需要比白色背景更暗且更饱和的前景色。
我们可以在相反的方向上一直移动并移除背景和网格线(图 23.8 )。在这种情况下,我们需要可见的轴线来绘制图表并将其保持为单个可视单元。对于这个特殊的数字,我认为这个选择是一个更糟糕的选择,我把它标记为“糟糕”。在没有任何背景网格的情况下,曲线似乎在空间中浮动,并且很难将右侧的最终值引用到左侧的轴标记。
......
......@@ -16,7 +16,7 @@
图 25.2:图 25.1 的相同直方图,现在用实心条绘制。在该图的变形中,年龄分布的形状更容易辨别。
接下来,我们来看看老派的密度情节。我正在显示三种虹膜的萼片长度分布的密度估计值,完全用黑白绘制为线条图(图 25.3 )。分布仅通过它们的轮廓显示,并且因为图形是黑白的,我们使用不同的线条样式来区分它们。这个数字有两个主要问题。首先,虚线样式不能在曲线下方的区域与其上方的区域之间提供清晰的分离。虽然我们的视觉系统非常擅长将各个线条元素连接成一条连续的线条,但虚线看起来仍然是多孔的,并不能作为封闭区域的强大边界。其次,因为线相交并且它们所包围的区域没有阴影,所以难以从六个不同的形状轮廓中分割出不同的密度。如果我对所有三个分布使用实线而不是虚线,这种效果会更强。
接下来,我们来看看老派的密度绘图。我正在显示三种虹膜的萼片长度分布的密度估计值,完全用黑白绘制为线条图(图 25.3 )。分布仅通过它们的轮廓显示,并且因为图形是黑白的,我们使用不同的线条样式来区分它们。这个数字有两个主要问题。首先,虚线样式不能在曲线下方的区域与其上方的区域之间提供清晰的分离。虽然我们的视觉系统非常擅长将各个线条元素连接成一条连续的线条,但虚线看起来仍然是多孔的,并不能作为封闭区域的强大边界。其次,因为线相交并且它们所包围的区域没有阴影,所以难以从六个不同的形状轮廓中分割出不同的密度。如果我对所有三个分布使用实线而不是虚线,这种效果会更强。
![](img/134e5cf965824165228a2c3ccc72f065.jpg)
......
......@@ -2,11 +2,11 @@
> 原文: [https://serialmentor.com/dataviz/no-3d.html](https://serialmentor.com/dataviz/no-3d.html)
3D 情节非常受欢迎,特别是在商业演示中,也在学术界中。它们也几乎总是被不恰当地使用。我很少看到 3D 图形通过将其转换为常规 2D 图形而无法改进。在本章中,我将解释为什么 3D 图存在问题,为什么通常不需要它们,以及在有限的情况下 3D 图可能是合适的。
3D 绘图非常受欢迎,特别是在商业演示中,也在学术界中。它们也几乎总是被不恰当地使用。我很少看到 3D 图形通过将其转换为常规 2D 图形而无法改进。在本章中,我将解释为什么 3D 图存在问题,为什么通常不需要它们,以及在有限的情况下 3D 图可能是合适的。
## 26.1 避免无偿 3D
许多可视化软件使您可以通过将图形的图形元素转换为三维对象来修改图形。最常见的是,我们看到饼图变成了在空间中旋转的圆盘,条形图变成了列,线图变成了条带。值得注意的是,在这些情况中,第三维都没有传达任何实际数据。 3D 仅用于装饰和装饰情节。我认为 3D 的使用是无偿的。这是非常糟糕的,应该从数据科学家的视觉词汇中删除。
许多可视化软件使您可以通过将图形的图形元素转换为三维对象来修改图形。最常见的是,我们看到饼图变成了在空间中旋转的圆盘,条形图变成了列,线图变成了条带。值得注意的是,在这些情况中,第三维都没有传达任何实际数据。 3D 仅用于装饰和装饰绘图。我认为 3D 的使用是无偿的。这是非常糟糕的,应该从数据科学家的视觉词汇中删除。
无偿 3D 的问题在于将 3D 对象投影到二维以便在监视器上打印或显示会使数据失真。当人类视觉系统将 3D 图像的 2D 投影映射回 3D 空间时,人类视觉系统试图校正这种失真。但是,这种修正只能是局部的。举个例子,让我们看一个带有两个切片的简单饼图,一个代表 25%的数据,一个代表 75%,并在空间中旋转这个饼图(图 26.1 )。当我们改变我们看馅饼的角度时,切片的大小似乎也会改变。特别是,当我们从平面角度观察馅饼时,位于馅饼前面的 25%切片看起来比 25%大得多(图 26.1 a)。
......@@ -18,11 +18,11 @@
![](img/70dc9d4f366bfb9c4ef02c5e0bdcbdf7.jpg)
图 26.2:泰坦尼克号上一,二,三级旅行的女乘客人数,显示为三维叠加条形图。第 1 级,第 2 级和第 3 级的乘客总数分别为 322,279 和 711(见图 6.10 )。然而在这个情节中,一级条形似乎代表不到 300 名乘客,第三级条形似乎代表不到 700 名乘客,而二级条形似乎比实际的 279 名乘客更接近 210-220 名乘客。此外,第三级条形在视觉上占主导地位,并使第三类乘客的数量看起来比实际大。
图 26.2:泰坦尼克号上一,二,三级旅行的女乘客人数,显示为三维叠加条形图。第 1 级,第 2 级和第 3 级的乘客总数分别为 322,279 和 711(见图 6.10 )。然而在这个绘图中,一级条形似乎代表不到 300 名乘客,第三级条形似乎代表不到 700 名乘客,而二级条形似乎比实际的 279 名乘客更接近 210-220 名乘客。此外,第三级条形在视觉上占主导地位,并使第三类乘客的数量看起来比实际大。
## 26.2 避免 3D 位置刻度
虽然使用免费 3D 的可视化很容易被视为坏,但使用三个真正的位置刻度( *x**y**z* 对可视化的想法却不太清楚])表示数据。在这种情况下,第三维的使用用于实际目的。然而,由此产生的情节经常难以解释,在我看来应该避免。
虽然使用免费 3D 的可视化很容易被视为坏,但使用三个真正的位置刻度( *x**y**z* 对可视化的想法却不太清楚])表示数据。在这种情况下,第三维的使用用于实际目的。然而,由此产生的绘图经常难以解释,在我看来应该避免。
考虑一下 32 辆汽车的燃油效率与排量和功率的三维散点图。我们之前在章节 [2](aesthetic-mapping.html#aesthetic-mapping) ,图 2.5 中看到过这个数据集。在这里,我们绘制沿 *x* 轴的位移,沿 *y* 轴的动力,沿 *z* 轴的燃油效率,我们用点表示每辆车(图 26.3 )。尽管从四个不同的角度展示了这种 3D 可视化,但很难想象这些点在空间中的确切分布情况。我发现图 26.3 的部分(d)特别令人困惑。它几乎似乎显示了一个不同的数据集,即使除了我们看到点的角度之外没有任何变化。
......@@ -50,7 +50,7 @@
图 26.6:32 辆汽车的功率与排量,燃料效率由点尺寸表示。数据来源:_ 电机趋势,_ 1974。
您可能想知道 3D 散点图的问题是实际数据表示(点)本身不会传达任何 3D 信息。例如,如果我们使用 3D 条形码会发生什么?图 26.7 显示了一个典型的数据集,可以用 3D 条形图显示,1940 年弗吉尼亚州的死亡率按年龄组和性别和住房位置分层。我们可以看到 3D 条确实帮助我们解释情节。人们不太可能将前景中的条形图误认为背景中的条形图,反之亦然。然而,在图 26.2 的背景下讨论的问题也存在于此。很难准确判断单个条的高度,并且很难进行直接比较。例如,在 60-64 岁年龄组中,65-69 岁年龄组的城市女性死亡率是高于还是低于城市男性?
您可能想知道 3D 散点图的问题是实际数据表示(点)本身不会传达任何 3D 信息。例如,如果我们使用 3D 条形码会发生什么?图 26.7 显示了一个典型的数据集,可以用 3D 条形图显示,1940 年弗吉尼亚州的死亡率按年龄组和性别和住房位置分层。我们可以看到 3D 条确实帮助我们解释绘图。人们不太可能将前景中的条形图误认为背景中的条形图,反之亦然。然而,在图 26.2 的背景下讨论的问题也存在于此。很难准确判断单个条的高度,并且很难进行直接比较。例如,在 60-64 岁年龄组中,65-69 岁年龄组的城市女性死亡率是高于还是低于城市男性?
![](img/da041abab6f17359662cd5f79f149541.jpg)
......
......@@ -8,11 +8,11 @@
## 29.1 什么是故事?
在我们讨论将可视化转化为故事的策略之前,我们需要了解故事究竟是什么。故事是一组观察,事实或事件,真实的或发明的,以特定的顺序呈现,以便它们在观众中产生情绪反应。情绪反应是通过故事开始时紧张的积累以及故事结束时的某种类型的解决方式产生的。我们将从张力到分辨率的流程也称为故事情节,每个好故事都有清晰,可识别的弧度。
在我们讨论将可视化转化为故事的策略之前,我们需要了解故事究竟是什么。故事是一组观察,事实或事件,真实的或发明的,以特定的顺序呈现,以便它们在观众中产生情绪反应。情绪反应是通过故事开始时紧张的积累以及故事结束时的某种类型的解决方式产生的。我们将从张力到分辨率的流程也称为故事绘图,每个好故事都有清晰,可识别的弧度。
经验丰富的作家知道,讲故事的标准模式与人类的思考方式产生共鸣。例如,我们可以使用 Opening-Challenge-Action-Resolution 格式来讲述故事。事实上,这是我在前一小节中用于霍金故事的格式。我通过介绍物理学家斯蒂芬霍金的话题开启了这个故事。接下来,我提出了挑战,21 岁时运动神经元疾病的诊断。然后是行动,他对科学的激烈奉献。最后,我提出了决议,霍金过着漫长而成功的生活,最终成为他那个时代最有影响力的物理学家之一。其他故事格式也是常用的。报纸文章经常遵循 Lead-Development-Resolution 格式,或者甚至更短的,只是 Lead-Development,其中领导者预先给出了主要观点,随后的材料提供了更多细节。如果我们想以这种形式讲述霍金的故事,我们可能会开始用一句话来说,“有影响力的物理学家斯蒂芬霍金,他彻底改变了我们对黑洞和宇宙学的理解,使他的医生的预后超过了 53 年,并做了所有在他严重残疾的情况下,他最有影响力的工作。“这是领先。在发展过程中,我们可以对霍金的生活,疾病和对科学的热爱进行更深入的描述。另一种形式是行动 - 背景 - 发展 - 高潮 - 结束,它比开放 - 挑战 - 行动 - 决议更快地发展故事,但不像铅 - 发展那么快。在这种格式中,我们可能打开一句话,如“年轻的斯蒂芬霍金,面临衰弱的残疾和早逝的前景,决定将他所有的努力投入到他的科学中,决心在他仍然可以的时候留下他的印记。 “这种格式的目的是吸引观众并尽早建立情感联系,但不会立即泄露最终解决方案。
我在本章的目标不是更详细地描述这些标准的故事讲述形式。这些材料有很好的资源。对于科学家和分析师,我特别推荐 Schimel( [2011](#ref-Schimel2011) )。相反,我想讨论如何将数据可视化引入故事弧。最重要的是,我们需要意识到单个(静态)可视化很少会讲述整个故事。可视化可以说明开场,挑战,动作或解决方案,但不太可能同时传达故事的所有这些部分。要讲一个完整的故事,我们通常需要多个可视化。例如,在进行演示时,我们可能首先展示一些背景或动机材料,然后是创建挑战的图形,最后是提供分辨率的其他图形。同样,在一篇研究论文中,我们可能会呈现一系列共同创造令人信服的故事情节的人物。然而,也可以将整个故事弧压缩成单个图形。这样的数字必须同时包含挑战和解决方案,并且它与以导演开头的故事弧相当。
我在本章的目标不是更详细地描述这些标准的故事讲述形式。这些材料有很好的资源。对于科学家和分析师,我特别推荐 Schimel( [2011](#ref-Schimel2011) )。相反,我想讨论如何将数据可视化引入故事弧。最重要的是,我们需要意识到单个(静态)可视化很少会讲述整个故事。可视化可以说明开场,挑战,动作或解决方案,但不太可能同时传达故事的所有这些部分。要讲一个完整的故事,我们通常需要多个可视化。例如,在进行演示时,我们可能首先展示一些背景或动机材料,然后是创建挑战的图形,最后是提供分辨率的其他图形。同样,在一篇研究论文中,我们可能会呈现一系列共同创造令人信服的故事绘图的人物。然而,也可以将整个故事弧压缩成单个图形。这样的数字必须同时包含挑战和解决方案,并且它与以导演开头的故事弧相当。
为了提供一个将数字融入故事的具体例子,我现在将根据两个数字讲述一个故事。第一个是挑战,第二个是分辨率。我的故事背景是生物科学中预印本的增长(另见章节 [13](time-series.html#time-series) )。预印本是草稿形式的手稿,科学家在正式同行评审和官方出版之前与他们的同事分享。只要科学手稿存在,科学家就一直在分享手稿草稿。然而,在 20 世纪 90 年代早期,随着互联网的出现,物理学家意识到在中央存储库中存储和分发稿件草稿要高效得多。他们发明了预印本服务器,这是一个网络服务器,科学家可以上传,下载和搜索稿件草稿。
......@@ -62,7 +62,7 @@
但是,有时我们确实想要显示包含大量信息的更复杂的数字。在这些情况下,如果我们首先向他们展示图的简化版本,我们可以让读者更轻松,然后再展示完全复杂的最终版本。同样强烈建议使用相同的方法进行演示。永远不要直接跳到高度复杂的身影;首先展示一个容易消化的子集。
如果最终数字是一个小的多重图(章节 [21](multi-panel-figures.html#multi-panel-figures) ),这个建议特别相关,显示了具有相似结构的子图的网格。如果观众自己第一次看到单个子情节,则整个网格更容易消化。例如,图 29.6 显示 2013 年美国联合航空公司离开纽瓦克机场(EWR)的总数,按工作日细分。一旦我们看到并消化了这个数字,同时查看十个航空公司和三个机场的相同信息就更容易处理(图 29.7 )。
如果最终数字是一个小的多重图(章节 [21](multi-panel-figures.html#multi-panel-figures) ),这个建议特别相关,显示了具有相似结构的子图的网格。如果观众自己第一次看到单个子绘图,则整个网格更容易消化。例如,图 29.6 显示 2013 年美国联合航空公司离开纽瓦克机场(EWR)的总数,按工作日细分。一旦我们看到并消化了这个数字,同时查看十个航空公司和三个机场的相同信息就更容易处理(图 29.7 )。
![](img/f4b61dc7e4772bad27e5c272f83beb9b.jpg)
......@@ -114,7 +114,7 @@
图 29.12 强调了我在准备一组数字时所遵循的一般原则来讲述一个故事:我从一个尽可能接近显示原始数据的数字开始,在随后的数字中我表现得越来越多派生数量。派生量(例如百分比增加,平均值,拟合模型的系数等)可用于总结大型和复杂数据集中的关键趋势。但是,因为它们是派生的,所以它们不那么直观,如果我们在显示原始数据之前显示派生数量,我们的观众会发现很难遵循。另一方面,如果我们试图通过显示原始数据来显示所有趋势,我们最终将需要太多的数字和/或重复。
你应该用多少个数字来讲述你的故事?答案取决于出版地点。对于一篇简短的博文或推文,请做一个数字。对于科学论文,我建议三到六个数字。如果我有一份超过六个数字的科学论文,那么其中一些需要被移入附录或补充材料部分。记录我们收集的所有证据是很好的,但我们不能通过提供过多的大多数相似的数字来消磨我们的观众。在其他情况下,更多的数字可能是合适的。但是,在这些情况下,我们通常会讲述多个故事,或者是一个包含子图的总体故事。例如,如果我被要求进行一个小时的科学演示,我通常打算讲三个不同的故事。同样,一本书或论文将包含不止一个故事,实际上每章或每节可能包含一个故事。在这些情景中,每个不同的故事情节或子情节应该呈现不超过三到六个数字。在本书中,你会发现我在章节的各个层面都遵循这个原则。每个部分大致是独立的,通常不会超过六个数字。
你应该用多少个数字来讲述你的故事?答案取决于出版地点。对于一篇简短的博文或推文,请做一个数字。对于科学论文,我建议三到六个数字。如果我有一份超过六个数字的科学论文,那么其中一些需要被移入附录或补充材料部分。记录我们收集的所有证据是很好的,但我们不能通过提供过多的大多数相似的数字来消磨我们的观众。在其他情况下,更多的数字可能是合适的。但是,在这些情况下,我们通常会讲述多个故事,或者是一个包含子图的总体故事。例如,如果我被要求进行一个小时的科学演示,我通常打算讲三个不同的故事。同样,一本书或论文将包含不止一个故事,实际上每章或每节可能包含一个故事。在这些情景中,每个不同的故事绘图或子绘图应该呈现不超过三到六个数字。在本书中,你会发现我在章节的各个层面都遵循这个原则。每个部分大致是独立的,通常不会超过六个数字。
### 参考
......
......@@ -57,7 +57,7 @@
_ 这本书推广了小倍数的概念。_
* Edward R. Tufte。 _“定量信息的视觉显示,第 2 版。”_ 图形出版社,2001。
_ 本书于 1983 年首次出版,在数据可视化领域具有极大的影响力。它引入了图表垃圾,数据到墨水比率和迷你图等概念。这本书还展示了第一个斜率图(但没有命名)。然而,该书还包含许多经得起时间考验的建议。特别是,它建议过度简约的情节设计。_
_ 本书于 1983 年首次出版,在数据可视化领域具有极大的影响力。它引入了图表垃圾,数据到墨水比率和迷你图等概念。这本书还展示了第一个斜率图(但没有命名)。然而,该书还包含许多经得起时间考验的建议。特别是,它建议过度简约的绘图设计。_
## 30.5 关于广泛相关主题的书籍
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册