提交 ed7702f1 编写于 作者: W wizardforcel

2020-04-26 11:29:37

上级 5db33566
......@@ -84,11 +84,11 @@
图 12.9:取证玻璃数据集的主成分分析(PCA)中前两个成分的组成。主成分 1(PC 1)主要测量玻璃碎片中铝,钡,钠和镁含量,而主成分 2(PC 2)主要测量钙和钾含量,并在一定程度上测量铝和镁的含量。
接下来,我们将原始数据投影到主成分空间(图 12.10 )。我们在该图中看到了不同类型的玻璃碎片的清晰聚类。来自前照灯和车窗的碎片落入 PC 图中清晰描绘的几个区域,几乎没有离群点。来自餐具和容器的碎片更加分散,但与前照灯和窗户碎片明显不同。通过比较图 12.10 和图 12.9 ,我们可以得出结论,窗户样本的镁含量高于平均值,钡,铝和钠含量低于平均值,而前照灯样相反。
接下来,我们将原始数据投影到主成分空间(图 12.10 )。我们在该图中看到了不同类型的玻璃碎片的清晰聚类。来自前照灯和车窗的碎片落入 PC 图中清晰描绘的几个区域,几乎没有离群点。来自餐具和容器的碎片更加分散,但与前照灯和窗户碎片明显不同。通过比较图 12.10 和图 12.9 ,我们可以得出结论,窗户样本的镁含量高于平均值,钡,铝和钠含量低于平均值,而前照灯样相反。
![](img/306259d1091a5d5d29c7a4ecdaf0c710.jpg)
图 12.10:单个玻璃碎片的组成,在 12.9 中定义的主成分空间中可视化。我们看到不同类型的玻璃样聚集在不同 PC1 和 2 的特征值上。特别是,前照灯的特征是负 PC1 值,而窗户倾向于具有正 PC1 值。餐具和容器的 PC1 值接近零,并且往往具有正 PC2 值。但是,有一些例外情况,容器碎片同时具有负 PC1 值和负 PC2 值。这些碎片的组成与所分析的所有其他碎片完全不同。
图 12.10:单个玻璃碎片的组成,在 12.9 中定义的主成分空间中可视化。我们看到不同类型的玻璃样聚集在不同 PC1 和 2 的特征值上。特别是,前照灯的特征是负 PC1 值,而窗户倾向于具有正 PC1 值。餐具和容器的 PC1 值接近零,并且往往具有正 PC2 值。但是,有一些例外情况,容器碎片同时具有负 PC1 值和负 PC2 值。这些碎片的组成与所分析的所有其他碎片完全不同。
## 12.4 配对数据
......
......@@ -50,7 +50,7 @@
## 19.3 不为色觉缺陷而设计
每当我们为可视化选择颜色时,我们需要记住,很大一部分读者可能会有某种形式的色觉缺陷(即色)。这些读者可能无法区分大多数其他人看起来明显不同的颜色。然而,色觉受损的人并非无法看到任何颜色。相反,他们通常难以区分某些类型的颜色,例如红色和绿色(红绿色视觉缺陷)或蓝色和绿色(蓝黄色视觉缺陷)。这些缺陷的技术术语是红绿色变体的绿色弱视(deuteranomaly/deuteranopia)和红色弱视(protanomaly/protanopia)(人们难以分别感知绿色或红色)和蓝黄色变体的蓝色弱视(tritanomaly/tritanopia)(人们难以察觉蓝色) )。以“anomaly”(异常)结尾的术语是指对相应颜色的感知的一些损害,并且以“anopia”(弱视)结尾的术语是指完全没有对该颜色的感知。大约 8% 的男性和 0.5% 的女性患有某种色觉缺陷,而绿色弱视是最常见的形式,而蓝色弱视是相对罕见的。
每当我们为可视化选择颜色时,我们需要记住,很大一部分读者可能会有某种形式的色觉缺陷(即色觉缺陷)。这些读者可能无法区分大多数其他人看起来明显不同的颜色。然而,色觉受损的人并非无法看到任何颜色。相反,他们通常难以区分某些类型的颜色,例如红色和绿色(红绿色视觉缺陷)或蓝色和绿色(蓝黄色视觉缺陷)。这些缺陷的技术术语是红绿色变体的绿色弱视(deuteranomaly/deuteranopia)和红色弱视(protanomaly/protanopia)(人们难以分别感知绿色或红色)和蓝黄色变体的蓝色弱视(tritanomaly/tritanopia)(人们难以察觉蓝色) )。以“anomaly”(异常)结尾的术语是指对相应颜色的感知的一些损害,并且以“anopia”(弱视)结尾的术语是指完全没有对该颜色的感知。大约 8% 的男性和 0.5% 的女性患有某种色觉缺陷,而绿色弱视是最常见的形式,而蓝色弱视是相对罕见的。
正如第四章所讨论的,数据可视化中使用了三种基本类型的颜色刻度:连续刻度,发散刻度和定性刻度。在这三个中,顺序刻度通常不会对具有色觉缺陷(CVD)的人造成任何问题,因为正确设计的连续刻度应呈现从暗色到浅色的连续渐变。图 19.6 显示了图 4.3 在 deuteranomaly,protanomaly 和 tritanomaly 的模拟版本中的热力刻度。虽然这些 CVD 模拟刻度看起来都不像原始刻度,但它们都呈现出从暗到亮的清晰渐变,它们都可以很好地传达数据值的大小。
......
......@@ -2,49 +2,49 @@
> 原文: [https://serialmentor.com/dataviz/redundant-coding.html](https://serialmentor.com/dataviz/redundant-coding.html)
在第 [19](color-pitfalls.html#color-pitfalls) 章节中,我们已经看到颜色不能总是像我们希望的那样有效地传达信息。如果我们想要识别许多不同的项目,那么按颜色这样做可能不起作用。将绘图中的颜色与图例中的颜色相匹配将很困难(图 19.1 )。即使我们只需要区分两到三个不同的项目,如果彩色项目非常小(图 19.11 )颜色可能会失败和/或颜色视觉缺陷的人的颜色看起来相似(数字 19.7 和 19.8 )。所有这些场景中的一般解决方案是使用颜色来增强图形的视觉外观,而不依赖于颜色来传达关键信息。我将这个设计原理称为 _ 冗余编码 _,因为它提示我们使用多个不同的美学维度对数据进行冗余编码。
在第 19 章中,我们已经看到颜色不能总是像我们希望的那样有效地传达信息。如果我们想要识别许多不同的项目,那么通过颜色这样做可能不起作用。将绘图中的颜色与图例中的颜色相匹配将很困难(图 19.1 )。即使我们只需要区分两到三个不同的项目,如果彩色项目非常小(图 19.11 )颜色可能会失效,并且/或者对于颜色视觉缺陷的人,颜色看起来相似(图 19.7 和 19.8 )。所有这些场景中的一般解决方案是使用颜色来增强图形的视觉外观,而不依赖于颜色来传达关键信息。我将这个设计原理称为冗余编码,因为它提示我们,使用多个不同的美学维度对数据进行冗余编码。
## 20.1 设计带有冗余编码的图例
经常设计几组数据的散点图,使得代表不同组的点仅在颜色上不同。例如,考虑图 20.1 ,它显示了三种不同 _ 鸢尾花 _ 物种的萼片宽度与萼片长度的关系。 (萼片是开花植物中花的外叶。)代表不同物种的点的颜色不同,但是否则所有点看起来完全相同。尽管这个图只包含三组不同的点,但即使对于具有正常色觉的人来说也难以阅读。出现这个问题的原因是两种 _Iris virginica_ 和 _Iris versicolor_ 的数据点混合在一起,它们的两种颜色,绿色和蓝色,并没有特别明显。
多组数据的散点图经常以这种方式设计,代表不同组的点仅在颜色上不同。例如,考虑图 20.1 ,它显示了三种不同的鸢尾花物种的萼片宽度与萼片长度的关系。 (萼片是开花植物中花的外叶。)代表不同物种的点的颜色不同,但除此之外所有点看起来完全相同。尽管这个图只包含三组不同的点,但即使对于具有正常色觉的人来说也难以阅读。出现这个问题的原因是两种 Iris virginica 和 Iris versicolor 的数据点混合在一起,它们的两种颜色,绿色和蓝色,对于彼此并没有特别明显。
![](img/71de51cfd932d0a8d7a54d501a2e1240.jpg)
图 20.1:三种不同鸢尾花物种( _Iris setosa_ , _Iris virginica_ 和 _Iris versicolor_ )的萼片宽度与萼片长度的关系。每个点代表一种植物样品的测量值。对所有点位置施加了少量抖动以防止过度绘图。该图被标记为“坏”,因为 _virginica_ 指向绿色并且 _versicolor_ 点蓝色难以彼此区分。
图 20.1:三个不同鸢尾花物种(Iris setosa,Iris virginica 和 Iris versicolor)的萼片宽度与萼片长度的关系。每个点代表一个植物样本的测量值。对所有点位置施加了少量抖动以防止过度绘图。该图被标记为“不好”,因为绿色的 virginica 和蓝色的 versicolor 点难以彼此区分。
令人惊讶的是,对于具有红绿色视觉缺陷(deuteranomaly 或 protanomaly)的人而言,绿色和蓝色点看起来比具有正常色觉的人更明显(比较图 20.2 ,顶行,图 20.1 )。另一方面,对于蓝黄色缺乏(tritanomaly)的人来说,蓝色和绿色点看起来非常相似(图 20.2 ,左下)。如果我们打印出灰度图(即我们 _ 去饱和 _ 图),我们就无法区分任何鸢尾花种类(图 20.2 ,右下图)。
令人惊讶的是,对于具有红绿色视觉缺陷(deuteranomaly 或 protanomaly)的人而言,绿色和蓝色点看起来比具有正常色觉的人更明显(比较图 20.2 的顶行,和图 20.1 )。另一方面,对于蓝黄色缺陷(tritanomaly)的人来说,蓝色和绿色点看起来非常相似(图 20.2 ,左下)。如果我们打印出灰度图(即我们对图去饱和),我们就无法区分任何鸢尾花种类(图 20.2 ,右下图)。
![](img/430fd625964cb0e46e0832fa7b5bf992.jpg)
图 20.2:图 20.1 的色觉 - 缺陷模拟。
图 20.2:图 20.1 的色觉缺陷模拟。
我们可以对图 20.1 进行两项简单的改进,以缓解这些问题。首先,我们可以交换用于 _Iris setosa_ 和 _Iris versicolor_ 的颜色,这样蓝色不再直接在绿色旁边(图 20.3 )。其次,我们可以使用三种不同的符号形状,因此这些点看起来都不同。通过这两个变化,图形的原始版本(图 20.3 )和颜色视觉缺陷和灰度(图 20.4 )下的版本变得清晰。
我们可以对图 20.1 进行两项简单的改进,来缓解这些问题。首先,我们可以交换用于 Iris setosa 和 Iris versicolor 的颜色,这样蓝色不再直接在绿色旁边(图 20.3 )。其次,我们可以使用三种不同的符号形状,因此这些点看起来都不同。通过这两个变化,图形的原始版本(图 20.3 )和颜色视觉缺陷和灰度(图 20.4 )的版本变得清晰。
![](img/528ecc80bd2062e70d3be896630da801.jpg)
图 20.3:三种不同鸢尾花种类的萼片宽度与萼片长度的关系。与图 20.1 相比,我们交换了 _Iris setosa_ 和 _Iris versicolor_ 的颜色,我们给每个鸢尾花物种提供了自己的点形状。
图 20.3:三个不同鸢尾花物种的萼片宽度与萼片长度的关系。与图 20.1 相比,我们交换了 Iris setosa 和 Iris versicolor 的颜色,我们给每个鸢尾花物种提供了自己的点形状。
![](img/fc90c9311df98c0533b1add556e078e0.jpg)
图 20.4:图 20.3 的色觉 - 缺陷模拟。由于使用了不同的点形状,即使是完全去饱和的灰度版图也很清晰。
图 20.4:图 20.3 的色觉缺陷模拟。由于使用了不同的点形状,即使是完全去饱和的灰度版本也很清晰。
更改点形状是散点图的简单策略,但它不一定适用于其他类型的图。在线图中,我们可以更改线型(实线,虚线,点线等,另请参见图 2.1 ),但使用虚线或虚线通常会产生次优结果。特别是,虚线或虚线通常看起来不太好,除非它们完全笔直或仅轻微弯曲,并且在任何一种情况下它们都会产生视觉噪音。此外,它经常需要大量的精力来匹配从绘图到图例的不同类型的破折号或点划线图案。那么我们如何处理可视化,如图 20.5 ,它使用线条来显示四个不同主要科技公司的股价随时间的变化?
更改点的形状是散点图的简单策略,但它不一定适用于其他类型的图。在折线图中,我们可以更改线型(实线,虚线,点虚线等,另请参见图 2.1 ),但使用虚线或点虚线通常会产生次优结果。特别是,虚线或点虚线通常看起来不太好,除非它们完全笔直或仅轻微弯曲,并且在任何一种情况下它们都会产生视觉噪音。此外,从绘图到图例匹配不同类型的虚线或点划线图案,经常需要大量的精力。那么我们如何处理可视化,如图 20.5 ,它使用线条来显示四个不同主要科技公司的股价随时间的变化?
![](img/4bb1f3fd1084c397035127fff222f3fa.jpg)
图 20.5:四家主要科技公司的股价随时间变化。 2012 年 6 月,每家公司的股票价格已经标准化为 100。这个数字被标记为“坏”,因为它需要相当大的精神能量才能将图例中的公司名称与数据曲线相匹配。数据来源:雅虎财经
图 20.5:四家主要科技公司的股价随时间变化。 2012 年 6 月,每家公司的股票价格已经标准化为 100。这个数字被标记为“不好”,因为需要相当大的精力,才能将图例中的公司名称与数据曲线相匹配。数据来源:雅虎财经
该图包含四行代表四家不同公司的股票价格。这些线条采用色盲友好的颜色刻度进行颜色编码。因此,将每条线与相应的公司相关联应该是相对直接的。但事实并非如此。这里的问题是数据线具有清晰的视觉顺序。代表 Facebook 的黄线显然是最高的线,代表 Apple 的黑线显然是最低的,其中 Alphabet 和 Microsoft 介于此之间。然而,传奇中四家公司的订单是 Alphabet,Apple,Facebook,Microsoft(字母顺序)。因此,数据线的感知顺序不同于图例中公司的顺序,并且将数据线与公司名称匹配需要花费大量精力。
该图包含四条线,代表四家不同公司的股票价格。这些线条采用色觉缺陷友好的颜色刻度进行颜色编码。因此,将每条线与相应的公司相关联应该是相对直接的。但事实并非如此。这里的问题是数据线具有清晰的视觉顺序。代表 Facebook 的黄线显然是最高的线,代表 Apple 的黑线显然是最低的,其中 Alphabet 和 Microsoft 介于此之间。然而,图例中四家公司的顺序是 Alphabet,Apple,Facebook,Microsoft(字母顺序)。因此,数据线的感知顺序不同于图例中的公司顺序,并且将数据线与公司名称匹配需要花费大量精力。
这个问题通常出现在绘制自动生成图例的软件上。绘图软件没有观察者将感知的视觉顺序的概念。相反,该软件按其他顺序对图例进行排序,最常见的是按字母顺序排列。我们可以通过手动重新排序图例中的条目来解决这个问题,使它们与数据中的先前排序相匹配(图 20.6 )。结果是一个图表,使图例更容易与数据匹配。
这个问题通常出现在绘制自动生成图例的软件上。绘图软件没有观察者将感知的视觉顺序的概念。相反,该软件按其他顺序排序图例,最常见的是按字母顺序排列。我们可以通过手动重新排序图例中的条目来解决这个问题,使它们与数据中的先前排序相匹配(图 20.6 )。结果是一个图表,使图例更容易与数据匹配。
![](img/9940959651d4ef3565baa42af035b30f.jpg)
图 20.6:四家主要科技公司的股价随时间变化。 2012 年 6 月,每家公司的股票价格已经标准化为 100。数据来源:雅虎财经
图 20.6:四家主要科技公司的股价随时间变化。 2012 年 6 月,每家公司的股票价格已经标准化为 100。数据来源:雅虎财经
如果数据中有清晰的视觉序,请确保在图例中与其匹配。
如果数据中有清晰的视觉序,请确保在图例中与其匹配。
将图例顺序与数据顺序匹配总是有帮助的,但在色觉缺陷模拟下,这些好处尤为明显(图 20.7 )。例如,它有助于图的 tritanomaly 版本,其中蓝色和绿色变得难以区分(图 20.7 ,左下)。它也有助于灰度版本(图 20.7 ,右下角)。虽然 Facebook 和 Alphabet 的两种颜色几乎具有相同的灰度值,但我们可以看到微软和苹果以较暗的颜色代表并占据最底层的两个位置。因此,我们正确地假设最高行对应于 Facebook,而第二高行对应于 Alphabet。
将图例顺序与数据顺序匹配总是有帮助的,但在色觉缺陷模拟下,这些好处尤为明显(图 20.7 )。例如,它有助于图的蓝绿弱视版本,其中蓝色和绿色变得难以区分(图 20.7 ,左下)。它也有助于灰度版本(图 20.7 ,右下角)。虽然 Facebook 和 Alphabet 的两种颜色几乎具有相同的灰度值,但我们可以看到微软和苹果以较暗的颜色代表并占据最底层的两个位置。因此,我们正确地假设最高的线对应于 Facebook,而第二高的线对应于 Alphabet。
![](img/eba855504b27aa4991bab1f60077e0d1.jpg)
......
......@@ -40,7 +40,7 @@ Marcos,M。L.和 J. Echave。 “太过改变:蛋白质进化中的侧链包
Molyneaux,L.,S。K. Gilliam 和 L. C. Florant。 1947 年。“按颜色,性别,年龄,农村或城市居住的弗吉尼亚州死亡率的差异。” _American Sociological Review_ 12:525-35。
Okabe,M。和 K. Ito。 “彩色通用设计(CUD):如何制作对色人士友好的数字和演示。” [http://jfly.iam.u-tokyo.ac.jp/color/](http://jfly.iam.u-tokyo.ac.jp/color/)
Okabe,M。和 K. Ito。 “彩色通用设计(CUD):如何制作对色觉缺陷人士友好的数字和演示。” [http://jfly.iam.u-tokyo.ac.jp/color/](http://jfly.iam.u-tokyo.ac.jp/color/)
Paff,M.L.,B.R.Jack,B.L.Smith,J.J.Bull 和 C.O.Wilke。 2018.“病毒衰减的组合方法”。 _bioRxiv_ ,29918.doi: [10.1101 / 299180](https://doi.org/10.1101/299180)
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册