提交 b93e08f4 编写于 作者: W wizardforcel

2020-12-10 21:15:13

上级 1afcae71
......@@ -110,7 +110,7 @@
![](img/ba15026b-5a5e-445b-b800-b80c546f59e8.png)
Example of single linkage. C[1] and C[2] are selected to be merged
单链接的例子。 选择`C[1]``C[2]`来合并
这种方法的主要缺点是可能同时具有很小的簇和很大的簇。 正如我们将在下一部分中看到的那样,单个链接可以使*离群值*保持隔离,直到存在非常高的相异度级别为止。 为了避免或减轻该问题,可以使用平均值和沃德方法。
......@@ -122,7 +122,7 @@ Example of single linkage. C[1] and C[2] are selected to be merged
![](img/5630c46a-e57c-4099-bcf2-bc30a9ed942e.png)
Example of complete linkage. C[1] and C[3] are selected for merging
完全链接的示例。 选择`C[1]``C[3]`进行合并
该算法选择 *`C[1]`*`C`**[3]** 为了增加内部凝聚力。 实际上,很容易理解,考虑所有可能的组合,完全链接会导致群集密度最大化。 在上图所示的示例中,如果所需的簇数为两个,则合并 *`C[1]`**`C[2]`**`C[2]`**`C[3]`* 会产生具有较小内聚力的最终构型,这通常是不希望的结果。
......@@ -187,7 +187,7 @@ X, Y = make_blobs(n_samples=nb_samples, n_features=2, center_box=[-1, 1], center
![](img/9c8ab7a5-cafc-4e28-9f39-0407503eb6c3.png)
Dataset employed for dendrogram analysis
用于树状图分析的数据集
为了生成树状图(使用 SciPy),我们首先需要创建一个链接矩阵。 在这种情况下,我们选择了具有 Ward 链接的欧几里德度量标准(但是,与往常一样,我建议您使用不同的配置执行分析):
......@@ -220,7 +220,7 @@ plt.show()
![](img/0881b636-fc88-46f7-a273-3812b775e55c.png)
Dendrogram corresponding to Ward's linkage applied to the dataset
应用于数据集的对应 Ward 链接的树状图
如前面的屏幕快照中所述,`x`轴表示旨在最大程度降低交叉连接风险的样本,而`y`轴表示相异程度。 现在让我们从底部开始分析图。 初始状态对应于被视为独立聚类的所有样本(因此相异性为空)。 向上移动,我们开始观察第一次合并。 特别地,当相异度约为 0.35 时,样本 1 和 3 被合并。
......@@ -230,7 +230,7 @@ Dendrogram corresponding to Ward's linkage applied to the dataset
![](img/3f3dda45-7893-433b-b406-faab6e39afaf.png)
Clusters generated by cutting the dendrogram at different levels (Ward's linkage)
通过在不同级别切割树状图而生成的簇(沃德链接)
易于理解,聚集从选择最相似的簇/样本开始,然后通过添加*最近邻*进行,直到到达树的根为止。 在我们的情况下,在相异度等于 2.0 的情况下,已检测到三个定义明确的簇。 左一个也保留在下一个剪切中,而右两个(显然更靠近)被选择合并以生成单个簇。 该过程本身很简单,不需要特别的解释。 但是,有两个重要的考虑因素。
......@@ -242,13 +242,13 @@ Clusters generated by cutting the dendrogram at different levels (Ward's linkage
![](img/259e95d8-59c2-40dc-bb7b-4188f5ffd702.png)
Dendrogram corresponding to single linkage applied to the dataset
与应用于数据集的单个链接相对应的树状图
结论是,树状图是不对称的,并且簇通常与单个样本或小的附聚物合并。 从右侧开始,我们可以看到样本{ 11 }和{ 6 }合并得很晚。 此外,当必须生成最终的单个簇时,样本{ 6 }(可能是异常值)被合并。 通过以下屏幕快照可以更好地理解该过程:
![](img/fcddb815-9420-4fc1-b74e-59dff373faf9.png)
Clusters generated by cutting the dendrogram at different levels (single linkage)
通过在不同级别切割树状图而生成的簇(单链接)
从屏幕快照中可以看到,虽然 Ward 的方法生成包含所有样本的两个聚类,但单个链接通过将潜在异常值保持在外部来聚集级别 1.0 上的最大块。 因此,树状图还允许定义聚合语义,这在心理学和社会学方面非常有用。 尽管 Ward 的链接与其他对称算法非常相似,但单个链接具有逐步显示的方式,显示了对逐步构建的聚类的潜在偏好,从而避免了相异性方面的巨大差距。
......@@ -365,7 +365,7 @@ dff = pd.concat([df, df_tsne], axis=1)
![](img/68392175-8413-4141-b51b-1f1808f7a85e.png)
t-SNE plot of the Water Treatment Plant dataset
水处理厂数据集的 t-SNE 图
该图显示了潜在的非凸几何形状,其中有许多小的*小岛*(密集区域),这些小岛由空白空间隔开。 但是,如果没有任何域信息,则很难确定哪些斑点可以被视为同一群集的一部分。 我们可以决定施加的唯一*伪约束*(考虑到所有植物都以相似的方式运行)是具有中等或较小的最终簇数。 因此,假设欧氏距离并使用 scikit-learn `AgglomerativeClustering` 类,类,我们可以计算所有链接以及`4``6``8``10`集群数:
......@@ -401,7 +401,7 @@ for i, l in enumerate(linkages):
![](img/22e87346-d2f3-4423-b75b-c700146d7550.png)
Cophenetic correlation (left) and silhouette score (right) for a different number of clusters and four linkage methods
不同数量的群集和四种链接方法的同位相关(左)和轮廓分数(右)
首先要考虑的一点是,对于完全和平均链接而言,同义相关可以合理地接受,而对于单个链接而言,它太低了。 考虑到轮廓分数,通过单联动和四个簇可实现最大值(约 0.6)。 该结果表明,即使分层算法产生了次优的配置,也可以用中等或高水平的内部凝聚力分离四个区域。
......@@ -413,7 +413,7 @@ Cophenetic correlation (left) and silhouette score (right) for a different numbe
![](img/ce8a15a9-6a97-430f-a742-ed2add760a19.png)
Dendrogram of the Water Treatment Plant dataset with the Euclidean metric and complete linkage
具有欧几里德度量标准和完全链接的水处理厂数据集的树状图
如我们所见,集聚过程不是均匀的。 在过程开始时,相异度的增加非常缓慢,但是在对应于大约 10,000 的值之后,跃变变大。 查看 t-SNE 图,可以理解非凸性的影响对非常大的聚类具有更强的影响,因为密度降低并且隐含地差异增大。 显而易见,很少数量的簇(例如 1、2 或 3)的特征是内部差异非常大,凝聚力非常低。
......@@ -439,7 +439,7 @@ pdff = pd.concat([dff, df_pred], axis=1)
![](img/98f4f451-1bb3-45a7-b415-72132df4ab00.png)
Clustering result of the Water Treatment Plant dataset (eight clusters)
水处理厂数据集的聚类结果(八个群集)
不出所料,群集是不均匀的,但是它们与几何形状非常一致。 此外,孤立的簇(例如,在 *x∈(-40,-20)**y > 60* 的区域中)非常小,很可能包含真实的 异常值,其行为与大多数其他样本有很大不同。 我们将不分析语义,因为问题非常具体。 但是,可以合理地认为 *x∈(-40,40)**y∈(-40,-10)* -凸,代表合适的基线。 相反,其他大块(在该簇的极端)对应于具有特定特性或行为的植物,这些植物具有足够的扩散性,可以视为标准的替代实践。 当然,如开始时所述,这是不可知的分析,应该有助于理解如何使用分层聚类。
......@@ -447,7 +447,7 @@ Clustering result of the Water Treatment Plant dataset (eight clusters)
![](img/a886363f-4119-45eb-b45c-a28bfbf0e0a7.png)
Clustering result of the Water Treatment Plant dataset (two clusters)
水处理厂数据集的聚类结果(两个群集)
在此级别上,树状图显示出属于簇和剩余较小块的样本数量很大。 现在我们知道,这样的次级区域对应于 *x∈(-40,10)**y > 20* 。 同样,结果并不令人惊讶,因为 t-SNE 图表明,这些样本是唯一具有 *y > 20÷25* 的样本(而较大的簇,即使有很大的空白区域,也覆盖了 几乎所有范围)。
......@@ -482,7 +482,7 @@ X, Y = make_blobs(n_samples=nb_samples, n_features=2, center_box=[-1, 1], center
![](img/2babcaa4-c3d5-4faf-8e30-a7371de35be1.png)
Dataset for connectivity constraints example
连接约束的数据集示例
从图中可以看出,样本 18 和 31 ( *x [0] ∈(-2,-1)**x [1] ∈`(1, 2)`*)非常接近; 但是,我们不希望将它们合并,因为样本 18 在较大的中央斑点中有更多邻居,而点 31 被部分隔离,应视为一个自治簇。 我们还希望样本 33 形成单个簇。 这些要求将迫使算法合并不再考虑基础几何(根据高斯分布)的聚类,而是考虑现有知识。
......@@ -507,7 +507,7 @@ ax.set_ylabel('Samples', fontsize=18)
![](img/603d9203-3dd1-4123-b027-ffdd7a1f4cc9.png)
Dendrogram for the connectivity constraints example with the Euclidean distance and average linkage
具有欧氏距离和平均链接的连接约束示例的树状图
不出所料,样本 18 和 31 立即合并,然后与另一个包含 2 个样本的簇聚合(当括号中的数字表示这是一个包含更多样本的复合块) ,可能是 44 和 13 。 样本 33 也已合并,因此不会保留在孤立的群集中。 作为确认,让我们使用`n_clusters=8`进行聚类:
......@@ -522,7 +522,7 @@ Y_pred = ag.fit_predict(X)
![](img/77db8173-7f8c-460b-b7f5-b24274dff263.png)
Dataset clustered using the Euclidean distance and average linkage
使用欧几里得距离和平均链接来聚类的数据集
结果证实了先前的分析。 在没有限制的情况下,平均链接会产生合理的分区,该分区与基本事实(八高斯分布)兼容。 为了拆分大的中心斑点并保持所需的聚类数量,即使树状图确认它们最终以最高相异度级别合并,该算法也必须合并孤立的样本。
......@@ -544,7 +544,7 @@ Y_pred = ag.fit_predict(X)
![](img/a8e4c902-45bd-4510-b43b-c879a8625acb.png)
Dataset clustered using the Euclidean distance and average linkage using connectivity constraints
使用欧式距离和连接约束来聚类的数据集
正如预期的那样,样本 18 已分配给大型中央群集,而点 31 和 33 现在已被隔离。 当然,由于该过程是分层的,因此施加连接约束比分离约束更容易。 实际上,虽然可以在初始阶段轻松合并单个样本,但是使用所有链接都无法轻松保证在最终合并之前将其排除。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册