2020-12-10 21:15:13

b93e08f4 · wizardforcel · 1afcae71 · b93e08f4
隐藏空白更改
内联并排

Showing with 16 addition and 16 deletion

new/handson-unsup-learn-py/04.md new/handson-unsup-learn-py/04.md +16 -16

未找到文件。
--- a/new/handson-unsup-learn-py/04.md
+++ b/new/handson-unsup-learn-py/04.md
@@ -110,7 +110,7 @@

 ![](img/ba15026b-5a5e-445b-b800-b80c546f59e8.png)

-Example of single linkage. C[1] and C[2] are selected to be merged
+单链接的例子。 选择`C[1]`和`C[2]`来合并

 这种方法的主要缺点是可能同时具有很小的簇和很大的簇。 正如我们将在下一部分中看到的那样，单个链接可以使*离群值*保持隔离，直到存在非常高的相异度级别为止。 为了避免或减轻该问题，可以使用平均值和沃德方法。

@@ -122,7 +122,7 @@ Example of single linkage. C[1] and C[2] are selected to be merged

 ![](img/5630c46a-e57c-4099-bcf2-bc30a9ed942e.png)

-Example of complete linkage. C[1] and C[3] are selected for merging
+完全链接的示例。 选择`C[1]`和`C[3]`进行合并

 该算法选择 *`C[1]`* 和`C`**[3]** 为了增加内部凝聚力。 实际上，很容易理解，考虑所有可能的组合，完全链接会导致群集密度最大化。 在上图所示的示例中，如果所需的簇数为两个，则合并 *`C[1]`* 和 *`C[2]`* 或 *`C[2]`* 和 *`C[3]`* 会产生具有较小内聚力的最终构型，这通常是不希望的结果。

@@ -187,7 +187,7 @@ X, Y = make_blobs(n_samples=nb_samples, n_features=2, center_box=[-1, 1], center

 ![](img/9c8ab7a5-cafc-4e28-9f39-0407503eb6c3.png)

-Dataset employed for dendrogram analysis
+用于树状图分析的数据集

 为了生成树状图（使用 SciPy），我们首先需要创建一个链接矩阵。 在这种情况下，我们选择了具有 Ward 链接的欧几里德度量标准（但是，与往常一样，我建议您使用不同的配置执行分析）：

@@ -220,7 +220,7 @@ plt.show()

 ![](img/0881b636-fc88-46f7-a273-3812b775e55c.png)

-Dendrogram corresponding to Ward's linkage applied to the dataset
+应用于数据集的对应 Ward 链接的树状图

 如前面的屏幕快照中所述，`x`轴表示旨在最大程度降低交叉连接风险的样本，而`y`轴表示相异程度。 现在让我们从底部开始分析图。 初始状态对应于被视为独立聚类的所有样本（因此相异性为空）。 向上移动，我们开始观察第一次合并。 特别地，当相异度约为 0.35 时，样本 1 和 3 被合并。

@@ -230,7 +230,7 @@ Dendrogram corresponding to Ward's linkage applied to the dataset

 ![](img/3f3dda45-7893-433b-b406-faab6e39afaf.png)

-Clusters generated by cutting the dendrogram at different levels (Ward's linkage)
+通过在不同级别切割树状图而生成的簇（沃德链接）

 易于理解，聚集从选择最相似的簇/样本开始，然后通过添加*最近邻*进行，直到到达树的根为止。 在我们的情况下，在相异度等于 2.0 的情况下，已检测到三个定义明确的簇。 左一个也保留在下一个剪切中，而右两个（显然更靠近）被选择合并以生成单个簇。 该过程本身很简单，不需要特别的解释。 但是，有两个重要的考虑因素。

@@ -242,13 +242,13 @@ Clusters generated by cutting the dendrogram at different levels (Ward's linkage

 ![](img/259e95d8-59c2-40dc-bb7b-4188f5ffd702.png)

-Dendrogram corresponding to single linkage applied to the dataset
+与应用于数据集的单个链接相对应的树状图

 结论是，树状图是不对称的，并且簇通常与单个样本或小的附聚物合并。 从右侧开始，我们可以看到样本{ 11 }和{ 6 }合并得很晚。 此外，当必须生成最终的单个簇时，样本{ 6 }（可能是异常值）被合并。 通过以下屏幕快照可以更好地理解该过程：

 ![](img/fcddb815-9420-4fc1-b74e-59dff373faf9.png)

-Clusters generated by cutting the dendrogram at different levels (single linkage)
+通过在不同级别切割树状图而生成的簇（单链接）

 从屏幕快照中可以看到，虽然 Ward 的方法生成包含所有样本的两个聚类，但单个链接通过将潜在异常值保持在外部来聚集级别 1.0 上的最大块。 因此，树状图还允许定义聚合语义，这在心理学和社会学方面非常有用。 尽管 Ward 的链接与其他对称算法非常相似，但单个链接具有逐步显示的方式，显示了对逐步构建的聚类的潜在偏好，从而避免了相异性方面的巨大差距。

@@ -365,7 +365,7 @@ dff = pd.concat([df, df_tsne], axis=1)

 ![](img/68392175-8413-4141-b51b-1f1808f7a85e.png)

-t-SNE plot of the Water Treatment Plant dataset
+水处理厂数据集的 t-SNE 图

 该图显示了潜在的非凸几何形状，其中有许多小的*小岛*（密集区域），这些小岛由空白空间隔开。 但是，如果没有任何域信息，则很难确定哪些斑点可以被视为同一群集的一部分。 我们可以决定施加的唯一*伪约束*（考虑到所有植物都以相似的方式运行）是具有中等或较小的最终簇数。 因此，假设欧氏距离并使用 scikit-learn `AgglomerativeClustering` 类，类，我们可以计算所有链接以及`4`，`6`，`8`和 `10`集群数：

@@ -401,7 +401,7 @@ for i, l in enumerate(linkages):

 ![](img/22e87346-d2f3-4423-b75b-c700146d7550.png)

-Cophenetic correlation (left) and silhouette score (right) for a different number of clusters and four linkage methods
+不同数量的群集和四种链接方法的同位相关（左）和轮廓分数（右）

 首先要考虑的一点是，对于完全和平均链接而言，同义相关可以合理地接受，而对于单个链接而言，它太低了。 考虑到轮廓分数，通过单联动和四个簇可实现最大值（约 0.6）。 该结果表明，即使分层算法产生了次优的配置，也可以用中等或高水平的内部凝聚力分离四个区域。

@@ -413,7 +413,7 @@ Cophenetic correlation (left) and silhouette score (right) for a different numbe

 ![](img/ce8a15a9-6a97-430f-a742-ed2add760a19.png)

-Dendrogram of the Water Treatment Plant dataset with the Euclidean metric and complete linkage
+具有欧几里德度量标准和完全链接的水处理厂数据集的树状图

 如我们所见，集聚过程不是均匀的。 在过程开始时，相异度的增加非常缓慢，但是在对应于大约 10,000 的值之后，跃变变大。 查看 t-SNE 图，可以理解非凸性的影响对非常大的聚类具有更强的影响，因为密度降低并且隐含地差异增大。 显而易见，很少数量的簇（例如 1、2 或 3）的特征是内部差异非常大，凝聚力非常低。

@@ -439,7 +439,7 @@ pdff = pd.concat([dff, df_pred], axis=1)

 ![](img/98f4f451-1bb3-45a7-b415-72132df4ab00.png)

-Clustering result of the Water Treatment Plant dataset (eight clusters)
+水处理厂数据集的聚类结果（八个群集）

 不出所料，群集是不均匀的，但是它们与几何形状非常一致。 此外，孤立的簇（例如，在 *x∈（-40，-20）*和 *y > 60* 的区域中）非常小，很可能包含真实的 异常值，其行为与大多数其他样本有很大不同。 我们将不分析语义，因为问题非常具体。 但是，可以合理地认为 *x∈（-40，40）*和 *y∈（-40，-10）* -凸，代表合适的基线。 相反，其他大块（在该簇的极端）对应于具有特定特性或行为的植物，这些植物具有足够的扩散性，可以视为标准的替代实践。 当然，如开始时所述，这是不可知的分析，应该有助于理解如何使用分层聚类。

@@ -447,7 +447,7 @@ Clustering result of the Water Treatment Plant dataset (eight clusters)

 ![](img/a886363f-4119-45eb-b45c-a28bfbf0e0a7.png)

-Clustering result of the Water Treatment Plant dataset (two clusters)
+水处理厂数据集的聚类结果（两个群集）

 在此级别上，树状图显示出属于簇和剩余较小块的样本数量很大。 现在我们知道，这样的次级区域对应于 *x∈（-40，10）*和 *y > 20* 。 同样，结果并不令人惊讶，因为 t-SNE 图表明，这些样本是唯一具有 *y > 20÷25* 的样本（而较大的簇，即使有很大的空白区域，也覆盖了 几乎所有范围）。

@@ -482,7 +482,7 @@ X, Y = make_blobs(n_samples=nb_samples, n_features=2, center_box=[-1, 1], center

 ![](img/2babcaa4-c3d5-4faf-8e30-a7371de35be1.png)

-Dataset for connectivity constraints example
+连接约束的数据集示例

 从图中可以看出，样本 18 和 31 （ *x [0] ∈（-2，-1）*和 *x [1] ∈`(1, 2)`*）非常接近； 但是，我们不希望将它们合并，因为样本 18 在较大的中央斑点中有更多邻居，而点 31 被部分隔离，应视为一个自治簇。 我们还希望样本 33 形成单个簇。 这些要求将迫使算法合并不再考虑基础几何（根据高斯分布）的聚类，而是考虑现有知识。

@@ -507,7 +507,7 @@ ax.set_ylabel('Samples', fontsize=18)

 ![](img/603d9203-3dd1-4123-b027-ffdd7a1f4cc9.png)

-Dendrogram for the connectivity constraints example with the Euclidean distance and average linkage
+具有欧氏距离和平均链接的连接约束示例的树状图

 不出所料，样本 18 和 31 立即合并，然后与另一个包含 2 个样本的簇聚合（当括号中的数字表示这是一个包含更多样本的复合块） ，可能是 44 和 13 。 样本 33 也已合并，因此不会保留在孤立的群集中。 作为确认，让我们使用`n_clusters=8`进行聚类：

@@ -522,7 +522,7 @@ Y_pred = ag.fit_predict(X)

 ![](img/77db8173-7f8c-460b-b7f5-b24274dff263.png)

-Dataset clustered using the Euclidean distance and average linkage
+使用欧几里得距离和平均链接来聚类的数据集

 结果证实了先前的分析。 在没有限制的情况下，平均链接会产生合理的分区，该分区与基本事实（八高斯分布）兼容。 为了拆分大的中心斑点并保持所需的聚类数量，即使树状图确认它们最终以最高相异度级别合并，该算法也必须合并孤立的样本。

@@ -544,7 +544,7 @@ Y_pred = ag.fit_predict(X)

 ![](img/a8e4c902-45bd-4510-b43b-c879a8625acb.png)

-Dataset clustered using the Euclidean distance and average linkage using connectivity constraints
+使用欧式距离和连接约束来聚类的数据集

 正如预期的那样，样本 18 已分配给大型中央群集，而点 31 和 33 现在已被隔离。 当然，由于该过程是分层的，因此施加连接约束比分离约束更容易。 实际上，虽然可以在初始阶段轻松合并单个样本，但是使用所有链接都无法轻松保证在最终合并之前将其排除。