2020-12-08 21:47:16

543f4847 · wizardforcel · 6fbc0740 · 543f4847 · 543f4847 · 543f4847
10 changed file
--- a/new/handson-unsup-learn-py/01.md
+++ b/new/handson-unsup-learn-py/01.md
@@ -104,7 +104,7 @@ Descriptive, diagnostic, predictive, and prescriptive flow

 定义统计预测模型的常用术语是**估计器**。 因此，估计器的偏差是错误假设和学习过程的可测量结果。 换句话说，如果一个过程的平均值为 5.0，而我们的估计值为 3.0，则可以说该模型存在偏差。 考虑前面的示例，如果观察值和预测之间的误差的期望值不为`null`，则我们正在使用有偏估计器。 重要的是要理解，我们并不是说每个估计都必须具有零误差，而是在收集足够的样本并计算均值时，其值应非常接近零（仅在无限样本中它可以为零）。 只要它大于零，就意味着我们的模型无法正确预测训练值。 显然，我们正在寻找平均能产生准确预测的**无偏估计量**。

-另一方面，估计量的**方差是存在不属于训练集的样本时鲁棒性的度量。 在本节的开头，我们说过我们的过程通常是随机的。 这意味着必须将任何数据集视为是从特定数据生成过程 *p <sub class="calibre20">数据</sub>* 中提取的。 如果我们有足够的代表性元素 *x <sub class="calibre20">i</sub> ∈X* ，我们可以假设使用有限的数据集`X`训练分类器会导致模型能够进行分类 可以从 *p <sub class="calibre20">数据</sub>* 中提取的所有潜在样本。**
+另一方面，估计量的**方差**是存在不属于训练集的样本时鲁棒性的度量。 在本节的开头，我们说过我们的过程通常是随机的。 这意味着必须将任何数据集视为是从特定数据生成过程`p_data`中提取的。 如果我们有足够的代表性元素`x[i] ∈ X`，我们可以假设使用有限的数据集`X`训练分类器会导致模型能够进行分类 可以从`p_data`中提取的所有潜在样本。

 例如，如果我们需要建模一个人脸分类器，该人脸分类器的上下文仅限于肖像（不允许其他人脸姿势），我们可以收集许多不同个人的肖像。 我们唯一关心的是不排除现实生活中可能存在的类别。 假设我们有 10,000 张不同年龄和性别的人的图像，但是我们没有戴着帽子的肖像。 当系统投入生产时，我们收到客户的电话，说系统对许多图片进行了错误分类。 经过分析，我们发现他们始终代表戴着帽子的人。 显然，我们的模型不对错误负责，因为该模型已使用仅代表数据生成过程区域的样本进行了训练。 因此，为了解决该问题，我们收集了其他样本，并重复了训练过程。 但是，现在我们决定使用更复杂的模型，期望它会更好地工作。 不幸的是，我们观察到更差的验证准确性（例如，训练阶段未使用的子集的准确性）以及更高的训练准确性。 这里发生了什么？

@@ -183,7 +183,7 @@ Learned distribution

 ![](img/dc48de69-6f80-43e3-97fc-a4f7d40387fd.png)

-由于`L`仅取决于参数向量（ *x <sub class="calibre20">i</sub>* 和 *y <sub class="calibre20">i</sub>* 是常数），所以通用 算法必须找到使成本函数最小的最优参数向量。 例如，在**回归**问题（标签是连续的）中，误差度量可以是实际值和预测值之间的平方误差：
+由于`L`仅取决于参数向量（`x[i]`和`y[i]`是常数），所以通用 算法必须找到使成本函数最小的最优参数向量。 例如，在**回归**问题（标签是连续的）中，误差度量可以是实际值和预测值之间的平方误差：

 ![](img/ee38c0ea-fb0c-48b1-abd7-30b4dd44be28.png)

@@ -316,7 +316,7 @@ Dataset and regression line

 ![](img/e2d7b236-ba9f-4a7f-8914-a0a34d24aac5.png)

-在训练阶段结束时，我们假设 *L→0* ，所以 *p≈p <sub class="calibre20">数据</sub>* 。 通过这种方式，我们不仅将分析限于可能的样本子集，还限于整个分布。 使用生成模型，您可以绘制新样本，这些样本可能与为训练过程选择的样本有很大差异，但是它们始终属于同一分布。 因此，它们（可能）始终是可接受的。
+在训练阶段结束时，我们假设`L → 0`，所以`p ≈ p_data`。 通过这种方式，我们不仅将分析限于可能的样本子集，还限于整个分布。 使用生成模型，您可以绘制新样本，这些样本可能与为训练过程选择的样本有很大差异，但是它们始终属于同一分布。 因此，它们（可能）始终是可接受的。

 例如，**生成对抗网络**（**GAN**）是一种特殊的深度学习模型，能够学习图像集的分布，生成几乎无法区分的新样本（与 视觉语义的观点）。 由于无监督学习是本书的主要主题，因此在本简介中，我们将不再进一步介绍 GAN。 所有这些概念将在接下来的所有章节中进行广泛讨论（并带有实际示例）。


--- a/new/handson-unsup-learn-py/02.md
+++ b/new/handson-unsup-learn-py/02.md
--- a/new/handson-unsup-learn-py/03.md
+++ b/new/handson-unsup-learn-py/03.md
--- a/new/handson-unsup-learn-py/04.md
+++ b/new/handson-unsup-learn-py/04.md
@@ -50,11 +50,11 @@

 ![](img/04851041-5aa5-40f4-871e-41cee0b1eb59.png)

-**凝聚**方法是通过将每个样本分配到一个集群 *C <sub class="calibre20">i</sub>* 开始的，然后通过在每个步骤合并两个集群直到单个最终集群（对应于`X`）已产生：
+**凝聚**方法是通过将每个样本分配到一个集群 *C [i]* 开始的，然后通过在每个步骤合并两个集群直到单个最终集群（对应于`X`）已产生：

 ![](img/543602f0-e890-481e-9ebd-28453d15217b.png)

-在前面的示例中，群集 *C <sub class="calibre20">i</sub>* 和 *C <sub class="calibre20">j</sub>* 合并为 *C <sub class="calibre20">k</sub>* ； 因此，我们在第二步中获得 *n-1* 簇。 该过程继续进行，直到剩下的两个群集合并为一个包含整个数据集的单个块。 相反，**除法**方法（由 Kaufman 和 Roussew 最初提出，使用 DIANA 算法）在相反的方向上操作，从`X`开始，最后以每个群集包含一个 单个样本：
+在前面的示例中，群集 *C [i]* 和 *C [j]* 合并为 *C [k]* ； 因此，我们在第二步中获得 *n-1* 簇。 该过程继续进行，直到剩下的两个群集合并为一个包含整个数据集的单个块。 相反，**除法**方法（由 Kaufman 和 Roussew 最初提出，使用 DIANA 算法）在相反的方向上操作，从`X`开始，最后以每个群集包含一个 单个样本：

 ![](img/ed6383c7-bc83-46ba-9f2c-9282e9b7a8bd.png)

@@ -74,11 +74,11 @@

 ![](img/07f5f198-bcf4-4f91-811d-a5bc867600af.png)

-两个特定情况对应于 *p = 2* 和 *p = 1* 。 在前一种情况下，当 *p = 2* 时，我们获得标准**欧几里德距离**（等于 *L <sub class="calibre20">2</sub>* 范数）：
+两个特定情况对应于 *p = 2* 和 *p = 1* 。 在前一种情况下，当 *p = 2* 时，我们获得标准**欧几里德距离**（等于 *L [2]* 范数）：

 ![](img/be525080-5382-4146-9d15-6f26830f8970.png)

-当 *p = 1* 时，我们获得**曼哈顿**或**城市街区**距离（等于 *L <sub class="calibre20">1</sub>* 范数 ）：
+当 *p = 1* 时，我们获得**曼哈顿**或**城市街区**距离（等于 *L [1]* 范数 ）：

 ![](img/d851736e-2e48-4de6-b798-6fd828d24c42.png)

@@ -90,9 +90,9 @@

 ![](img/3e160312-31e8-4484-bd90-4697761fa04f.png)

-`P`是对称的，所有对角元素均为空。 因此，某些应用程序（例如 SciPy 的`pdist`函数）会产生一个压缩矩阵 *P <sub class="calibre20">c</sub>* ，这是一个仅包含矩阵上三角部分的向量 *P <sub class="calibre20">c</sub>* 的 *ij* <sup class="calibre27">th</sup> 元素对应于 *d（x <sub class="calibre20">i</sub> ，x <sub class="calibre20">j</sub> ）*。
+`P`是对称的，所有对角元素均为空。 因此，某些应用程序（例如 SciPy 的`pdist`函数）会产生一个压缩矩阵 *P [c]* ，这是一个仅包含矩阵上三角部分的向量 *P [c]* 的 *ij*^(th) 元素对应于 *d（x [i] ，x [j] ）*。

-下一步是定义合并策略，在这种情况下，该策略称为**链接**。 链接方法的目标是找出必须在层次结构的每个级别合并为单个群集的群集。 因此，它必须与代表群集的通用样本集一起使用。 在这种情况下，假设我们正在分析几个群集（ *C <sub class="calibre20">a</sub> ，C <sub class="calibre20">b</sub>* ），并且我们需要找到哪个索引`a`或`b`对应于将要合并的对。
+下一步是定义合并策略，在这种情况下，该策略称为**链接**。 链接方法的目标是找出必须在层次结构的每个级别合并为单个群集的群集。 因此，它必须与代表群集的通用样本集一起使用。 在这种情况下，假设我们正在分析几个群集（ *C [a] ，C [b]* ），并且我们需要找到哪个索引`a`或`b`对应于将要合并的对。



@@ -108,7 +108,7 @@

 单链接方法选择包含最接近的样本对的样本对（每个样本属于不同的簇）。 下图显示了此过程，其中选择了 **C1** 和 **C2** 进行合并：

-![](img/ba15026b-5a5e-445b-b800-b80c546f59e8.png)Example of single linkage. C<sub class="calibre26">1</sub> and C<sub class="calibre26">2</sub> are selected to be merged
+![](img/ba15026b-5a5e-445b-b800-b80c546f59e8.png)Example of single linkage. C[1] and C[2] are selected to be merged

 这种方法的主要缺点是可能同时具有很小的簇和很大的簇。 正如我们将在下一部分中看到的那样，单个链接可以使*离群值*保持隔离，直到存在非常高的相异度级别为止。 为了避免或减轻该问题，可以使用平均值和沃德方法。

@@ -116,11 +116,11 @@

 ![](img/08986d3c-687c-4832-b1c2-fc5d8442702a.png)

-这种链接方法的目的是使属于合并簇的最远样本之间的距离最小。 在下图中，有一个完整链接的示例，其中已选择 **C <sub class="calibre20">1</sub>** 和 **C <sub class="calibre20">3</sub>** ：
+这种链接方法的目的是使属于合并簇的最远样本之间的距离最小。 在下图中，有一个完整链接的示例，其中已选择 **C [1]** 和 **C [3]** ：

-![](img/5630c46a-e57c-4099-bcf2-bc30a9ed942e.png)Example of complete linkage. C<sub class="calibre26">1</sub> and C<sub class="calibre26">3</sub> are selected for merging
+![](img/5630c46a-e57c-4099-bcf2-bc30a9ed942e.png)Example of complete linkage. C[1] and C[3] are selected for merging

-该算法选择 **C <sub class="calibre20">1</sub>** 和`C`**<sub class="calibre20">3</sub>** 为了增加内部凝聚力。 实际上，很容易理解，考虑所有可能的组合，完全链接会导致群集密度最大化。 在上图所示的示例中，如果所需的簇数为两个，则合并 **C <sub class="calibre20">1</sub>** 和 **C <sub class="calibre20">2</sub>** 或 **C <sub class="calibre20">2</sub>** 和 **C <sub class="calibre20">3</sub>** 会产生具有较小内聚力的最终构型，这通常是不希望的结果。
+该算法选择 **C [1]** 和`C`**[3]** 为了增加内部凝聚力。 实际上，很容易理解，考虑所有可能的组合，完全链接会导致群集密度最大化。 在上图所示的示例中，如果所需的簇数为两个，则合并 **C [1]** 和 **C [2]** 或 **C [2]** 和 **C [3]** 会产生具有较小内聚力的最终构型，这通常是不希望的结果。



@@ -134,9 +134,9 @@

 ![](img/4fc15787-cd87-42b0-85ce-5ca51d3e66f9.png)

-这个想法与完全链接非常相似，但是在这种情况下，考虑每个群集的平均值，并且目标是考虑所有可能的对（ *C <sub class="calibre20">a</sub> ，C <sub class="calibre20">b</sub>* ）。 下图显示了平均链接的示例：
+这个想法与完全链接非常相似，但是在这种情况下，考虑每个群集的平均值，并且目标是考虑所有可能的对（ *C [a] ，C [b]* ）。 下图显示了平均链接的示例：

-![](img/c960034e-9433-4aa2-9418-3442cd67dac3.png)Example of average linkage. C<sub class="calibre26">1</sub> and C<sub class="calibre26">2</sub> are selected for merging. The highlighted points are the averages.
+![](img/c960034e-9433-4aa2-9418-3442cd67dac3.png)Example of average linkage. C[1] and C[2] are selected for merging. The highlighted points are the averages.

 平均链接在生物信息学应用程序（定义分层聚类的主要环境）中特别有用。 对其属性的数学解释是不平凡的，我鼓励您查看原始论文（*一种评估系统关系的统计方法，Sokal R.，Michener C。，  堪萨斯大学科学 1958 年第 38 号公告*），以获取更多详细信息。

@@ -248,15 +248,15 @@ plt.show()



-可以使用前面各章中介绍的任何方法来评估层次集群性能。 但是，在这种特定情况下，可以采用特定措施（不需要基本事实）。 给定一个近似矩阵`P`和一个链接`L`，几个样本 *x <sub class="calibre20">i</sub>* 和 *x <sub class="calibre20">j</sub> ∈X* 始终分配给特定层次级别的同一群集。 当然，重要的是要记住，在团聚的情况下，我们从`n`个不同的簇开始，最后以一个等于`X`的单个簇结束。 此外，由于两个合并的群集成为一个群集，因此属于一个群集的两个样本将始终继续属于同一*放大的*群集，直到该过程结束。
+可以使用前面各章中介绍的任何方法来评估层次集群性能。 但是，在这种特定情况下，可以采用特定措施（不需要基本事实）。 给定一个近似矩阵`P`和一个链接`L`，几个样本 *x [i]* 和 *x [j] ∈X* 始终分配给特定层次级别的同一群集。 当然，重要的是要记住，在团聚的情况下，我们从`n`个不同的簇开始，最后以一个等于`X`的单个簇结束。 此外，由于两个合并的群集成为一个群集，因此属于一个群集的两个样本将始终继续属于同一*放大的*群集，直到该过程结束。

-考虑到上一节中显示的第一个树状图，样本{ 1 }和{ 3 }立即合并； 然后添加样本{ 2 }，然后添加{ 11 }。 此时，整个簇将与另一个块合并（包含样本{ 0 }，{ 9 }，{ 4 }和{ 10 }）。 在最后一级，将剩余的样本合并以形成单个最终群集。 因此，命名相似度 *DL <sub class="calibre20">0</sub>* ， *DL <sub class="calibre20">1</sub>* ，...和 *DL <sub class="calibre20">k</sub>* ，样本{ 1 }和{ 3 }在 *DL <sub class="calibre20">1</sub>* 处开始属于同一簇。 例如，在 *DL <sub class="calibre20">6</sub>* 的同一簇中发现{ 2 }和{ 1 }。
+考虑到上一节中显示的第一个树状图，样本{ 1 }和{ 3 }立即合并； 然后添加样本{ 2 }，然后添加{ 11 }。 此时，整个簇将与另一个块合并（包含样本{ 0 }，{ 9 }，{ 4 }和{ 10 }）。 在最后一级，将剩余的样本合并以形成单个最终群集。 因此，命名相似度 *DL [0]* ， *DL [1]* ，...和 *DL [k]* ，样本{ 1 }和{ 3 }在 *DL [1]* 处开始属于同一簇。 例如，在 *DL [6]* 的同一簇中发现{ 2 }和{ 1 }。

-此时，我们可以将 *DL <sub class="calibre20">ij</sub>* 定义为 *x <sub class="calibre20">i</sub>* 和 *x <sub class="calibre20">j</sub>* 首次属于同一簇，并且将**同义** **矩阵** 在以下（ *n×n* ）矩阵中作为 *CP* ：
+此时，我们可以将 *DL [ij]* 定义为 *x [i]* 和 *x [j]* 首次属于同一簇，并且将**同义** **矩阵** 在以下（ *n×n* ）矩阵中作为 *CP* ：

 ![](img/5a3b29f5-fbf7-4acd-abfb-849ff081295e.png)

-换句话说， *CP <sub class="calibre20">ij</sub>* 元素是观察 *x <sub class="calibre20">i</sub>* 和 *x <sub class="calibre20">j 所需的最小差异 同一群集中的</sub>* 。 可以证明 *CP <sub class="calibre20">ij</sub>* 是 *x <sub class="calibre20">i</sub>* 和 *x <sub class="calibre20">j</sub> 之间的距离度量* ，; 因此， *CP* 与`P`类似，并且具有与邻近矩阵相同的属性（例如，所有对角元素为空）。 特别是，我们对它们的相关性感兴趣（在`-1`和`1`范围内标准化）。 这样的值（**色相关系数**（**CPC**）表示`P`和 *CP* 之间的一致性程度，并且可以很容易地计算出， 如以下等式所示。
+换句话说， *CP [ij]* 元素是观察 *x [i]* 和 *x [j 所需的最小差异 同一群集中的]* 。 可以证明 *CP [ij]* 是 *x [i]* 和 *x [j] 之间的距离度量* ，; 因此， *CP* 与`P`类似，并且具有与邻近矩阵相同的属性（例如，所有对角元素为空）。 特别是，我们对它们的相关性感兴趣（在`-1`和`1`范围内标准化）。 这样的值（**色相关系数**（**CPC**）表示`P`和 *CP* 之间的一致性程度，并且可以很容易地计算出， 如以下等式所示。

 由于`P`和 *CP* 均为（ *n×n* ）对称矩阵且对角元素为空，因此可以仅考虑下三角 部分（不包括对角线，表示为 *Tril（•）*），包含 *n（n-1）/ 2* 值。 因此，平均值如下：

@@ -270,7 +270,7 @@ plt.show()

 ![](img/2ff0529a-5715-44fc-8b52-347801de1a6b.png)

-前面的方程式基于以下假设：如果 *x <sub class="calibre20">i</sub>* ， *x <sub class="calibre20">j</sub>* 和 *x <sub class="calibre20">p</sub>* 的距离，例如 *d（x <sub class="calibre20">i</sub> ，x <sub class="calibre20">j</sub> ）< d（x <sub class="calibre20">i</sub> ， x <sub class="calibre20">p</sub> ）*，可以合理预期 *x <sub class="calibre20">i</sub>* 和 *x <sub class="calibre20">j</sub>* 在 *x <sub class="calibre20">i</sub>* 和`x`<sub class="calibre20">`p`</sub> 之前合并在同一群集中（即，对应于 *x <sub class="calibre20">i</sub>* 和`x`<sub class="calibre20">`j`</sub> 的合并 低于 *x <sub class="calibre20">i</sub>* 和`x`*<sub class="calibre20">p</sub>* ）。 因此， *CPC→1* 表示链接生成了一个最佳层次结构，该层次结构反映了基础几何结构。 另一方面， *CPC* *→-1* 表示完全不同意，并且潜在的聚类结果与几何形状不一致。 毋庸置疑，给定一个问题，我们的目标是找到一个最大化 *CPC* 的指标和链接。
+前面的方程式基于以下假设：如果 *x [i]* ， *x [j]* 和 *x [p]* 的距离，例如 *d（x [i] ，x [j] ）< d（x [i] ， x [p] ）*，可以合理预期 *x [i]* 和 *x [j]* 在 *x [i]* 和`x`[`p`] 之前合并在同一群集中（即，对应于 *x [i]* 和`x`[`j`] 的合并 低于 *x [i]* 和`x`*[p]* ）。 因此， *CPC→1* 表示链接生成了一个最佳层次结构，该层次结构反映了基础几何结构。 另一方面， *CPC* *→-1* 表示完全不同意，并且潜在的聚类结果与几何形状不一致。 毋庸置疑，给定一个问题，我们的目标是找到一个最大化 *CPC* 的指标和链接。

 考虑到第 3 章，“高级聚类”中描述的示例，我们可以使用 SciPy 函数`cophenet`计算与不同链接（假设欧几里得距离）相对应的同位矩阵和 CPC 。 此函数需要将链接矩阵作为第一个参数，将接近度矩阵作为第二个参数，并返回同义矩阵和 CPC（`dm` 变量是先前计算出的压缩接近度矩阵）：

@@ -435,7 +435,7 @@ pdff = pd.concat([dff, df_pred], axis=1)



-聚集层次聚类的一个重要特征是可以包括连通性约束以强制合并特定样本。 在邻居之间有很强关系的情况下，或者当我们知道某些样本由于其固有属性而必须属于同一类时，这种先验知识非常普遍。 为了实现此目标，我们需要使用**连接矩阵** *A∈{0，1} <sup class="calibre27">n×n</sup>* ：
+聚集层次聚类的一个重要特征是可以包括连通性约束以强制合并特定样本。 在邻居之间有很强关系的情况下，或者当我们知道某些样本由于其固有属性而必须属于同一类时，这种先验知识非常普遍。 为了实现此目标，我们需要使用**连接矩阵** *A∈{0，1}^(n×n)* ：

 ![](img/132f7bce-0b7b-4715-bc63-c055335c291c.png)

@@ -456,7 +456,7 @@ X, Y = make_blobs(n_samples=nb_samples, n_features=2, center_box=[-1, 1], center

 ![](img/2babcaa4-c3d5-4faf-8e30-a7371de35be1.png)Dataset for connectivity constraints example

-从图中可以看出，样本 18 和 31 （ *x <sub class="calibre20">0</sub> ∈（-2，-1）*和 *x <sub class="calibre20">1</sub> ∈`(1, 2)`*）非常接近； 但是，我们不希望将它们合并，因为样本 18 在较大的中央斑点中有更多邻居，而点 31 被部分隔离，应视为一个自治簇。 我们还希望样本 33 形成单个簇。 这些要求将迫使算法合并不再考虑基础几何（根据高斯分布）的聚类，而是考虑现有知识。
+从图中可以看出，样本 18 和 31 （ *x [0] ∈（-2，-1）*和 *x [1] ∈`(1, 2)`*）非常接近； 但是，我们不希望将它们合并，因为样本 18 在较大的中央斑点中有更多邻居，而点 31 被部分隔离，应视为一个自治簇。 我们还希望样本 33 形成单个簇。 这些要求将迫使算法合并不再考虑基础几何（根据高斯分布）的聚类，而是考虑现有知识。

 为了检查聚类的工作原理，现在让我们使用欧几里德距离和平均链接计算树状图（截短为 20 片叶子）：

@@ -548,7 +548,7 @@ Y_pred = ag.fit_predict(X)
 4.  在聚集聚类中，树状图的底部（初始部分）包含单个聚类。 它是否正确？
 5.  聚集聚类中树状图的`y`轴是什么意思？
 6.  合并较小的群集时，相异性降低。 它是否正确？
-7.  显色矩阵的元素 *C（i，j）*报告相异度，其中两个对应元素 *x <sub class="calibre20">i</sub>* 和 *x [ <sub class="calibre20">j</sub>* 首次出现在同一群集中。 它是否正确？
+7.  显色矩阵的元素 *C（i，j）*报告相异度，其中两个对应元素 *x [i]* 和 *x [ [j]* 首次出现在同一群集中。 它是否正确？
 8.  连接约束的主要目的是什么？



--- a/new/handson-unsup-learn-py/05.md
+++ b/new/handson-unsup-learn-py/05.md
--- a/new/handson-unsup-learn-py/06.md
+++ b/new/handson-unsup-learn-py/06.md
--- a/new/handson-unsup-learn-py/07.md
+++ b/new/handson-unsup-learn-py/07.md
--- a/new/handson-unsup-learn-py/08.md
+++ b/new/handson-unsup-learn-py/08.md
--- a/new/handson-unsup-learn-py/09.md
+++ b/new/handson-unsup-learn-py/09.md
--- a/new/handson-unsup-learn-py/10.md
+++ b/new/handson-unsup-learn-py/10.md
@@ -54,7 +54,7 @@
 4.  没有; k 型参量可以采用任何度量。
 5.  没有; DBSCAN 对几何不敏感，并且可以管理任何种类的群集结构。
 6.  我们已经表明，小批量 K 均值的性能稍差于 K 均值。 因此，答案是肯定的。 使用批处理算法可以节省内存。
-7.  考虑到噪声的方差为*σ <sup class="calibre27">2</sup> = 0.005→σ≈0.07* ，它比聚类标准偏差小约 14 倍，因此，我们不能期望有这么多的新 在稳定的群集配置中分配（80%）。
+7.  考虑到噪声的方差为*σ^2 = 0.005→σ≈0.07* ，它比聚类标准偏差小约 14 倍，因此，我们不能期望有这么多的新 在稳定的群集配置中分配（80%）。



@@ -66,7 +66,7 @@

 1.  在凝聚方法中，该算法从每个样本（被视为一个集群）开始，然后继续合并子集群，直到定义了一个集群。 在分裂方法中，该算法从包含所有样本的单个簇开始，然后通过拆分将其进行到每个样本组成一个簇为止。

-2.  最近的点是*`(0, 0)`*和*`(0, 1)`*，因此单键是 *L <sub class="calibre20">s</sub> （a，b）= 1* 。 最远的点是*（-1，-1）*和*（1、1）*，因此完整的链接是 *L <sub class="calibre20">c</sub> （a，b ）=2√2*。
+2.  最近的点是*`(0, 0)`*和*`(0, 1)`*，因此单键是 *L [s] （a，b）= 1* 。 最远的点是*（-1，-1）*和*（1、1）*，因此完整的链接是 *L [c] （a，b ）=2√2*。
 3.  没有; 树状图是给定度量和链接的分层聚类过程的树表示。
 4.  在聚集聚类中，树状图的初始部分包含所有样本作为自治聚类。
 5. `y`轴报告差异。
@@ -82,7 +82,7 @@



-1.  硬聚类基于固定分配； 因此，样本 *x <sub class="calibre20">i</sub>* 将始终属于单个群集。 相反，相对于每个聚类，软聚类返回一个度向量，该向量的元素表示隶属度（例如，（0.1、0.7、0.05、0.15））。
+1.  硬聚类基于固定分配； 因此，样本 *x [i]* 将始终属于单个群集。 相反，相对于每个聚类，软聚类返回一个度向量，该向量的元素表示隶属度（例如，（0.1、0.7、0.05、0.15））。
 2.  没有; 模糊 c 均值是 K 均值的扩展，它不适用于非凸几何。 但是，软分配可以评估相邻群集的影响。
 3.  主要假设是，数据集是从可以用多个高斯分布的加权和有效地近似的分布中得出的。
 4.  这意味着第一个模型的参数数量是第二个模型的两倍。
@@ -102,7 +102,7 @@
 2.  直方图的主要缺点之一是，当 bin 的数量太大时，它们中的许多都开始为空，因为在所有值范围内都没有样本。 在这种情况下，`X`的基数可以小于 1,000，或者即使具有超过 1,000 个样本，相对频率也可以集中在小于 1,000 的多个 bin 中。
 3.  样本总数为 75，并且各个条带的长度相等。 因此， *P（0 < x < 2）= 20/75≈0.27，P（2 < x < 4）= 30/75 = 0.4* 和 *P（4 < x < 6）= 25/75≈0.33* 。 由于我们没有任何样本，因此我们可以假设 *P（x > 6）= 0* ； 因此， *P（x > 2）=* *P（2 < x < 4）+ P（4 < x < 6）≈0.73* 。 考虑到 *0.73•75≈55* ，这是属于 *x > 2* 的 bin 的样本数，我们立即得到确认。
 4.  在正态分布 *N`(0, 1)`*中，最大密度为 *p（0）≈0.4* 。 在大约三个标准差之后， *p（x）≈0* ； 因此，通常无法将样本 *p（x）= 0.35* 的样本`x`视为异常。
-5.  当 *min* （ *std（X），IQR（X）/1.34）≈2.24* 时，最佳带宽为 *h = 0.9•2.24•500 <sup class="calibre27">-0.2 [</sup> = 0.58* 。
+5.  当 *min* （ *std（X），IQR（X）/1.34）≈2.24* 时，最佳带宽为 *h = 0.9•2.24•500^(-0.2 [) = 0.58* 。
 6.  即使可以采用高斯核，在给出分布描述的情况下，我们也应首先选择指数核，这样可以使均值周围迅速下降。
 7.  这将是最合乎逻辑的结论。 实际上，就新颖性而言，我们也应该期望新样本会改变分布，以便为新颖性建模。 如果在重新训练模型后概率密度仍然很低，则样本很可能是异常的。

@@ -115,13 +115,13 @@


 1.  协方差矩阵已经是对角线； 因此，特征向量是标准`x`和`y`versors（1,0）和`(0, 1)`，特征值是 2 和 1。因此，`x`轴是主要成分，`y`轴是第二个成分。
-2.  由于球 *B <sub class="calibre20">0.5</sub> `(0, 0)`*是空的，因此在该点（ *0，0* ）周围没有样品。 考虑到水平方差*σ <sub class="calibre20">x</sub> <sup class="calibre27">2</sup> = 2* ，我们可以想象`X`被分解为两个斑点，因此可以想象 *x = 0* 行是水平判别器。 但是，这只是一个假设，需要使用实际数据进行验证。
+2.  由于球 *B [0.5] `(0, 0)`*是空的，因此在该点（ *0，0* ）周围没有样品。 考虑到水平方差*σ [x]^2 = 2* ，我们可以想象`X`被分解为两个斑点，因此可以想象 *x = 0* 行是水平判别器。 但是，这只是一个假设，需要使用实际数据进行验证。

 3.  不，他们不是。 PCA 之后的协方差矩阵不相关，但不能保证统计独立性。
 4.  是; Kurt（`X`）的分布是超高斯分布，因此达到峰值且尾巴很重。 这样可以保证找到独立的组件。
 5.  由于`X`包含负数，因此无法使用 NNMF 算法。
 6.  没有; 由于字典有 10 个元素，因此意味着文档由许多重复出现的术语组成，因此字典不够完整（ *10 < 30* ）。
-7.  样本*（x，y）∈ <sup class="calibre27">2</sup>* 通过二次多项式变换为*（ax，by，cx <sup class="calibre27">2</sup> ，dy <sup class="calibre27">2</sup> ，exy，f）∈ <sup class="calibre27">6</sup>* 。
+7.  样本*（x，y）∈^2* 通过二次多项式变换为*（ax，by，cx^2 ，dy^2 ，exy，f）∈^6* 。



@@ -133,9 +133,9 @@

 1.  不，他们没有。 编码器和解码器都必须在功能上对称，但是它们的内部结构也可以不同。
 2.  没有; 输入信息的一部分在转换过程中丢失，而其余部分则在代码输出`Y`和自动编码器变量之间分配，该变量与基础模型一起对所有转换进行编码。
-3.  当 *min（sum（z <sub class="calibre20">i</sub> ））= 0 和 min（sum（ z <sub class="calibre20">i</sub>* *））= 128* 时，等于 36 的总和既可以表示稀疏（如果标准偏差较大），也可以表示具有较小值的均匀分布（当标准偏差接近零时）。
-4.  当 *sum（z <sub class="calibre20">i</sub> ）= 36 时，* a *std（z <sub class="calibre20">i</sub> ）= 0.03* 意味着大多数值都围绕 0.28 *（0.25÷0.31）*，该代码可以视为密集代码。
-5.  没有; 一个 Sanger 网络（以及 Rubner-Tavan 网络）需要输入样本 *x <sub class="calibre20">i</sub> ∈X* 。
+3.  当 *min（sum（z [i] ））= 0 和 min（sum（ z [i]* *））= 128* 时，等于 36 的总和既可以表示稀疏（如果标准偏差较大），也可以表示具有较小值的均匀分布（当标准偏差接近零时）。
+4.  当 *sum（z [i] ）= 36 时，* a *std（z [i] ）= 0.03* 意味着大多数值都围绕 0.28 *（0.25÷0.31）*，该代码可以视为密集代码。
+5.  没有; 一个 Sanger 网络（以及 Rubner-Tavan 网络）需要输入样本 *x [i] ∈X* 。
 6.  从最大特征值到最小特征值（即从第一个主成分到最后一个主成分）以降序提取成分。 因此，无需进一步分析来确定其重要性。
 7.  是; 从最后一层开始，可以对每个内部层的值进行采样，直到第一层为止。 通过选择每个概率向量的 *argmax（•）*获得最可能的输入值。

@@ -148,7 +148,7 @@


 1.  没有; 生成器和判别器在功能上是不同的。
-2.  不，不是这样，因为判别器的输出必须是一个概率（即 *p <sub class="calibre20">i</sub> ∈`(0, 1)`*）。
+2.  不，不是这样，因为判别器的输出必须是一个概率（即 *p [i] ∈`(0, 1)`*）。
 3.  是; 这是正确的。 判别器可以学习非常快地输出不同的概率，，其损失函数的斜率可以变得接近于 0，从而减小了提供给生成器的校正反馈的幅度。
 4.  是; 通常会比较慢。
 5.  评论者比较慢，因为每次更新后都会对变量进行裁剪。