2020-12-16 22:13:52

1970cee8 · wizardforcel · 9374763a · 1970cee8 · 1970cee8 · 1970cee8
9 changed file
--- a/new/ai-py/01.md
+++ b/new/ai-py/01.md
@@ -181,7 +181,7 @@

 图 7：将输入转化为行动

-我们如何定义理性代理人的绩效指标？ 也许有人会说它与成功的程度成正比。 设置代理以完成任务，因此性能度量取决于该任务完成的百分比。 但是我们必须考虑什么构成了整体的合理性。 如果只是结果，我们不考虑导致结果的行动。
+我们如何定义理性代理人的表现指标？ 也许有人会说它与成功的程度成正比。 设置代理以完成任务，因此性能度量取决于该任务完成的百分比。 但是我们必须考虑什么构成了整体的合理性。 如果只是结果，我们不考虑导致结果的行动。

 做出正确的推断是理性的一部分，因为主体必须理性地行动以实现其目标。 这将有助于它得出可以连续使用的结论。


--- a/new/gan-proj/8.md
+++ b/new/gan-proj/8.md
@@ -8,7 +8,7 @@ Pix2pix 是一种**生成对抗网络**（**GAN**），用于图像到图像的

 在本章中，我们将介绍以下主题：

-*   介绍 Pix2pix 网络
+*   Pix2pix 网络介绍
 *   Pix2pix 网络的架构
 *   数据收集与准备
 *   Pix2pix 的 Keras 实现
@@ -809,7 +809,7 @@ list_filters = [num_filters_start * min(total_conv_layers, (2 ** i)) for i in ra

 ```

-6.  接下来，将平坦的层添加到网络，如下所示：
+6.  接下来，将展开层添加到网络，如下所示：

 ```py
 flatten_layer = Flatten()(des)
@@ -1181,7 +1181,7 @@ for epoch in range(epochs):
    print("Epoch:{}".format(epoch))
 ```

-9.  创建两个列表以存储所有小批量的损失：
+9.  创建两个列表来存储所有小批量的损失：

 ```py
 dis_losses = []

--- a/new/gan-proj/9.md
+++ b/new/gan-proj/9.md
@@ -84,8 +84,8 @@ GAN 的未来是光明的！ 我认为在不久的将来有可能会使用 GAN
 *   生成网站设计
 *   压缩数据
 *   药物发现与开发
-*   产生文字
-*   产生音乐
+*   生成文字
+*   生成音乐




--- a/new/handson-unsup-learn-py/04.md
+++ b/new/handson-unsup-learn-py/04.md
@@ -8,12 +8,12 @@

 特别是，我们将讨论以下主题：

-*   层次聚类策略（分裂式和聚集式）
+*   层次聚类策略（分裂式和凝聚式）
 *   距离度量和链接方法
 *   树状图及其解释
-*   聚集聚类
-*   关联相关性作为一种绩效指标
-*   连接限制
+*   凝聚聚类
+*   作为一种表现指标的 Cophenetic 相关性
+*   连通性约束



@@ -60,7 +60,7 @@

 在这两种情况下，结果都是层次结构的形式，其中每个级别都是通过在上一个级别上执行合并或拆分操作来获得的。 复杂度是这两种方法之间的主要区别，因为分裂聚类的复杂度更高。 实际上，合并/拆分决定是通过考虑所有可能的组合并通过选择最合适的组合（根据特定标准）来做出的。 例如，在比较第一步时，很明显（在团聚的情况下）找到最合适的几个样本要比考虑所有可能的组合（在`X`中， 分裂情形），这需要指数级的复杂性。

-由于最终结果几乎相同，而除法算法的计算复杂度要高得多，因此，一般而言，没有特别的理由偏爱这种方法。 因此，在本书中，我们将仅讨论聚集聚类（假设所有概念都可立即应用于除法算法）。 我鼓励您始终考虑整个层次结构，即使需要大多数实现（例如 scikit-learn）来指定所需的集群数量。 实际上，在实际的应用中，最好是在达到目标后停止该过程，而不是计算整个树。 但是，此步骤是分析阶段的重要组成部分（尤其是在没有很好定义簇数的情况下），我们将演示如何可视化树并针对每个特定问题做出最合理的决策。
+由于最终结果几乎相同，而除法算法的计算复杂度要高得多，因此，一般而言，没有特别的理由偏爱这种方法。 因此，在本书中，我们将仅讨论凝聚聚类（假设所有概念都可立即应用于除法算法）。 我鼓励您始终考虑整个层次结构，即使需要大多数实现（例如 scikit-learn）来指定所需的集群数量。 实际上，在实际的应用中，最好是在达到目标后停止该过程，而不是计算整个树。 但是，此步骤是分析阶段的重要组成部分（尤其是在没有很好定义簇数的情况下），我们将演示如何可视化树并针对每个特定问题做出最合理的决策。



@@ -482,7 +482,7 @@ X, Y = make_blobs(n_samples=nb_samples, n_features=2, center_box=[-1, 1], center

 ![](img/2babcaa4-c3d5-4faf-8e30-a7371de35be1.png)

-连接约束的数据集示例
+连通性约束的数据集示例

 从图中可以看出，样本 18 和 31 （`x[0] ∈ (-2, -1)`和`x[1] ∈ (1, 2)`非常接近； 但是，我们不希望将它们合并，因为样本 18 在较大的中央斑点中有更多邻居，而点 31 被部分隔离，应视为一个自治簇。 我们还希望样本 33 形成单个簇。 这些要求将迫使算法合并不再考虑基础几何（根据高斯分布）的聚类，而是考虑现有知识。

@@ -507,7 +507,7 @@ ax.set_ylabel('Samples', fontsize=18)

 ![](img/603d9203-3dd1-4123-b027-ffdd7a1f4cc9.png)

-具有欧氏距离和平均链接的连接约束示例的树状图
+具有欧氏距离和平均链接的连通性约束示例的树状图

 不出所料，样本 18 和 31 立即合并，然后与另一个包含 2 个样本的簇聚合（当括号中的数字表示这是一个包含更多样本的复合块） ，可能是 44 和 13 。 样本 33 也已合并，因此不会保留在孤立的群集中。 作为确认，让我们使用`n_clusters=8`进行聚类：

@@ -544,9 +544,9 @@ Y_pred = ag.fit_predict(X)

 ![](img/a8e4c902-45bd-4510-b43b-c879a8625acb.png)

-使用欧式距离和连接约束来聚类的数据集
+使用欧式距离和连通性约束来聚类的数据集

-正如预期的那样，样本 18 已分配给大型中央群集，而点 31 和 33 现在已被隔离。 当然，由于该过程是分层的，因此施加连接约束比分离约束更容易。 实际上，虽然可以在初始阶段轻松合并单个样本，但是使用所有链接都无法轻松保证在最终合并之前将其排除。
+正如预期的那样，样本 18 已分配给大型中央群集，而点 31 和 33 现在已被隔离。 当然，由于该过程是分层的，因此施加连通性约束比分离约束更容易。 实际上，虽然可以在初始阶段轻松合并单个样本，但是使用所有链接都无法轻松保证在最终合并之前将其排除。

 当需要复杂的约束条件（给定距离和链接）时，通常有必要同时调整连接矩阵和所需的群集数量。 当然，如果期望的结果是通过特定数目的聚类实现的，则也将使用较大的值来实现，直到相异性下界为止（也就是说，合并过程会减少聚类的数量；因此，如果相异性足够大，所有现有约束将仍然有效）。 例如，如果三个样本被约束为属于同一群集，则通常无法在初始合并阶段之后获得此结果。

@@ -579,11 +579,11 @@ Y_pred = ag.fit_predict(X)
 1.  凝聚法和分裂法有什么区别？
 2.  给定两个簇`a: [(-1, -1), (0, 0)]`和`b: [(1, 1), (1, 0)]`，是否考虑欧几里得距离，什么是单一和完整链接？
 3.  树状图表示给定数据集的不同链接结果。 它是否正确？
-4.  在聚集聚类中，树状图的底部（初始部分）包含单个聚类。 它是否正确？
-5.  聚集聚类中树状图的`y`轴是什么意思？
+4.  在凝聚聚类中，树状图的底部（初始部分）包含单个聚类。 它是否正确？
+5.  凝聚聚类中树状图的`y`轴是什么意思？
 6.  合并较小的群集时，相异性降低。 它是否正确？
 7.  显色矩阵的元素`C(i, j)`报告相异度，其中两个对应元素`x[i]`和`x[j]`首次出现在同一群集中。 它是否正确？
-8.  连接约束的主要目的是什么？
+8.  连通性约束的主要目的是什么？




--- a/new/handson-unsup-learn-py/05.md
+++ b/new/handson-unsup-learn-py/05.md
@@ -10,9 +10,9 @@

 *   模糊 C 均值
 *   高斯混合
-*   AIC 和 BIC 作为绩效指标
+*   作为表现指标的 AIC 和 BIC 
 *   贝叶斯高斯混合（简要介绍）
-*   生成（半监督）高斯混合
+*   生成式（半监督）高斯混合



@@ -29,7 +29,7 @@
    *   SciPy 0.19+
    *   NumPy 1.10+
    *   Scikit-Learn 0.20+
-    *   Scikit 模糊 0.2
+    *   Scikit-fuzzy 0.2
    *   Pandas 0.22+
    *   Matplotlib 2.0+
    *   Seaborn 0.9+
@@ -715,7 +715,7 @@ Gaussian 2:

 在本章中，我们介绍了一些最常见的软聚类方法，重点介绍了它们的特性和功能。 模糊 c 均值是基于模糊集的概念对经典 K 均值算法的扩展。 群集不被视为互斥分区，而是可以与其他某些群集重叠的灵活集。 所有样本始终分配给所有聚类，但是权重向量确定每个聚类的隶属度。 连续的簇可以定义部分重叠的属性； 因此，对于两个或更多簇，给定样本的权重可能不为零。 大小决定了它属于每个段的数量。

-高斯混合是一个生成过程，其基于这样的假设：可以用加权高斯分布的总和来近似实际数据生成过程。 给定预定义数量的组件，对模型进行训练，以使可能性最大化。 我们讨论了如何使用 AIC 和 BIC 作为绩效指标，以找出最佳的高斯分布数量。 我们还简要介绍了贝叶斯高斯混合的概念，并研究了先验知识的包含如何帮助自动选择一小部分活性成分。 在最后一部分中，我们讨论了半监督高斯混合的概念，展示了如何使用一些带标记的样本作为指导，以优化带有大量未标记点的训练过程。
+高斯混合是一个生成过程，其基于这样的假设：可以用加权高斯分布的总和来近似实际数据生成过程。 给定预定义数量的组件，对模型进行训练，以使可能性最大化。 我们讨论了如何使用 AIC 和 BIC 作为表现指标，以找出最佳的高斯分布数量。 我们还简要介绍了贝叶斯高斯混合的概念，并研究了先验知识的包含如何帮助自动选择一小部分活性成分。 在最后一部分中，我们讨论了半监督高斯混合的概念，展示了如何使用一些带标记的样本作为指导，以优化带有大量未标记点的训练过程。

 在下一章中，我们将讨论核密度估计的概念及其在异常检测领域中的应用。

@@ -727,7 +727,7 @@ Gaussian 2:



-1.  软集群和硬集群之间的主要区别是什么？
+1.  软聚类和硬聚类之间的主要区别是什么？
 2.  模糊 c 均值可以轻松处理非凸类。 这句话正确吗？
 3.  高斯混合的主要假设是什么？
 4.  假设两个模型达到相同的最佳对数似然性； 但是，第一个的 AIC 是第二个的 AIC 的两倍。 这是什么意思？

--- a/new/handson-unsup-learn-py/06.md
+++ b/new/handson-unsup-learn-py/06.md
@@ -14,7 +14,7 @@
 *   带宽选择标准
 *   异常检测的单变量示例
 *   使用 KDD Cup 99 数据集的 HTTP 攻击异常检测示例
-*   一类支持向量机
+*   单类支持向量机
 *   隔离森林的异常检测



--- a/new/handson-unsup-learn-py/07.md
+++ b/new/handson-unsup-learn-py/07.md
@@ -307,15 +307,15 @@ print(np.sum(pca.explained_variance_ratio_))

 换句话说，我们可以通过仅计算每两个点的内核，而不是执行一个点积来计算在高维空间中的主成分上的投影，该点积在计算后需要`n`乘法`f(·)`的值。

-一些常见的内核如下：
+一些常见的核如下：

 *   **径向基函数**（**RBF**）或高斯核：

    ![](img/be7df07d-e755-4712-9b16-409ec45c4d9d.png)
-*  `p`为多项式内核：
+*  `p`为多项式核：

    ![](img/464465b9-c466-4538-8f60-33259f9424d7.png)
-*   Sigmoid 内核：
+*   Sigmoid 核：

    ![](img/f1b5b271-2c9d-46d2-99c5-e00687a24f4c.png)


--- a/new/handson-unsup-learn-py/08.md
+++ b/new/handson-unsup-learn-py/08.md
@@ -10,11 +10,11 @@

 *   自编码器
 *   去噪自编码器
-*   稀疏的自编码器
+*   稀疏自编码器
 *   变分自编码器
 *   PCA 神经网络：
-*   桑格的网络
-*   Rubner-Attic 的网络
+*   Sanger 网络
+*   Rubner-Attic 网络
 *   无监督**深度信念网络**（**DBN**）


@@ -302,7 +302,7 @@ Epoch 600) Average loss per sample: 0.4635812330245972 (Code mean: 0.42368677258

 *   破坏每个批量中的样本（贯穿整个时期）。
 *   将噪声层用作编码器的输入 1。
-*   将压差层用作编码器的输入 1（例如，椒盐噪声）。 在这种情况下，丢失的概率可以是固定的，也可以以预定义的间隔（例如，（0.1，0.5））随机采样。
+*   将丢弃层用作编码器的输入 1（例如，椒盐噪声）。 在这种情况下，丢弃的概率可以是固定的，也可以以预定义的间隔（例如，（0.1，0.5））随机采样。

 如果假定噪声为高斯噪声（这是最常见的选择），则可能会同时产生同调和异调噪声。 在第一种情况下，所有分量的方差都保持恒定（即`n(i) ~ N(0, σ^2 I)`），而在后一种情况下，每个组件具有其自身的差异。 根据问题的性质，另一种解决方案可能更合适。 但是，在没有限制的情况下，总是最好使用异方差噪声，以提高系统的整体鲁棒性。


--- a/new/handson-unsup-learn-py/10.md
+++ b/new/handson-unsup-learn-py/10.md
@@ -13,7 +13,7 @@

 1.  无监督学习可以独立于有监督的方法应用，因为其目标是不同的。 如果问题需要监督的方法，则通常不能采用无监督的学习作为替代解决方案。 通常，无监督方法尝试从数据集中提取信息片段（例如，聚类）而没有任何外部提示（例如预测错误）。 相反，受监督的方法需要提示才能更正其参数。
 2.  由于目标是找到趋势的原因，因此有必要执行诊断分析。
-3.  没有; 从单个分布中提取`n`个独立样本的可能性作为单个概率的乘积（主要假设请参见问题 4）。
+3.  否; 从单个分布中提取`n`个独立样本的可能性作为单个概率的乘积（主要假设请参见问题 4）。
 4.  主要假设是样本是**独立同分布**（**IID**）的。
 5.  性别可以编码为数字特征（例如，单热编码）； 因此，我们需要考虑两种可能性。 如果在属性之间不存在性别，而其他特征与性别不相关，则聚类结果是完全合理的。 如果存在性别（作为通用聚类方法）是基于样本之间的相似性的，则 50/50 的结果表示性别不是歧视性特征。 换句话说，给定两个随机选择的样本，它们的相似性不受性别影响（或受到轻微影响），因为其他特征占主导。 例如，在这种特殊情况下，平均分数或年龄有较大的差异，因此它们的影响更大。
 6.  我们可以预期会有更紧凑的群体，其中每个主要特征的范围都较小。 例如，一个小组可以包含 13-15 岁的学生，并带有所有可能的分数，依此类推。 另外，我们可以观察基于单个特征的细分（例如年龄，平均分数等）。 最终结果取决于向量的数值结构，距离函数，当然还取决于算法。
@@ -29,13 +29,13 @@


 1.  曼哈顿距离与 Minkowski 距离相同，其中`p = 1`； 因此，我们希望观察到更长的距离。
-2.  没有; 收敛速度主要受质心的初始位置影响。
+2.  否; 收敛速度主要受质心的初始位置影响。
 3.  是; K 均值设计用于凸簇，而对于凹簇则性能较差。
 4.  这意味着所有聚类（样本百分比可忽略不计）分别仅包含属于同一类别（即具有相同真实标签）的样本。
 5.  它表示真实标签分配和分配之间的中等/强烈的负差异。 这个值是明显的负条件，不能接受，因为绝大多数样本已分配给错误的聚类。
 6.  不可以，因为调整后的 Rand 分数是根据真实情况得出的（也就是说，预期的簇数是固定的）。
 7.  如果所有基本查询都需要相同的时间，则会在`60 - (2×4) - 2 = 50`秒内执行它们。 因此，它们每个都需要`50/100 = 0.5`秒。 在叶子大小`= 50`的情况下，我们可以期望将 50-NN 查询的执行时间减半，而对基本查询没有影响。 因此，可用于基本查询的总时间变为`60 - (2×2) - 2 = 54`秒。 因此，我们可以执行 108 个基本查询。
-8.  没有; 球树是一种不会遭受维度诅咒的数据结构，其计算复杂度始终为`O(N log M)`。
+8.  否; 球树是一种不会遭受维度诅咒的数据结构，其计算复杂度始终为`O(N log M)`。

 9.  高斯`N([-1.0, 0.0], diag[0.1, 0.2])`和`N([-0.8, 0.0], diag[0.3, 0.3])`重叠（即使所得聚类非常伸展），而第三个则足够远（考虑均值和方差），可以被单独的聚类捕获。 因此，最佳簇大小为 2，而 K 均值很难将大斑点正确地分为两个内聚分量（特别是对于大量样本）。
 10.  VQ 是一种有损压缩方法。 仅当语义没有通过小或中转换而改变时，才可以使用它。 在这种情况下，如果不修改基础语义就不可能与另一个交换令牌。
@@ -48,11 +48,11 @@



-1.  没有; 在凸集中，给定两个点，连接它们的线段始终位于该集内。
+1.  否; 在凸集中，给定两个点，连接它们的线段始终位于该集内。
 2.  考虑到数据集的径向结构，RBF 内核通常可以解决该问题。
 3.  在`ε = 1.0`的情况下，许多点无法达到密度。 当球的半径减小时，我们应该期望有更多的噪点。
-4.  没有; k 型参量可以采用任何度量。
-5.  没有; DBSCAN 对几何不敏感，并且可以管理任何种类的群集结构。
+4.  否; K 中心点可以采用任何度量。
+5.  否; DBSCAN 对几何不敏感，并且可以管理任何种类的群集结构。
 6.  我们已经表明，小批量 K 均值的性能稍差于 K 均值。 因此，答案是肯定的。 使用批量算法可以节省内存。
 7.  考虑到噪声的方差为`σ^2 = 0.005 → σ ≈ 0.07`，它比聚类标准差小约 14 倍，因此，我们不能期望这么多的新分配（80%）在稳定的群集配置中。

@@ -67,12 +67,12 @@
 1.  在凝聚方法中，该算法从每个样本（被视为一个集群）开始，然后继续合并子集群，直到定义了一个集群。 在分裂方法中，该算法从包含所有样本的单个簇开始，然后通过拆分将其进行到每个样本组成一个簇为止。

 2.  最近的点是`(0, 0)`和`(0, 1)`，因此单键是`L[s](a, b) = 1`。 最远的点是`(-1, -1)`和`(1, 1)`，因此完整的链接是`L[c(a, b) = 2√2`。
-3.  没有; 树状图是给定度量和链接的层次聚类过程的树表示。
-4.  在聚集聚类中，树状图的初始部分包含所有样本作为自治聚类。
+3.  否; 树状图是给定度量和链接的层次聚类过程的树表示。
+4.  在凝聚聚类中，树状图的初始部分包含所有样本作为自治聚类。
 5. `y`轴报告差异。
 6.  将较小的群集合并为较大的群集时，差异性会增加。
-7.  是; 那就是共情矩阵的定义。
-8.  连接性约束允许施加约束，因此将约束合并到聚合过程中，从而迫使其将某些元素保留在同一群集中。
+7.  是; 那就是 cophenetic 矩阵的定义。
+8.  连通性约束允许施加约束，因此将约束合并到聚合过程中，从而迫使其将某些元素保留在同一群集中。



@@ -83,7 +83,7 @@


 1.  硬聚类基于固定分配； 因此，样本`x[i]`将始终属于单个群集。 相反，相对于每个聚类，软聚类返回一个度向量，该向量的元素表示隶属度（例如，（0.1、0.7、0.05、0.15））。
-2.  没有; 模糊 c 均值是 K 均值的扩展，它不适用于非凸几何。 但是，软分配可以评估相邻群集的影响。
+2.  否; 模糊 c 均值是 K 均值的扩展，它不适用于非凸几何。 但是，软分配可以评估相邻群集的影响。
 3.  主要假设是，数据集是从可以用多个高斯分布的加权和有效地近似的分布中得出的。
 4.  这意味着第一个模型的参数数量是第二个模型的两倍。
 5.  第二个是因为它可以用更少的参数实现相同的结果。
@@ -120,7 +120,7 @@
 3.  不，他们不是。 PCA 之后的协方差矩阵不相关，但不能保证统计独立性。
 4.  是; `Kurt(X)`的分布是超高斯分布，因此达到峰值且尾巴很重。 这样可以保证找到独立的组件。
 5.  由于`X`包含负数，因此无法使用 NNMF 算法。
-6.  没有; 由于字典有 10 个元素，因此意味着文档由许多重复出现的术语组成，因此字典不够完整（ `10 < 30`）。
+6.  否; 由于字典有 10 个元素，因此意味着文档由许多重复出现的术语组成，因此字典不够完整（ `10 < 30`）。
 7.  样本`(x, y) ∈ R^2`通过二次多项式变换为`(ax, by, cx^2, dy^2, exy, f) ∈ R^6`。


@@ -132,10 +132,10 @@


 1.  不，他们没有。 编码器和解码器都必须在功能上对称，但是它们的内部结构也可以不同。
-2.  没有; 输入信息的一部分在转换过程中丢失，而其余部分则在代码输出`Y`和自编码器变量之间分配，该变量与基础模型一起对所有转换进行编码。
+2.  否; 输入信息的一部分在转换过程中丢失，而其余部分则在代码输出`Y`和自编码器变量之间分配，该变量与基础模型一起对所有转换进行编码。
 3.  当`min(sum(z[i]))= 0`和`min(sum(z[i]))= 128`时，等于 36 的总和既可以表示稀疏（如果标准差较大），也可以表示具有较小值的均匀分布（当标准差接近零时）。
 4.  当`sum(z[i]) = 36`时，`std(z[i]) = 0.03`意味着大多数值都围绕`0.28 * (0.25÷0.31)`，该代码可以视为密集代码。
-5.  没有; 一个 Sanger 网络（以及 Rubner-Tavan 网络）需要输入样本`x[i] ∈X`。
+5.  否; 一个 Sanger 网络（以及 Rubner-Tavan 网络）需要输入样本`x[i] ∈X`。
 6.  从最大特征值到最小特征值（即从第一个主成分到最后一个主成分）以降序提取成分。 因此，无需进一步分析来确定其重要性。
 7.  是; 从最后一层开始，可以对每个内部层的值进行采样，直到第一层为止。 通过选择每个概率向量的`argmax(·)`获得最可能的输入值。

@@ -147,7 +147,7 @@



-1.  没有; 生成器和判别器在功能上是不同的。
+1.  否; 生成器和判别器在功能上是不同的。
 2.  不，不是这样，因为判别器的输出必须是一个概率（即`p[i] ∈ (0, 1)`）。
 3.  是; 这是正确的。 判别器可以学习非常快地输出不同的概率，，其损失函数的斜率可以变得接近于 0，从而减小了提供给生成器的校正反馈的幅度。
 4.  是; 通常会比较慢。