2021-01-23 21:54:19

0c354932 · wizardforcel · f04b23ca · 0c354932 · 0c354932 · 0c354932
6 changed file
--- a/new/handson-1shot-learn-py/2.md
+++ b/new/handson-1shot-learn-py/2.md
 # 基于指标的方法

-深度学习已在各种应用中成功实现了最先进的性能，例如图像分类，对象检测，语音识别等。 但是，深度学习架构在被迫对几乎没有监督信息的数据进行预测时常常会失败。 众所周知，数学是所有机器学习和深度学习模型的基础。 我们使用数据的数学表示将数据和目标传达给机器。 这些表示形式可以有多种形式，特别是如果我们想学习复杂的任务（例如疾病检测），或者如果我们希望我们的架构根据不同的目标学习表示形式，例如，计算两个图像之间的相似度，我们可以 计算欧几里得距离和余弦相似度。
+深度学习已在各种应用中成功实现了最先进的性能，例如图像分类，对象检测，语音识别等。 但是，深度学习架构在被迫对几乎没有监督信息的数据进行预测时常常会失败。 众所周知，数学是所有机器学习和深度学习模型的基础。 我们使用数据的数学表示将数据和目标传达给机器。 这些表示形式可以有多种形式，特别是如果我们想学习复杂的任务（例如疾病检测），或者如果我们希望我们的架构根据不同的目标学习表示形式，例如，计算两个图像之间的相似度，我们可以计算欧几里得距离和余弦相似度。

 在本章中，我们将学习可以从较小的数据集中学习正确的数学表示形式的深度学习架构。 总体而言，我们的目标是创建一种无需大量数据收集或训练过程即可概括不熟悉类别的架构。

@@ -153,7 +153,7 @@

 ![](img/8d24886d-e1ca-4322-848e-32251f118edd.png)

-三重损失函数的收敛性优于对比损失函数，因为它一次考虑了三个示例，并保持了**正**和**负**点之间的距离，如上图所示，从而可以学习决策 边界损失更准确，而对比损失函数一次只考虑成对示例，因此从某种意义上讲，它更贪婪，这会影响决策边界。
+三重损失函数的收敛性优于对比损失函数，因为它一次考虑了三个示例，并保持了**正**和**负**点之间的距离，如上图所示，从而可以更准确地学习决策边界，而对比损失函数一次只考虑成对示例，因此从某种意义上讲，它更贪婪，这会影响决策边界。

 # 应用领域

@@ -179,7 +179,7 @@
 *   **标签集**：这是所有可能类别的样本集。 例如，如果我们使用 ImageNet 数据集，它包含数千个类别（例如猫，狗和鸟），但是作为标签集的一部分，我们将仅使用其中的五个类别。
 *   **支持集**：这是我们标签集类别的采样输入数据点（例如，图像）。
 *   **批量**：类似于支持集，批量也是由标签集类别的输入数据点组成的采样集。
-*   **`N`路`k`次方法**：此处，`N`是支撑集的大小，或更简单地说，是 训练集中可能类别的数量。 例如，在下图中，我们有四种不同类型的狗品种，并且我们计划使用 5 次学习方法，即每种类别至少有五个示例。 这将使我们的匹配网络架构使用 *4 路 5 次学习*，如下图所示：
+*   **`N`路`k`次方法**：此处，`N`是支撑集的大小，或更简单地说，是训练集中可能类别的数量。 例如，在下图中，我们有四种不同类型的狗品种，并且我们计划使用 5 次学习方法，即每种类别至少有五个示例。 这将使我们的匹配网络架构使用 *4 路 5 次学习*，如下图所示：

 ![](img/3118bc82-3dc7-473f-8e77-f57c6f17b84e.png)

@@ -229,9 +229,9 @@ VGG16 和 Inception Net 是深度学习架构，它们在 ImageNet 数据集上

 匹配网络指出了上述简单化非参数方法的两个问题：

-*   **问题 1**：即使分类策略`P(y_hat | x_hat, S)`已设定条件，训练集图像的嵌入也彼此独立，而不认为它们是支持集的一部分 在支持集上。
+*   **问题 1**：即使分类策略`P(y_hat | x_hat, S)`已设定条件，训练集图像的嵌入也彼此独立，而不认为它们是支持集的一部分。

-**解决方案**：匹配网络使用**双向长短期记忆**（**LSTM**）在整个支持范围内启用每个数据点的编码 组。 通常，LSTM 用于理解数据序列，因为它们能够使用其单元内部的门保持整个数据的上下文。 同样，使用双向 LSTM 可以更好地理解数据序列。 匹配网络使用双向 LSTM 来确保支持集中一幅图像的嵌入将具有所有其他图像嵌入的上下文。
+**解决方案**：匹配网络使用**双向长短期记忆**（**LSTM**）在整个支持集范围内启用每个数据点的编码。 通常，LSTM 用于理解数据序列，因为它们能够使用其单元内部的门保持整个数据的上下文。 同样，使用双向 LSTM 可以更好地理解数据序列。 匹配网络使用双向 LSTM 来确保支持集中一幅图像的嵌入将具有所有其他图像嵌入的上下文。

 *   **问题 2**：如果要计算两个数据点之间的相似度，首先需要将它们放入相同的嵌入空间。 因此，支持集`S`必须能够有助于提取测试图像嵌入。

@@ -250,7 +250,7 @@ VGG16 和 Inception Net 是深度学习架构，它们在 ImageNet 数据集上
 1.  作为预处理数据的一部分，将创建`k`示例的支持集`S`作为`(x[i], y[i]), i = 1 ... k`。
 2.  获取支持集后，它会通过标准特征提取层（`g`），例如 VGG 或 Inception。
 3.  在提取支持集（`S`）的嵌入（`g`层的输出）之后，将它们放入双向 LSTM 架构中。 这有助于模型学习支持集中存在的标签的概率分布。
-4.  与训练集类似，查询图像（即测试图像）的全上下文嵌入提取也经历了组合的双向 LSTM 架构，同时从`g(x[i)`获得了贡献，从而 映射到相同的嵌入空间。
+4.  与训练集类似，查询图像（即测试图像）的全上下文嵌入提取也经历了组合的双向 LSTM 架构，同时从`g(x[i)`获得了贡献，从而映射到相同的嵌入空间。
 5.  从这两种架构获得输出后，这些输出将通过 softmax 层（也称为注意内核步骤`a(h[k-1], g(x[i]))`）传递。

 6.  然后，从`g(x[i])`和`f'(x)`获得的输出用于检查查询图像属于哪个类别：

--- a/new/handson-1shot-learn-py/3.md
+++ b/new/handson-1shot-learn-py/3.md
@@ -22,7 +22,7 @@
 *   神经网络仅接受固定大小的输入，这在输入长度可变的现实生活中不会有太大帮助。
 *   神经网络无法将值绑定到我们已知的两个信息系统（人脑和计算机）大量使用的数据结构中的特定位置。 简单来说，在神经网络中，我们无法将特定的权重设置到特定的位置。

-第一个问题可以通过在各种任务上实现最先进性能的 RNN 来解决。 通过查看**神经图灵机**（**NTM**）可以解决第二个问题。 在本节中，我们将讨论 NTM 的总体架构，这是理解**记忆增强神经网络**（**MANN**）的基础，这些神经网络修改了 NMT 的架构并使之适用于一个 镜头的学习任务。
+第一个问题可以通过在各种任务上实现最先进性能的 RNN 来解决。 通过查看**神经图灵机**（**NTM**）可以解决第二个问题。 在本节中，我们将讨论 NTM 的总体架构，这是理解**记忆增强神经网络**（**MANN**）的基础，这些神经网络修改了 NMT 的架构并使之适用于一次学习任务。

 # NTM 的架构

@@ -36,7 +36,7 @@

 # 建模

-在时间步`t`（`M[t]`）的存储矩阵具有`R`行和`C`列。 有一种注意力机制，用于指定注意头应该读取/写入的内存位置。 控制器生成的注意力向量是长度`R`的向量，称为**权重向量**（`w[t]`），其中 向量`w[t](i)`的条目是存储库第`i`行的权重。 权重向量已标准化，这意味着它满足以下条件：*
+在时间步`t`（`M[t]`）的存储矩阵具有`R`行和`C`列。 有一种注意力机制，用于指定注意头应该读取/写入的内存位置。 控制器生成的注意力向量是长度`R`的向量，称为**权重向量**（`w[t]`），其中向量`w[t](i)`的条目是存储库第`i`行的权重。 权重向量已标准化，这意味着它满足以下条件：*

 ![](img/eed93f02-4abc-465e-b009-2912f63ccb39.png)

@@ -68,7 +68,7 @@

 ![](img/e9fa7fd5-b836-4dc6-a320-74200df1183a.png)

-*   第二阶段是基于位置的寻址，其重点是从特定存储位置读取/写入数据，而不是在阶段 1 中完成的位置值。其后，标量参数`g[t] ∈ (0, 1)`称为插值 门，将内容权重向量`w[t]^c`与前一个时间步的权重向量`w[t-1]`混合，以产生门控权重`w[t]^g`。 这使系统能够学习何时使用（或忽略）基于内容的寻址：
+*   第二阶段是基于位置的寻址，其重点是从特定存储位置读取/写入数据，而不是在阶段 1 中完成的位置值。其后，标量参数`g[t] ∈ (0, 1)`称为插值门，将内容权重向量`w[t]^c`与前一个时间步的权重向量`w[t-1]`混合，以产生门控权重`w[t]^g`。 这使系统能够学习何时使用（或忽略）基于内容的寻址：

 ![](img/906b96f2-1a9f-4b09-ad23-f551d40f82d5.png)


--- a/new/handson-1shot-learn-py/4.md
+++ b/new/handson-1shot-learn-py/4.md
@@ -93,13 +93,13 @@ LSTM 元学习器是一种元学习。 LSTM 元学习器分为两个阶段：
 *   **元学习器**：在此阶段，模型着重于学习跨各种任务的常识。
 *   **基础学习器**：在基础学习器中，模型尝试优化以学习任务特定目标的参数。

-LSTM 元学习器的关键思想是训练 LSTM 单元以*学习我们原始任务的更新规则*。 用元学习框架的术语来说， **LSTM 细胞**将用作元学习器，而*特定于任务的目标*（例如狗的品种分类）将被使用 成为*基础学习器*。
+LSTM 元学习器的关键思想是训练 LSTM 单元以*学习我们原始任务的更新规则*。 用元学习框架的术语来说， **LSTM 细胞**将用作元学习器，而*特定于任务的目标*（例如狗的品种分类）将被用作*基础学习器*。

 现在，问题来了，为什么我们要使用 LSTM 单元？ LSTM 元学习器的作者做出了一个关键的观察，即 LSTM 中的单元状态更新与反向传播中的基于梯度的更新相似，可用于学习基本学习器目标的更新规则：

 ![](img/7f93507c-8eba-4a42-a6f5-8eb229b65be1.png)

-LSTM 在各种门的帮助下存储信息历史记录，如上图所示。 我们还知道，**随机梯度下降**（**SGD**）有多种变化形式，例如动量，RMSprop，Adam 等，它们实质上存储了有关过去学习的信息（在 梯度形式）以实现更好的优化。 因此，从逻辑上讲，可以将 LSTM 单元视为一种更好的优化策略，该策略使模型能够捕获特定任务的短期知识和公共长期知识。
+LSTM 在各种门的帮助下存储信息历史记录，如上图所示。 我们还知道，**随机梯度下降**（**SGD**）有多种变化形式，例如动量，RMSprop，Adam 等，它们实质上存储了有关过去学习的信息（以梯度形式）以实现更好的优化。 因此，从逻辑上讲，可以将 LSTM 单元视为一种更好的优化策略，该策略使模型能够捕获特定任务的短期知识和公共长期知识。

 在下一部分中，我们将了解架构，LSTM 单元背后的逻辑以及权重更新算法。

@@ -137,7 +137,7 @@ LSTM 在各种门的帮助下存储信息历史记录，如上图所示。 我

 在一般的深度学习设置中，要在给定数据集`D`上训练模型，我们将数据集分为三个部分：训练，验证和测试集。 但是在元学习设置中，我们首先将数据集划分为特定于任务的集（例如，猫品种分类和狗品种分类），称为**元集**，例如`D[n]`。 对于每个`D ∈ D[n]`由`D_n_train`和`D_n_test`组成，因此对于`K`次学习，每个`D_n_train`由`K * N`个示例组成，其中`N`是类数。

-此后，`D_n_train`进一步分为三个部分：`D_meta_train`，`D_meta_val`，`D_meta_test`。 在这里，目标是使用`D_meta_train`训练*学习算法*，该算法可以将任何特定于任务的集合作为训练集`D_train`并产生 更好的分类器（学习器）。
+此后，`D_n_train`进一步分为三个部分：`D_meta_train`，`D_meta_val`，`D_meta_test`。 在这里，目标是使用`D_meta_train`训练*学习算法*，该算法可以将任何特定于任务的集合作为训练集`D_train`并产生更好的分类器（学习器）。

 # 算法–伪代码实现


--- a/new/handson-1shot-learn-py/5.md
+++ b/new/handson-1shot-learn-py/5.md
@@ -32,11 +32,11 @@

 ![](img/f1da3c33-07dc-4b1d-8a75-aa4162729d8c.png)

-我们可以从数据的右侧删除`P(data)`，因为它不依赖于`θ`来进行优化，因此也可以进行优化 问题如下：
+我们可以从数据的右侧删除`P(data)`，因为它不依赖于`θ`来进行优化，因此优化问题如下：

 ![](img/d5a1d317-b037-40b4-b612-10d2e168e328.png)

-在非概率视图（也称为**期望最大化框架**）中，右侧等式中的术语`p(Data | θ)`和`P(θ)`，分别成为损失函数和正则化。 在给定的概率设置中，相同的术语称为（给定`θ`的数据的）**可能性**和**先验**（在参数空间中的先验信念）。 这种概率优化称为**最大后验**（**MAP**）估计，因为我们正在从数据中最大化模型参数的后验分布。 但是，贝叶斯统计不相信 MAP 估计，因为它可能给我们有关最终学习参数的错误结果。 一个不同的数据集很有可能会给我们完全不同的学习参数，这些参数在参数空间中与从原始数据集中学习的参数相距甚远。 这就是贝叶斯学习试图解决的问题。 它显式地模拟参数空间中的不确定性。
+在非概率视图（也称为**期望最大化框架**）中，右侧等式中的术语`p(Data | θ)`和`P(θ)`，分别成为损失函数和正则化。 在给定的概率设置中，相同的术语称为（给定`θ`的数据的）**似然**和**先验**（在参数空间中的先验信念）。 这种概率优化称为**最大后验**（**MAP**）估计，因为我们正在从数据中最大化模型参数的后验分布。 但是，贝叶斯统计不相信 MAP 估计，因为它可能给我们有关最终学习参数的错误结果。 一个不同的数据集很有可能会给我们完全不同的学习参数，这些参数在参数空间中与从原始数据集中学习的参数相距甚远。 这就是贝叶斯学习试图解决的问题。 它显式地模拟参数空间中的不确定性。

 考虑给定左撇子和右撇子人数据集的参数分布示例。 下图显示了分布：

@@ -52,7 +52,7 @@

 ![](img/169cea75-5669-4783-a7c4-a4b77f185c91.png)

-此图中`S`，`R`，`L`，`W`和`T`的随机变量的联合分布 通过一个简单的链式规则可分为多个分布：
+此图中`S`，`R`，`L`，`W`和`T`的随机变量的联合分布，通过一个简单的链式规则可分为多个分布：

 ![](img/9511985a-1153-4134-8e00-3c8126a5dc83.png)

@@ -101,7 +101,7 @@

 ![](img/a87b8aac-2728-4f0f-bfb7-9e588762ceca.png)

-这三个生成过程分别是类型生成（`P(ψ)`），标记生成（`P(θ[m] | ψ[m])`）和图像生成（`P(I[m] | θ[m])`），分别是 在下图中用其伪代码进行了讨论：
+这三个生成过程分别是类型生成（`P(ψ)`），标记生成（`P(θ[m] | ψ[m])`）和图像生成（`P(I[m] | θ[m])`），分别在下图中用其伪代码进行了讨论：

 ![](img/16ff2f50-55be-44fd-8da5-661c7c7ea3a6.png)

@@ -218,7 +218,7 @@ K 次测试时间`P(y*, x*, D, W_tilde_MAP) = ∫p(y* | x*, W)P(W | D, W_tilde_M

 # 总结

-在本章中，我们学习了在贝叶斯框架内开发概率模型的方法，该模型可以极大地减少数据需求并达到人类水平的性能。 从前面讨论的手写字符的示例中，我们还观察到概率模型不仅可以学习如何对字符进行分类，还可以学习基本概念，即以新的方式应用获得的知识，例如生成相似的字符并生成全新的 集合中只有几个字符的字符，以及将字符解析为部分和关系。
+在本章中，我们学习了在贝叶斯框架内开发概率模型的方法，该模型可以极大地减少数据需求并达到人类水平的性能。 从前面讨论的手写字符的示例中，我们还观察到概率模型不仅可以学习如何对字符进行分类，还可以学习基本概念，即以新的方式应用获得的知识，例如从集合中仅有的几个字符生成全新的字符，以及将字符解析为部分和关系。

 但是，人类学习器需要从具有丰富重叠结构的许多经验中获得的广泛的先前经验来完成新的学习任务。 为了模仿人类学习，图形结构需要具有更多的依赖性，并且需要在模型中内置丰富的归纳偏差。 还应注意，人类在很小的时候就对物体的物理特性（形状，运动和其他力学）有很好的认识。 学习模型不会隐式地捕获对象的直观物理特性，也不会显式地将其嵌入对象中。 直观物理（类似于游戏引擎中嵌入的物理）与概率模型和深度学习的集成，是朝着更健壮的单发学习迈出的重要一步。 最后，由于先验知识以强先验和图形结构的形式嵌入到概率模型中，因此与必须从头学习任务的深度学习模型相比，它们的数据消耗更少。 但这是以在概率模型中进行有效推理的计算挑战为代价的。 在推断时，这些模型必须搜索巨大的概率空间，这对于现代计算机而言是不实际的。 相反，深度学习模型具有精确且计算上便宜的推断。 最近的工作通过使用前馈映射对*摊销*概率推理计算来解决图形模型中的这一推理挑战，可以使用成对的生成/识别网络来学习。 这提供了另一条有希望的研究领域，使深度学习和概率模型更加接近。


--- a/new/handson-1shot-learn-py/6.md
+++ b/new/handson-1shot-learn-py/6.md
@@ -14,7 +14,7 @@

 基于度量的学习是进行单次学习的较旧方法之一。 尽管该区域较旧，但仍在探索许多方面。 一个很好的例子是关于[《为短时学习重新研究基于局部描述符的图像到类度量》](https://arxiv.org/abs/1903.12290)主题的研究工作。 在本文中，作者提出了一种卷积神经网络架构，称为 **D4N**（**深度最近邻神经网络**），该架构可提取图像级特征。 它与其他神经网络架构的主要区别是用基于局部描述符的图像到类度量替代了最后一层。

-[《通过类别遍历查找与几次任务学习相关的任务相关特征》](https://arxiv.org/abs/1905.11116)也为改进度量学习方法做出了贡献，方法是引入 一个插件框架。 在本文中，作者讨论了众所周知的度量学习方法（例如连体网络和匹配网络）如何一次只关注一个任务，而不是整个学习所有任务。 **类别遍历模块**（**CTM**）插件组件通过完成所有支持任务来学习重要的尺寸特征。 CTM 在集中器和投影仪单元的帮助下，为相似类别提取通用特征嵌入，并在不同类别中提取唯一特征。 使用 CTM 的输出，我们可以在元学习器之前添加一个强大的功能，这可以使我们更快更好地进行优化。 通过使用此框架，他们显示了基于度量的学习方法的显着改进。
+[《通过类别遍历查找与几次任务学习相关的任务相关特征》](https://arxiv.org/abs/1905.11116)也为改进度量学习方法做出了贡献，方法是引入一个插件框架。 在本文中，作者讨论了众所周知的度量学习方法（例如连体网络和匹配网络）如何一次只关注一个任务，而不是整个学习所有任务。 **类别遍历模块**（**CTM**）插件组件通过完成所有支持任务来学习重要的尺寸特征。 CTM 在集中器和投影仪单元的帮助下，为相似类别提取通用特征嵌入，并在不同类别中提取唯一特征。 使用 CTM 的输出，我们可以在元学习器之前添加一个强大的功能，这可以使我们更快更好地进行优化。 通过使用此框架，他们显示了基于度量的学习方法的显着改进。

 在对象检测和语义分割领域也有一些显着贡献。 让我们讨论其中的两种方法。

@@ -22,11 +22,11 @@

 [《RepMet：用于分类和几次对象检测的基于代表的度量学习》](https://arxiv.org/abs/1806.04728)是一种小样本学习对象检测方法。 在本文中，作者提出了一种用于对象区域建议的特征金字塔网络的变体，并且在其顶部，他们添加了基于度量的分类器，该分类器根据与学习的类代表的距离对建议的区域进行分类。 他们还通过在 ImageNet 数据集上建立了用于少发物体检测任务的基准，为研究界做出了贡献。

-同样，[《具有共同注意和共同激励的一次目标检测》](https://arxiv.org/abs/1911.12529)也可以在建议的区域基础上进行过滤 使用传统的视觉方法。 在这项工作中，作者假设将提供目标图像和查询图像。 例如，如果我们要检测笔架，则目标图像将是笔架，而查询图像将是桌子上的笔架。 在这种方法中，我们首先从目标图像中提取有关对象的空间信息，然后从查询图像中提取上下文对象。 上下文和空间信息在确定对象方面起着重要作用。 例如，如果有一张桌子，出现笔架的可能性就会增加。 这类似于人类使用上下文学习的方式。 该模型还通过将输入传递给注意力模型来利用上下文的帮助。
+同样，[《具有共同注意和共同激励的一次目标检测》](https://arxiv.org/abs/1911.12529)也可以使用传统的视觉方法，在建议的区域基础上进行过滤。 在这项工作中，作者假设将提供目标图像和查询图像。 例如，如果我们要检测笔架，则目标图像将是笔架，而查询图像将是桌子上的笔架。 在这种方法中，我们首先从目标图像中提取有关对象的空间信息，然后从查询图像中提取上下文对象。 上下文和空间信息在确定对象方面起着重要作用。 例如，如果有一张桌子，出现笔架的可能性就会增加。 这类似于人类使用上下文学习的方式。 该模型还通过将输入传递给注意力模型来利用上下文的帮助。

 # 小样本领域中的图像分割

-研究工作[《CANet：具有迭代细化和专注的小样本学习的类不可知分割网络》](https://arxiv.org/abs/1903.02351)证明了潜在的增长 医学影像行业。 在本文中，作者提出了一个用于语义分割的两级框架：**密集比较模块**（**DCM**）和**迭代优化模块**（**IOM**）。 DCM 通过使用通用的 ResNet 架构提取特征，在训练集示例和测试集示例之间进行了密集的特征比较，而 IOM 通过残差块加 CNN 和**粗糙的空间金字塔池**（**ASPP**）模块。
+研究工作[《CANet：具有迭代细化和专注的小样本学习的类不可知分割网络》](https://arxiv.org/abs/1903.02351)证明了医学影像行业的潜在增长。 在本文中，作者提出了一个用于语义分割的两级框架：**密集比较模块**（**DCM**）和**迭代优化模块**（**IOM**）。 DCM 通过使用通用的 ResNet 架构提取特征，在训练集示例和测试集示例之间进行了密集的特征比较，而 IOM 通过残差块加 CNN 和**粗糙的空间金字塔池**（**ASPP**）模块。

 同样， [《PANet：具有原型对齐功能的几次语义分割》](https://arxiv.org/abs/1908.06391)通过以下方式解决了少数镜头分割问题： 度量学习方法。 本文还提出了一种对齐网络，以更好地利用从支持集中提取的信息。 在 PANet 中，最初，网络从特定嵌入空间内的一些支持图像中学习特定于类别的表示，然后通过将每个像素与学习到的特定于类别的表示进行匹配，对查询/目标图像执行分割。 通过使用这种方法，PANet 可以利用支持集中的重要见解，并在几次分割的情况下提供更可靠的概括。

@@ -71,7 +71,7 @@

 ![](img/d2619e72-ed14-4933-9ca1-7d658c79f2f2.png)

-换句话说，在一个数据集上训练的神经网络模型可以通过对前一个网络进行微调而用于其他数据集，就像我们如何使用在不同域数据集（例如 MNIST 数据集）上训练的连体网络来提取更好的特征一样 用于签名匹配，手写匹配等。 迁移学习在深度学习领域引起了很多关注，并已被证明对于许多应用非常有用。 但是，由于数据限制，我们无法在制造，医药，化学等非常见领域中使用它。
+换句话说，在一个数据集上训练的神经网络模型可以通过对前一个网络进行微调而用于其他数据集，就像我们如何使用在不同域数据集（例如 MNIST 数据集）上训练的连体网络来提取更好的特征，用于签名匹配，手写匹配等。 迁移学习在深度学习领域引起了很多关注，并已被证明对于许多应用非常有用。 但是，由于数据限制，我们无法在制造，医药，化学等非常见领域中使用它。

 # 应用领域


--- a/new/handson-nlp-pt-1x/0.md
+++ b/new/handson-nlp-pt-1x/0.md
@@ -22,13 +22,13 @@

 “第 5 章”，“循环神经网络和情感分析”，介绍了循环神经网络的基础知识，并向您展示如何使用它们来建立情感神经网络分析模型。 刮。

-“第 6 章”，“用于文本分类的卷积神经网络”，介绍了卷积神经网络的基础知识，并向您展示了如何使用它们为 分类文本。
+“第 6 章”，“用于文本分类的卷积神经网络”，介绍了卷积神经网络的基础知识，并向您展示了如何使用它们来分类文本。

-“第 7 章”，“使用序列到序列神经网络的文本翻译”介绍了深度学习的序列到序列模型的概念，并介绍了如何 使用它们来构建将文本翻译成另一种语言的模型。
+“第 7 章”，“使用序列到序列神经网络的文本翻译”介绍了深度学习的序列到序列模型的概念，并介绍了如何使用它们来构建将文本翻译成另一种语言的模型。

-“第 8 章”，“使用基于注意力的神经网络构建聊天机器人”，涵盖了在序列到序列深度学习模型中使用的注意概念，并显示了 您将了解如何使用它们从头开始构建功能全面的聊天机器人。
+“第 8 章”，“使用基于注意力的神经网络构建聊天机器人”，涵盖了在序列到序列深度学习模型中使用的注意概念，并显示了如何使用它们从头开始构建功能全面的聊天机器人。

-“第 9 章”，“前方的路”涵盖了 NLP 深度学习中当前使用的一些最新模型，并探讨了一些挑战 以及 NLP 领域面临的问题。
+“第 9 章”，“前方的路”涵盖了 NLP 深度学习中当前使用的一些最新模型，并探讨了一些 NLP 领域面临的问题和挑战。

 # 要充分利用这本书