2020-08-27 23:20:09

282ce083 · wizardforcel · 38553a11 · 282ce083 · 282ce083 · 282ce083
5 changed file
--- a/docs/handson-tl-py/1.md
+++ b/docs/handson-tl-py/1.md
@@ -52,7 +52,7 @@

 # 浅层和深度学习

-因此，ML 的任务是从训练示例中识别模式，并将这些学习到的模式（或表示形式）应用于新的看不见的数据。 ML 有时也称为**浅层学习**，因为它学习*单层表示形式*的性质（在大多数情况下）。 这使我们想到*表示层是什么*和*什么是深度学习*，我们将在后续章节中回答这些问题。 让我们快速了解一下深度学习。
+因此，ML 的任务是从训练示例中识别模式，并将这些学习到的模式（或表示形式）应用于新的看不见的数据。 ML 有时也称为**浅层学习**，因为它学习*单层表示形式*的性质（在大多数情况下）。 这使我们想到“表示层是什么”和“什么是深度学习”，我们将在后续章节中回答这些问题。 让我们快速了解一下深度学习。

 深度学习是机器学习的一个子领域，它涉及从训练示例中学习连续的有意义的表示，以解决给定的任务。 深度学习与人工神经网络紧密相关，人工神经网络由一个接一个的堆叠的多层组成，这些层捕获连续的表示。

@@ -92,7 +92,7 @@ ML 是 AI 的一个流行子领域，涵盖了非常广泛的领域。 如此受

 # 分类

-简而言之，这些算法可帮助我们回答*客观*问题或*是/否*预测。 例如，这些算法在*这样的场景下有用吗*或*该肿瘤会癌变吗*等。
+简而言之，这些算法可帮助我们回答*客观*问题或*是/否*预测。 例如，“这些算法在这样的场景下有用吗”或“该肿瘤会癌变吗”等。

 形式上，分类算法的主要目标是根据输入数据点预测本质上属于分类的输出标签。 输出标签本质上是分类的； 也就是说，它们每个都属于离散的类或类别。

@@ -110,7 +110,7 @@ ML 是 AI 的一个流行子领域，涵盖了非常广泛的领域。 如此受

 # 回归

-此类监督学习算法有助于我们回答*数量*或**定量*类型的问题。* 正式而言，回归模型的关键目标是价值估算。 在这种情况下，输出标签本质上是连续的（相对于分类而言是离散的）。
+此类监督学习算法有助于我们回答*数量*或*定量*类型的问题。 正式而言，回归模型的关键目标是价值估算。 在这种情况下，输出标签本质上是连续的（相对于分类而言是离散的）。

 在回归问题的情况下，输入数据点称为*自变量*或*解释变量*，而输出称为*因变量*。 还使用训练数据样本来训练回归模型，该训练数据样本包括输入（或独立）数据点以及输出（或相关）信号。 线性回归，多元回归，回归树等是一些监督式回归算法。

@@ -177,7 +177,7 @@ ML 是 AI 的一个流行子领域，涵盖了非常广泛的领域。 如此受

 这类无监督的 ML 算法有助于我们理解事务数据集并从中提取模式。 这些算法也称为**市场篮子分析**（**MBA**），可帮助我们识别跨交易的项目之间有趣的关系和关联。

-使用关联规则挖掘，我们可以回答诸如*人们在给定商店中一起购买了哪些物品*或*购买葡萄酒的人也倾向于购买奶酪吗*之类的问题等等。 FP-growth，ECLAT 和 Apriori 是用于关联规则挖掘任务的最广泛使用的算法。
+使用关联规则挖掘，我们可以回答诸如“人们在给定商店中一起购买了哪些物品*或*购买葡萄酒的人也倾向于购买奶酪吗”之类的问题等等。 FP-growth，ECLAT 和 Apriori 是用于关联规则挖掘任务的最广泛使用的算法。

 # 异常检测

@@ -353,7 +353,7 @@ CRISP-DM 模型提供了用于 ML 和相关项目管理的高级工作流。 在

 鼓励读者访问[以下链接](https://elitedatascience.com/bias-variance-tradeoff)，以更好，更深入地了解偏差方差的折衷方法。

-考虑给我们给出一个问题陈述：*给定一个人的身高，确定他/她的体重*。 我们还为训练数据集提供了相应的身高和体重值。 数据如下图所示：
+考虑给我们给出一个问题陈述：“给定一个人的身高，确定他/她的体重”。 我们还为训练数据集提供了相应的身高和体重值。 数据如下图所示：

 ![](img/72d4d8c2-aaaa-4e37-bca5-cc30ce55657f.png)

@@ -401,7 +401,7 @@ ML 算法具有不同的参数或旋钮，可以根据项目要求和不同的

 这与模型级别参数不同，模型级别参数在训练阶段期间学习。 因此，模型调整也称为**超参数优化**。

-网格搜索，随机超参数搜索，贝叶斯优化等是执行模型调整的流行方法。 尽管模型调整非常重要，但过度调整可能会对学习过程产生不利影响。 在*偏差方差权衡*部分中讨论了与过度调整过程有关的一些问题。
+网格搜索，随机超参数搜索，贝叶斯优化等是执行模型调整的流行方法。 尽管模型调整非常重要，但过度调整可能会对学习过程产生不利影响。 在“偏差方差权衡”部分中讨论了与过度调整过程有关的一些问题。

 # 部署和监控

@@ -663,7 +663,7 @@ EDA 是一种非常强大的机制，可用于在进入 ML 的其他阶段之前
 图像或视觉数据是丰富的数据源，可以使用 ML 算法和深度学习解决几个用例。 图像数据提出了很多挑战，需要经过仔细的预处理和转换，然后才能被任何算法使用。 对图像数据执行特征工程的一些最常见方法如下：

 *   **利用元数据信息或 EXIF 数据**：诸如图像创建日期，修改日期，尺寸，压缩格式，用于捕获图像的设备，分辨率，焦距等属性。
-*   **像素和通道信息**：每个图像都可以视为像素值矩阵或（[ *m* ， *n* ， *c*）矩阵 其中 *m* 代表行数， *n* 代表列数， *c* 指向颜色通道（例如 R，G 和 B）。 然后可以根据算法和用例的要求将这种矩阵转换为不同的形状。
+*   **像素和通道信息**：每个图像都可以视为像素值矩阵或（`m, n, c`）矩阵 其中`m`代表行数，`n`代表列数，`c`指向颜色通道（例如 R，G 和 B）。 然后可以根据算法和用例的要求将这种矩阵转换为不同的形状。
 *   **像素强度**：有时很难处理具有多种颜色通道的彩色图像。 基于像素强度的特征提取依赖于基于强度的像素合并，而不是利用原始像素级别的值。
 *   **边缘检测**：可以利用相邻像素之间对比度和亮度的急剧变化来识别物体边缘。 有不同的算法可用于边缘检测。
 *   **对象检测**：我们采用边缘检测的概念并将其扩展到对象检测，然后将识别出的对象边界用作有用的功能。 同样，可以基于可用图像数据的类型来利用不同的算法。
@@ -698,7 +698,7 @@ EDA 是一种非常强大的机制，可用于在进入 ML 的其他阶段之前

 通过上一节中提到的方法对文本数据进行正确处理后，我们就可以利用以下一些技术来进行特征提取和转换为数值形式。 Jupyter Notebook `feature_engineering_text_data.ipynb`中提供了可更好地理解文本数据功能的代码片段：

-*   **词袋模型**：这是迄今为止最简单的文本数据向量化技术。 在此技术中，每个文档都表示为 *N* 维度上的向量，其中 *N* 表示预处理语料库中所有可能的单词，向量的每个组成部分要么表示存在 单词或其频率。
+*   **词袋模型**：这是迄今为止最简单的文本数据向量化技术。 在此技术中，每个文档都表示为`N`维度上的向量，其中`N`表示预处理语料库中所有可能的单词，向量的每个组成部分要么表示存在 单词或其频率。
 *   **TF-IDF model**:The bag-of-words model works under very simplistic assumptions and at certain times leads to various issues. One of the most common issues is related to some words overshadowing the rest of the words due to very high frequency, as the bag-of-words model utilizes absolute frequencies to vectorize. The **Term Frequency-Inverse Document Frequency** (**TF-IDF**) model mitigates this issue by scaling/normalizing the absolute frequencies. Mathematically, the model is defined as follows:

    `tfidf(w, D) = tf(W, D) * idf(w, D)`

--- a/docs/handson-tl-py/11.md
+++ b/docs/handson-tl-py/11.md
@@ -4,7 +4,7 @@

 –雷·亨特

-直到 1840 年代，世界都是以黑白捕获。 加布里埃尔·利普曼（Gabriel Lippmann）于 1908 年获得诺贝尔物理学奖，从而开始了色彩捕捉的时代。 1935 年，伊士曼·柯达（Eastman Kodak）推出了一体式三重彩色胶卷，称为 *Kodachrome* ，用于拍摄彩色照片。
+直到 1840 年代，世界都是以黑白捕获。 加布里埃尔·利普曼（Gabriel Lippmann）于 1908 年获得诺贝尔物理学奖，从而开始了色彩捕捉的时代。 1935 年，伊士曼·柯达（Eastman Kodak）推出了一体式三重彩色胶卷，称为 *Kodachrome*，用于拍摄彩色照片。

 彩色图像不仅与美学和美感有关，而且比黑白图像捕获的信息要多得多。 颜色是现实世界对象的重要属性，它为我们对周围世界的感知增加了另一个维度。 色彩的重要性是如此之大，以至于有许多项目为整个历史上的艺术作品和摄影作品着色。 随着 Adobe Photoshop 和 GIMP 等工具的出现，人们一直在努力地将旧照片转换为彩色照片。 reddit r / Colorization 子组是一个在线社区，人们在这里分享经验并致力于将黑白图像转换为彩色图像。

@@ -59,19 +59,19 @@ RGB 颜色空间（来源：英语 Wikipedia 的 SharkD。更高版本由 Jacobo

 # YUV

-**Y** 代表**亮度**，而 **U** 和 **V** 通道代表**色度**。 该编码方案在视频系统中被广泛使用以映射人类的颜色感知。 紫外线通道主要帮助确定红色和蓝色的相对含量。 由于该方案使用较低的带宽并且不易出现传输错误的能力，因此被广泛使用，如下所示：
+`Y`代表**亮度**，而`U`和`V`通道代表**色度**。 该编码方案在视频系统中被广泛使用以映射人类的颜色感知。 紫外线通道主要帮助确定红色和蓝色的相对含量。 由于该方案使用较低的带宽并且不易出现传输错误的能力，因此被广泛使用，如下所示：

 ![](img/d8116e36-e0dc-469c-8872-ca06a7d83261.png)

-YUV 色彩空间（来源：Tonyle，本人著作，CC BY-SA 3.0，https：//commons.wikimedia.org/w/index.php？curid = 6977944）
+YUV 色彩空间（[来源：Tonyle](https://commons.wikimedia.org/w/index.php?curid=6977944)，本人著作，CC BY-SA 3.0）

 此图像是 UV 颜色通道在 0.5 Y 处的样本表示。

 # 实验室

-这种与设备无关的色彩空间参考是由国际照明委员会开发的。 **L** 通道表示颜色的亮度（0 为黑色，而 100 为漫射白色）。
+这种与设备无关的色彩空间参考是由国际照明委员会开发的。 `L`通道表示颜色的亮度（0 为黑色，而 100 为漫射白色）。

-**A** 表示绿色和品红色之间的位置，而 **B** 表示蓝色和黄色之间的位置，如下所示：
+`A`表示绿色和品红色之间的位置，而`B`表示蓝色和黄色之间的位置，如下所示：

 ![](img/9f139cfc-8df5-44ca-b88e-db6314c11a3b.png)

@@ -91,23 +91,23 @@ LAB 色彩空间（来源：Holger kkk Everding –自己的作品，CC BY-SA 4.

 最近的工作，以及迁移学习的力量，已经巧妙地尝试利用包含灰度通道作为其组成部分之一的颜色模型。 那会响吗？ 现在让我们从另一个角度看问题陈述。

-除了无所不在的 RGB 颜色空间外，我们还讨论了 LAB。 LAB 色彩空间包含灰度值，因为 *L* 通道（用于亮度），而其余两个通道（*a* 和 *b*）赋予颜色属性。 因此，着色问题可以用以下数学方式建模：
+除了无所不在的 RGB 颜色空间外，我们还讨论了 LAB。 LAB 色彩空间包含灰度值，因为`L`通道（用于亮度），而其余两个通道（`a`和`b`）赋予颜色属性。 因此，着色问题可以用以下数学方式建模：

 ![](img/90336338-d933-4938-99f5-5a8295c39919.png)

-在上述方程式中，我们表示从给定数据将 *L* 通道映射到同一图像的 *a* 和 *b* 通道的函数。 下图说明了这一点：
+在上述方程式中，我们表示从给定数据将`L`通道映射到同一图像的`a`和`b`通道的函数。 下图说明了这一点：

 ![](img/a5eb7160-f340-4ee3-9f73-81489bf2a779.png)

 colornet 转换

-简而言之，我们已经将图像着色的任务转换为将一个通道（灰度 **L** 通道）转换为两个颜色通道（**A** 和 **B**）的任务 ，说明如下：
+简而言之，我们已经将图像着色的任务转换为将一个通道（灰度`L`通道）转换为两个颜色通道（`A`和`B`）的任务 ，说明如下：

 ![](img/9ff5a5d4-1ebb-4948-9c61-6e45b7a3a6d5.png)

 彩色图像及其组件-RGB，YUV 和 LAB

-前面的图像显示了彩色图像的 **L** ， **A** 和 **B** 通道，基于 [Zhang 及其合著者（2016）和 Federico 及其合著者（2017）](https://arxiv.org/abs/1603.08511)的作品。 我们将在接下来的部分中详细研究它们。
+前面的图像显示了彩色图像的`L`，`A`和`B`通道，基于 [Zhang 及其合著者（2016）和 Federico 及其合著者（2017）](https://arxiv.org/abs/1603.08511)的作品。 我们将在接下来的部分中详细研究它们。

 我们鼓励读者阅读标题为[《Deep Koalarization：使用 CNN 和 Inception-ResNet-v2 进行图像着色》](https://arxiv.org/abs/1712.03400)的论文。 我们要感谢 Federico Baldassarre，Diego Gonzalez-Morin 和 Lucas Rodes-Guirao 为他们的工作及其实施提供了详细的信息和见解。 我们还要感谢 Emil Wallner 使用 Keras 出色地实现了本文。

@@ -177,7 +177,7 @@ for filename in file_list:

 **卷积神经网络**（**CNN**）是令人惊叹的图像分类器。 他们通过提取位置不变特征来实现。 在此过程中，它们倾向于使输入图像失真。

-在图像着色的情况下，这种失真将是灾难性的。 为此，我们使用编码器将 *H x W* 尺寸的输入灰度图像转换为 *H / 8 x W / 8* 。 编码器通过使用零填充来保持图像通过不同层的纵横比。 以下代码片段显示了使用 Keras 的编码器：
+在图像着色的情况下，这种失真将是灾难性的。 为此，我们使用编码器将`H x W`尺寸的输入灰度图像转换为`H / 8 x W / 8`。 编码器通过使用零填充来保持图像通过不同层的纵横比。 以下代码片段显示了使用 Keras 的编码器：

 ```py
 #Encoder
@@ -265,7 +265,7 @@ VGG16 的输出重复沿编码器输出的深度轴连接。 这样可以确保

 # 解码器

-网络的最后阶段是解码器。 在网络的前两个部分中，我们利用编码器和预训练模型来学习不同的功能并生成嵌入。 融合层的输出为张量，大小为 H / 8 x W / 8 x 256，其中 *H* 和 *W* 是灰度图像的原始高度和宽度（在我们的 情况是 256 x 256）。 该输入经过一个八层解码器，该解码器使用五个卷积层和三个上采样层构建。 上采样层可帮助我们使用基本的最近邻方法将图像大小增加一倍。 以下代码片段展示了网络的解码器部分：
+网络的最后阶段是解码器。 在网络的前两个部分中，我们利用编码器和预训练模型来学习不同的功能并生成嵌入。 融合层的输出为张量，大小为`H / 8 x W / 8 x 256`，其中`H`和`W`是灰度图像的原始高度和宽度（在我们的情况是`256 x 256`）。 该输入经过一个八层解码器，该解码器使用五个卷积层和三个上采样层构建。 上采样层可帮助我们使用基本的最近邻方法将图像大小增加一倍。 以下代码片段展示了网络的解码器部分：

 ```py
 #Decoder
@@ -290,7 +290,7 @@ dec_output = UpSampling2D((2, 2))(dec_output)

 ```

-解码器网络的输出是具有两个通道的原始大小的图像，即，输出是形状为 *H xW x 2* 的张量。 最终的卷积层使用 tanh 激活函数将预测像素值保持在-1 到+1 范围内。
+解码器网络的输出是具有两个通道的原始大小的图像，即，输出是形状为`H x W x 2`的张量。 最终的卷积层使用 tanh 激活函数将预测像素值保持在 -1 到 +1 范围内。

 下图显示了具有三个组成部分的网络：

@@ -302,7 +302,7 @@ Colornet 由编码器，作为特征提取器的预训练模型，融合层和

 # 后期处理

-解决问题的技巧还没有结束。 如*预处理*小节中所述，我们将-1 到+1 之间的像素值标准化，以确保我们的网络正确训练。 同样，两个颜色通道的 LAB 颜色空间的值在-128 到+128 之间。 因此，执行以下两个后处理步骤：
+解决问题的技巧还没有结束。 如“预处理”小节中所述，我们将-1 到+1 之间的像素值标准化，以确保我们的网络正确训练。 同样，两个颜色通道的 LAB 颜色空间的值在-128 到+128 之间。 因此，执行以下两个后处理步骤：

 *   我们将每个像素值乘以 128，以将值带入所需的颜色通道范围
 *   我们将灰度输入图像与输出两通道图像连接起来，以获得幻觉的彩色图像

--- a/docs/handson-tl-py/2.md
+++ b/docs/handson-tl-py/2.md
@@ -16,7 +16,7 @@

 深度学习是 ML 的一个子字段，在其中创建数据的分层表示。 层次结构的较高级别由较低级别的表示形式组成。 更重要的是，通过完全自动化 ML 中最关键的步骤（称为**特征工程**），可以从数据中自动学习这种表示层次。 在多个抽象级别上自动学习功能允许系统直接从数据中学习输入到输出的复杂表示形式，而无需完全依赖于人工制作的功能。

-深度学习模型实际上是具有多个隐藏层的神经网络，它可以帮助创建输入数据的分层层次表示。 之所以称为*深*，是因为我们最终使用了多个隐藏层来获取表示。 用最简单的术语来说，深度学习也可以称为**分层特征工程**（当然，我们可以做更多的事情，但这是核心原理）。 深度神经网络的一个简单示例可以是具有多个隐藏层的**多层感知器**（**MLP**）。 下图中考虑基于 MLP 的人脸识别系统。 它学习到的最低级别的功能是对比度的一些边缘和图案。 然后，下一层能够使用那些局部对比的图案来模仿眼睛，鼻子和嘴唇。 最后，顶层使用这些面部特征创建面部模板。 深度网络正在组成简单的功能，以创建越来越复杂的功能，如下图所示：
+深度学习模型实际上是具有多个隐藏层的神经网络，它可以帮助创建输入数据的分层层次表示。 之所以称为*深度*，是因为我们最终使用了多个隐藏层来获取表示。 用最简单的术语来说，深度学习也可以称为**分层特征工程**（当然，我们可以做更多的事情，但这是核心原理）。 深度神经网络的一个简单示例可以是具有多个隐藏层的**多层感知器**（**MLP**）。 下图中考虑基于 MLP 的人脸识别系统。 它学习到的最低级别的功能是对比度的一些边缘和图案。 然后，下一层能够使用那些局部对比的图案来模仿眼睛，鼻子和嘴唇。 最后，顶层使用这些面部特征创建面部模板。 深度网络正在组成简单的功能，以创建越来越复杂的功能，如下图所示：

 ![](img/32d3a718-5dc8-4ced-a248-bf868068ea3c.png)

@@ -27,7 +27,7 @@
 *   **高效硬件的可用性**：摩尔定律使 CPU 具有更好，更快的处理能力和计算能力。 除此之外，GPU 在大规模计算数百万个矩阵运算中也非常有用，这是任何深度学习模型中最常见的运算。 诸如 CUDA 之类的 SDK 的可用性已帮助研究社区重写了一些可高度并行化的作业，以在少数 GPU 上运行，从而取代了庞大的 CPU 集群。 模型训练涉及许多小的线性代数运算，例如矩阵乘法和点积，这些运算在 CUDA 中非常有效地实现以在 GPU 中运行。
 *   **大型数据源的可用性和更便宜的存储**：现在，我们可以免费访问大量带标签的文本，图像和语音训练集。

-*   **用于训练神经网络的优化算法的进展**：传统上，只有一种算法可用于学习神经网络中的权重，梯度下降或**随机梯度下降**（**SGD**）。 SGD 具有一些局限性，例如卡在局部最小值和收敛速度较慢，这些都可以通过较新的算法来克服。 我们将在后面的*神经网络基础知识*的后续部分中详细讨论这些算法。
+*   **用于训练神经网络的优化算法的进展**：传统上，只有一种算法可用于学习神经网络中的权重，梯度下降或**随机梯度下降**（**SGD**）。 SGD 具有一些局限性，例如卡在局部最小值和收敛速度较慢，这些都可以通过较新的算法来克服。 我们将在后面的“神经网络基础知识”的后续部分中详细讨论这些算法。

 # 深度学习框架

@@ -217,7 +217,7 @@ ubuntu@ip:~$

 深度学习有几个主要方面，并且针对 Python 利用 GPU 支持的深度学习。 我们将尽力介绍基本知识，但可以根据需要随时参考其他在线文档和资源。 您也可以跳过这些步骤，转到下一部分，以测试服务器上是否已启用启用 GPU 的深度学习。 较新的 AWS 深度学习 AMI 设置了支持 GPU 的深度学习。

-但是，通常设置不是最好的，或者某些配置可能是错误的，因此（如果您看到深度学习没有利用您的 GPU，（从下一部分的测试中），您可能需要遍历这些知识。 您可以转到*访问深度学习云环境*和*验证深度学习环境上的 GPU 启用*部分，以检查 Amazon 提供的默认设置是否有效。 然后，您无需麻烦执行其余步骤！
+但是，通常设置不是最好的，或者某些配置可能是错误的，因此（如果您看到深度学习没有利用您的 GPU，（从下一部分的测试中），您可能需要遍历这些知识。 您可以转到“访问深度学习云环境”和“验证深度学习环境上的 GPU 启用”部分，以检查 Amazon 提供的默认设置是否有效。 然后，您无需麻烦执行其余步骤！

 首先，您需要检查是否已启用 Nvidia GPU，以及 GPU 的驱动程序是否已正确安装。 您可以利用以下命令进行检查。 请记住，p2.x 通常配备有 Tesla GPU：


--- a/docs/handson-tl-py/3.md
+++ b/docs/handson-tl-py/3.md
@@ -49,7 +49,7 @@

 深度很深的自动编码器很难训练，并且容易过度安装。 有许多改进了自动编码器训练方式的开发，例如使用**受限玻尔兹曼机**（**RBM**）进行生成式预训练。 **变分自编码器**（**VAE**）也是生成模型，与其他深层生成模型相比，VAE 在计算上易于处理且稳定，可以通过有效的反向传播算法进行估算。 它们受到贝叶斯分析中变分推理的启发。

-变分推理的概念如下：给定输入分布`x`时，输出`y`上的后验概率分布太复杂而无法使用。 因此，让我们用一个更简单的分布`q(y)`来近似复杂的后验`p(y|x)`。 在这里， `q`是从最接近后验的分布族 *Q* 中选择的。 例如，此技术用于训练**潜在 Dirichlet 分配**（**LDA**）（它们对文本进行主题建模，并且是贝叶斯生成模型）。 但是，经典变分推论的一个关键局限性是需要对似然性和先验共轭才能进行优化。 VAE 引入了使用神经网络来输出条件后验的方法（Kingma 和 Welling，2013 年），从而允许使用**随机梯度下降**（**SGD**）和反向传播来优化变分推断目标。 。 该方法称为**重新参数化技巧**。
+变分推理的概念如下：给定输入分布`x`时，输出`y`上的后验概率分布太复杂而无法使用。 因此，让我们用一个更简单的分布`q(y)`来近似复杂的后验`p(y|x)`。 在这里， `q`是从最接近后验的分布族`Q`中选择的。 例如，此技术用于训练**潜在 Dirichlet 分配**（**LDA**）（它们对文本进行主题建模，并且是贝叶斯生成模型）。 但是，经典变分推论的一个关键局限性是需要对似然性和先验共轭才能进行优化。 VAE 引入了使用神经网络来输出条件后验的方法（Kingma 和 Welling，2013 年），从而允许使用**随机梯度下降**（**SGD**）和反向传播来优化变分推断目标。 。 该方法称为**重新参数化技巧**。

 给定数据集`X`，VAE 可以生成与样本`X`类似但不一定相等的新样本。数据集`X`具有连续或离散随机变量`x`的`N`个**独立且完全相同的**样本。 假设数据是通过某种随机过程生成的，涉及一个未观察到的连续随机变量`z`。 在简单自动编码器的此示例中，变量`z`是确定性的，并且是随机变量。 数据生成是一个两步过程：

@@ -420,7 +420,7 @@ GRU 相对较新，其性能与 LSTM 相当，但由于结构更简单，参数

 ![](img/18baa50d-ad2a-47cf-8b6f-59d223cc0ea7.png)

-当分量`I`，`G`，`O`和`R`是*神经网络*时，则所得系统称为 **MemNN**。 让我们尝试通过示例质量检查系统来理解这一点。 系统将获得一系列事实和问题。 它将输出该问题的答案。 我们有以下六个文本事实和一个问题，问：*牛奶现在在哪里？*：
+当分量`I`，`G`，`O`和`R`是*神经网络*时，则所得系统称为 **MemNN**。 让我们尝试通过示例质量检查系统来理解这一点。 系统将获得一系列事实和问题。 它将输出该问题的答案。 我们有以下六个文本事实和一个问题，问：“牛奶现在在哪里？”：

 *   乔去了厨房
 *   弗雷德去了厨房
@@ -514,7 +514,7 @@ NTM 体系结构包含两个基本组件：神经网络控制器和内存。 下

 # 写操作

-每个写头接收一个*擦除向量*， `e[t]`和一个*加*向量，`a[t]`，以像 LSTM 单元一样重置和写入存储器，如下所示：`M[t](i) ← M[t](i) [1 - e[t](i) w[t](i)] + w[t](i) a[t](i)`。
+每个写头接收一个*擦除向量*， `e[t]`和一个*加性*向量，`a[t]`，以像 LSTM 单元一样重置和写入存储器，如下所示：`M[t](i) ← M[t](i) [1 - e[t](i) w[t](i)] + w[t](i) a[t](i)`。

 这是上述操作的伪代码：


--- a/docs/handson-tl-py/6.md
+++ b/docs/handson-tl-py/6.md
@@ -41,7 +41,7 @@
 *   **开放图像**：这可能是最大的可用注释数据集之一。 该数据集的版本 4 包含超过 900 万个带批注的图像。
 *   **Caltech 101 和 Caltech 256**：这些数据集包含分别跨越 101 和 256 个类别的带注释的图像。 加州理工学院 101 包含约 9,000 张图像，而加州理工学院 256 包含近 30,000 张图像。
 *   **斯坦福犬数据集**：这是一个有趣的数据集，特定于不同的犬种。 它包含 20,000 个彩色图像，涵盖 120 个不同的犬种。
-*   **MNIST**：MNIST 是有史以来最著名的视觉数据集之一，已成为 ML 爱好者的事实上的 *Hello，World* 数据集。 它包含超过 60,000 个手工标记的数字（零到九个数字）。
+*   **MNIST**：MNIST 是有史以来最著名的视觉数据集之一，已成为 ML 爱好者的事实上的 *HelloWorld* 数据集。 它包含超过 60,000 个手工标记的数字（零到九个数字）。

 上面的列表仅是冰山一角。 还有许多其他数据集可以捕获世界的不同方面。 准备这些数据集是一个痛苦且耗时的过程，但是这些数据集使深度学习在当前形式下如此成功。 鼓励读者详细研究这些和其他此类数据集，以了解它们背后的细微差别以及这些数据集为我们解决的挑战。 在本章和后续章节中，我们将利用其中的一些数据集来理解迁移学习的概念。