2020-08-15 23:38:55

5e3ef406 · wizardforcel · e8c74713 · 5e3ef406 · 5e3ef406 · 5e3ef406
9 changed file
--- a/docs/tf-1x-dl-cookbook/00.md
+++ b/docs/tf-1x-dl-cookbook/00.md
@@ -18,7 +18,7 @@

 “循环神经网络”讨论了循环神经网络。 我们将学习 RNN 的基本单元 RNN 单元。 我们将学习单词嵌入和时间排序。 我们将简要讨论 LSTM 网络。 我们将学习 seq2seq RNN。 我们将学习如何将 RNN 应用于机器翻译，生成文本和预测未来价值

-“无监督学习”，讲授无监督学习范例。 我们将学习聚类和降维。 我们将学习诸如主成分分析（PCA）之类的技术，并了解如何将其用于降维。 我们将学习 k 均值聚类。 我们将了解地形图的概念，并学习如何训练自组织图。 我们将学习受限玻尔兹曼机（RBM）。 我们将讨论 RBM 的体系结构和训练。 我们将学习如何堆叠 RBM 来构成深度信念网络，并且将学习如何对其进行训练。 我们将使用预训练和微调进行情绪检测的概念来训练 DBN。
+“无监督学习”，讲授无监督学习范例。 我们将学习聚类和降维。 我们将学习诸如主成分分析（PCA）之类的技术，并了解如何将其用于降维。 我们将学习 K 均值聚类。 我们将了解地形图的概念，并学习如何训练自组织图。 我们将学习受限玻尔兹曼机（RBM）。 我们将讨论 RBM 的体系结构和训练。 我们将学习如何堆叠 RBM 来构成深度信念网络，并且将学习如何对其进行训练。 我们将使用预训练和微调进行情绪检测的概念来训练 DBN。

 “自编码器”，使自编码器神秘化。 我们将学习自编码器及其应用。 我们将讨论可以使用自编码器的各种实际示例。 我们将讨论编码和后续重构的过程。 我们将学习重建误差。 我们将学习稀疏自编码器，即 KL 散度的概念。 我们将学习去噪自编码器，并在给定嘈杂图像的情况下使用它们来重建清晰图像。 我们将学习如何构建卷积自编码器和堆叠式自编码器。

@@ -88,7 +88,7 @@
 mysql -u root -p
 ```

-**新术语**和**重要词**以粗体显示。 您在屏幕上看到的单词，例如在菜单或对话框中，将以如下形式出现：“从“管理”面板中选择“系统信息”。
+**新术语**和**重要词**以粗体显示。 您在屏幕上看到的单词，例如在菜单或对话框中，将以如下形式出现：从“管理”面板中选择“系统信息”。

 Warnings or important notes appear like this.Tips and tricks appear like this.

--- a/docs/tf-1x-dl-cookbook/05.md
+++ b/docs/tf-1x-dl-cookbook/05.md
@@ -132,7 +132,7 @@ Note that the model uses multiple filters (with varying window sizes) to obtain

 # 还有更多...

-论文[用于句子分类的卷积神经网络](https://arxiv.org/abs/1408.5882)（Yoon Kim，EMNLP 2014）进行了广泛的实验。 尽管对超参数的调整很少，但具有一层卷积的简单 CNN 在句子分类方面的表现却非常出色。 该论文表明，采用一组静态嵌入（将在我们谈论 RNN 时进行讨论），并在其之上构建一个非常简单的 ConvNet，实际上可以显着提高情感分析的性能：
+论文[《用于句子分类的卷积神经网络》](https://arxiv.org/abs/1408.5882)（Yoon Kim，EMNLP 2014）进行了广泛的实验。 尽管对超参数的调整很少，但具有一层卷积的简单 CNN 在句子分类方面的表现却非常出色。 该论文表明，采用一组静态嵌入（将在我们谈论 RNN 时进行讨论），并在其之上构建一个非常简单的 ConvNet，实际上可以显着提高情感分析的性能：

 ![](img/15a29ebe-9ed0-4a68-a5f6-a71a16b24261.png)

@@ -140,7 +140,7 @@ Note that the model uses multiple filters (with varying window sizes) to obtain

 使用 CNN 进行文本分析是一个活跃的研究领域。 我建议看看以下文章：

-*   [从头开始理解文本](https://arxiv.org/abs/1502.01710)（张翔，Yann LeCun）。 本文演示了我们可以使用 CNN 将深度学习应用于从字符级输入到抽象文本概念的文本理解。 作者将 CNN 应用于各种大规模数据集，包括本体分类，情感分析和文本分类，并表明它们可以在不了解单词，词组，句子或任何其他句法或语义结构的情况下实现惊人的性能。 一种人类的语言。 这些模型适用于英文和中文。
+*   [《从头开始理解文本》](https://arxiv.org/abs/1502.01710)（张翔，Yann LeCun）。 本文演示了我们可以使用 CNN 将深度学习应用于从字符级输入到抽象文本概念的文本理解。 作者将 CNN 应用于各种大规模数据集，包括本体分类，情感分析和文本分类，并表明它们可以在不了解单词，词组，句子或任何其他句法或语义结构的情况下实现惊人的性能。 一种人类的语言。 这些模型适用于英文和中文。

 # 检查 VGG 预制网络了解了哪些过滤器

@@ -293,7 +293,7 @@ plt.show()

 # 还有更多...

-GitHub 上的 [keras-vis 存储库](https://github.com/raghakot/keras-vis)提供了一组很好的可视化示例，这些示例说明了如何内部检查网络，包括最近的关注点 地图，其目的是在图像经常包含其他元素（例如草）时检测图像的哪个部分对特定类别（例如老虎）的训练贡献最大。 种子文章是[深度卷积网络：可视化图像分类模型和显着性图](https://arxiv.org/abs/1312.6034)（Karen Simonyan，Andrea Vedaldi，Andrew Zisserman），并在下面报告了从 Git 存储库中提取的示例，在该示例中，网络可以自行了解*定义为*老虎的图像中最突出的部分是：
+GitHub 上的 [keras-vis 存储库](https://github.com/raghakot/keras-vis)提供了一组很好的可视化示例，这些示例说明了如何内部检查网络，包括最近的关注点 地图，其目的是在图像经常包含其他元素（例如草）时检测图像的哪个部分对特定类别（例如老虎）的训练贡献最大。 种子文章是[《深度卷积网络：可视化图像分类模型和显着性图》](https://arxiv.org/abs/1312.6034)（Karen Simonyan，Andrea Vedaldi，Andrew Zisserman），并在下面报告了从 Git 存储库中提取的示例，在该示例中，网络可以自行了解*定义为*老虎的图像中最突出的部分是：

 ![](img/6f3615d0-e3ab-462c-8f9b-d15432b4cca6.png)

@@ -305,7 +305,7 @@ GitHub 上的 [keras-vis 存储库](https://github.com/raghakot/keras-vis)提供

 # VGG16 和 VGG19

-在[用于大型图像识别的超深度卷积网络](https://arxiv.org/abs/1409.1556)（Karen Simonyan，Andrew Zisserman，2014 年）中，引入了 VGG16 和 VGG19。 该网络使用 3×3 卷积层堆叠并与最大池交替，两个 4096 个全连接层，然后是 softmax 分类器。 16 和 19 代表网络中权重层的数量（列 D 和 E）：
+在[《用于大型图像识别的超深度卷积网络》](https://arxiv.org/abs/1409.1556)（Karen Simonyan，Andrew Zisserman，2014 年）中，引入了 VGG16 和 VGG19。 该网络使用 3×3 卷积层堆叠并与最大池交替，两个 4096 个全连接层，然后是 softmax 分类器。 16 和 19 代表网络中权重层的数量（列 D 和 E）：

 ![](img/86271cbd-cee5-4a2c-927e-a71caf930080.png)

@@ -315,7 +315,7 @@ GitHub 上的 [keras-vis 存储库](https://github.com/raghakot/keras-vis)提供

 # ResNet

-ResNet 已在[用于图像识别的深度残差学习](https://arxiv.org/abs/1512.03385)（何开明，张向宇，任少青，孙健，2015）中引入。 该网络非常深，可以使用称为残差模块的标准网络组件使用标准的随机下降梯度进行训练，然后使用该网络组件组成更复杂的网络（该网络在网络中称为子网络）。
+ResNet 已在[《用于图像识别的深度残差学习》](https://arxiv.org/abs/1512.03385)（何开明，张向宇，任少青，孙健，2015）中引入。 该网络非常深，可以使用称为残差模块的标准网络组件使用标准的随机下降梯度进行训练，然后使用该网络组件组成更复杂的网络（该网络在网络中称为子网络）。

 ![](img/ce5c2306-3a96-4a2b-86ff-b25f9faafdc5.png)

@@ -323,15 +323,15 @@ ResNet 已在[用于图像识别的深度残差学习](https://arxiv.org/abs/151

 # 起始时间

-在[重新思考计算机视觉的初始架构](https://arxiv.org/abs/1512.00567)（Christian Szegedy，Vincent Vanhoucke，Sergey Ioffe，Jonathon Shlens，Zbigniew Wojna，2015 年）中引入了 Inception 。关键思想是在同一模块中具有多种大小的卷积作为特征提取并计算 1×1、3×3 和 5×5 卷积。 这些滤波器的输出然后沿着通道尺寸堆叠，并发送到网络的下一层。 下图对此进行了描述：
+在[《重新思考计算机视觉的初始架构》](https://arxiv.org/abs/1512.00567)（Christian Szegedy，Vincent Vanhoucke，Sergey Ioffe，Jonathon Shlens，Zbigniew Wojna，2015 年）中引入了 Inception 。关键思想是在同一模块中具有多种大小的卷积作为特征提取并计算 1×1、3×3 和 5×5 卷积。 这些滤波器的输出然后沿着通道尺寸堆叠，并发送到网络的下一层。 下图对此进行了描述：

 ![](img/fe01f14d-99c3-45c3-aa49-fb2bb7394454.png)

-在“重新思考计算机视觉的 Inception 体系结构”中描述了 Inception-v3，而在 [Inception-v4，Inception-ResNet 和残余连接对学习的影响](https://arxiv.org/abs/1602.07261)（Szegedy，Sergey Ioffe，Vincent Vanhoucke，Alex Alemi，2016 年）中描述了 Inception-v4。
+在“重新思考计算机视觉的 Inception 体系结构”中描述了 Inception-v3，而在[《Inception-v4，Inception-ResNet 和残余连接对学习的影响》](https://arxiv.org/abs/1602.07261)（Szegedy，Sergey Ioffe，Vincent Vanhoucke，Alex Alemi，2016 年）中描述了 Inception-v4。

 # Xception

-Xception 是 Inception 的扩展，在 [Xception：具有深度可分离卷积的深度学习](https://arxiv.org/abs/1610.02357)（FrançoisChollet，2016 年）中引入。 Xception 使用一种称为深度可分离卷积运算的新概念，该概念使其在包含 3.5 亿张图像和 17,000 个类别的大型图像分类数据集上的表现优于 Inception-v3。 由于 Xception 体系结构具有与 Inception-v3 相同数量的参数，因此性能的提高并不是由于容量的增加，而是由于模型参数的更有效使用。
+Xception 是 Inception 的扩展，在[《Xception：具有深度可分离卷积的深度学习》](https://arxiv.org/abs/1610.02357)（FrançoisChollet，2016 年）中引入。 Xception 使用一种称为深度可分离卷积运算的新概念，该概念使其在包含 3.5 亿张图像和 17,000 个类别的大型图像分类数据集上的表现优于 Inception-v3。 由于 Xception 体系结构具有与 Inception-v3 相同数量的参数，因此性能的提高并不是由于容量的增加，而是由于模型参数的更有效使用。

 # 做好准备

@@ -808,8 +808,8 @@ layer.trainable = False

 截至 2017 年，“计算机视觉”问题意味着在图像中查找图案的问题可以视为已解决，并且此问题影响了我们的生活。 例如：

-*   [皮肤科医师对具有深层神经网络的皮肤癌的分类](https://www.nature.com/nature/journal/v542/n7639/full/nature21056.html)（Andre Esteva，Brett Kuprel，Roberto A. Novoa，Justin Ko，Susan M. Swetter，Helen M. Blau & Sebastian Thrun，2017 年）使用 129450 个临床图像的数据集训练 CNN，该图像由 2032 种不同疾病组成。 他们在 21 个经过董事会认证的皮肤科医生的活检验证的临床图像上对结果进行了测试，并使用了两个关键的二元分类用例：角质形成细胞癌与良性脂溢性角化病； 恶性黑色素瘤与良性痣。 CNN 在这两项任务上均达到了与所有测试过的专家相同的性能，展示了一种能够对皮肤癌进行分类的，具有与皮肤科医生相当的能力的人工智能。
-*   论文[通过多视图深度卷积神经网络进行高分辨率乳腺癌筛查](https://arxiv.org/abs/1703.07047)（Krzysztof J. Geras，Stacey Wolfson，S。Gene Kim，Linda Moy，Kyunghyun Cho）承诺通过其创新的体系结构来改善乳腺癌的筛查过程，该体系结构可以处理四个标准视图或角度，而不会牺牲高分辨率。 与通常用于自然图像的 DCN 体系结构（其可处理 224 x 224 像素的图像）相反，MV-DCN 也能够使用 2600 x 2000 像素的分辨率。
+*   [《皮肤科医师对具有深层神经网络的皮肤癌的分类》](https://www.nature.com/nature/journal/v542/n7639/full/nature21056.html)（Andre Esteva，Brett Kuprel，Roberto A. Novoa，Justin Ko，Susan M. Swetter，Helen M. Blau & Sebastian Thrun，2017 年）使用 129450 个临床图像的数据集训练 CNN，该图像由 2032 种不同疾病组成。 他们在 21 个经过董事会认证的皮肤科医生的活检验证的临床图像上对结果进行了测试，并使用了两个关键的二元分类用例：角质形成细胞癌与良性脂溢性角化病； 恶性黑色素瘤与良性痣。 CNN 在这两项任务上均达到了与所有测试过的专家相同的性能，展示了一种能够对皮肤癌进行分类的，具有与皮肤科医生相当的能力的人工智能。
+*   论文[《通过多视图深度卷积神经网络进行高分辨率乳腺癌筛查》](https://arxiv.org/abs/1703.07047)（Krzysztof J. Geras，Stacey Wolfson，S。Gene Kim，Linda Moy，Kyunghyun Cho）承诺通过其创新的体系结构来改善乳腺癌的筛查过程，该体系结构可以处理四个标准视图或角度，而不会牺牲高分辨率。 与通常用于自然图像的 DCN 体系结构（其可处理 224 x 224 像素的图像）相反，MV-DCN 也能够使用 2600 x 2000 像素的分辨率。

 # 使用膨胀的 ConvNets，WaveNet 和 NSynth 生成音乐

@@ -850,7 +850,7 @@ An example of dilated network

 # 做好准备

-对于本食谱，我们不会编写代码，而是向您展示如何使用[一些在线可用的代码](https://github.com/tensorflow/magenta/tree/master/magenta/models/nsynth)和一些不错的演示，您可以从 [Google Brain 找到](https://aiexperiments.withgoogle.com/sound-maker)。 有兴趣的读者还可以阅读以下文章：[使用 WaveNet 自编码器的音符的神经音频合成](https://arxiv.org/abs/1704.01279)（杰西·恩格尔，辛琼·雷斯尼克，亚当·罗伯茨，桑德·迪勒曼，道格拉斯·埃克，卡伦·西蒙扬，穆罕默德·诺鲁兹，4 月 5 日 2017）。
+对于本食谱，我们不会编写代码，而是向您展示如何使用[一些在线可用的代码](https://github.com/tensorflow/magenta/tree/master/magenta/models/nsynth)和一些不错的演示，您可以从 [Google Brain 找到](https://aiexperiments.withgoogle.com/sound-maker)。 有兴趣的读者还可以阅读以下文章：[《使用 WaveNet 自编码器的音符的神经音频合成》](https://arxiv.org/abs/1704.01279)（杰西·恩格尔，辛琼·雷斯尼克，亚当·罗伯茨，桑德·迪勒曼，道格拉斯·埃克，卡伦·西蒙扬，穆罕默德·诺鲁兹，4 月 5 日 2017）。

 # 怎么做...

@@ -955,7 +955,7 @@ WaveNet 是一种 ConvNet，其中卷积层具有各种扩张因子，从而使
 *   组合不同的异构输入要素以创建组合的要素空间。 对于此任务，我们将使用新的 Keras 2.0 功能 API。
 *   附加一些其他的 Dense 和 Dropout 层，以创建多层感知器并增强我们的深度学习网络的功能。

-为了简单起见，我们不会在 5 中重新训练组合网络，而是使用已经在线提供的[预先训练的权重集](https://avisingh599.github.io/deeplearning/visual-qa/)。 有兴趣的读者可以在由 N 个图像，N 个问题和 N 个答案组成的自己的训练数据集上对网络进行再训练。 这是可选练习。 该网络的灵感来自 [VQA：视觉问题解答](http://arxiv.org/pdf/1505.00468v4.pdf)（Aishwarya Agrawal，Jiasen Lu，Stanislaw Antol，Margaret Mitchell，C.Lawrence Zitnick，Dhruv Batra，Devi Parikh，2015 年）：
+为了简单起见，我们不会在 5 中重新训练组合网络，而是使用已经在线提供的[预先训练的权重集](https://avisingh599.github.io/deeplearning/visual-qa/)。 有兴趣的读者可以在由 N 个图像，N 个问题和 N 个答案组成的自己的训练数据集上对网络进行再训练。 这是可选练习。 该网络的灵感来自[《VQA：视觉问题解答》](http://arxiv.org/pdf/1505.00468v4.pdf)（Aishwarya Agrawal，Jiasen Lu，Stanislaw Antol，Margaret Mitchell，C.Lawrence Zitnick，Dhruv Batra，Devi Parikh，2015 年）：

 ![](img/a0988e7d-0ef5-4f89-a2f4-f8c0b2b887fe.png)

@@ -1229,7 +1229,7 @@ print str(round(y_output[0,label]*100,2)).zfill(5), "% ", labelencoder.inverse_t

 # 还有更多...

-在互联网上，您可以找到 [Avi Singh](https://avisingh599.github.io/deeplearning/visual-qa/) 进行的更多实验，其中比较了不同的模型，包括简单的“袋装” 语言的“单词”与图像的 CNN，仅 LSTM 模型以及 LSTM + CNN 模型-类似于本食谱中讨论的模型。 博客文章还讨论了每种模型的不同训练策略。
+在互联网上，您可以找到 [Avi Singh](https://avisingh599.github.io/deeplearning/visual-qa/) 进行的更多实验，其中比较了不同的模型，包括简单的“袋装”语言的“单词”与图像的 CNN，仅 LSTM 模型以及 LSTM + CNN 模型-类似于本食谱中讨论的模型。 博客文章还讨论了每种模型的不同训练策略。

 除此之外，有兴趣的读者可以在[互联网](https://github.com/anujshah1003/VQA-Demo-GUI)上找到一个不错的 GUI，它建立在 Avi Singh 演示的顶部，使您可以 交互式加载图像并提出相关问题。 还提供了 [YouTube 视频](https://www.youtube.com/watch?v=7FB9PvzOuQY)。

@@ -1306,4 +1306,4 @@ python scripts/run_all_pipeline.py -i path/to/test/video.mp4

 # 还有更多...

-CNN-LSTM 体系结构是新的 RNN 层，其中输入转换和递归转换的输入都是卷积。 尽管名称非常相似，但如上所述，CNN-LSTM 层与 CNN 和 LSTM 的组合不同。 该模型在论文[卷积 LSTM 网络：降水临近预报的机器学习方法](https://arxiv.org/abs/1506.04214)（史兴建，陈周荣，王浩，杨天彦，黄伟坚，胡旺春，2015 年）中进行了描述，并且在 2017 年，有些人开始尝试使用此模块进行视频实验，但这仍然是一个活跃的研究领域。
\ No newline at end of file
+CNN-LSTM 体系结构是新的 RNN 层，其中输入转换和递归转换的输入都是卷积。 尽管名称非常相似，但如上所述，CNN-LSTM 层与 CNN 和 LSTM 的组合不同。 该模型在论文[《卷积 LSTM 网络：降水临近预报的机器学习方法》](https://arxiv.org/abs/1506.04214)（史兴建，陈周荣，王浩，杨天彦，黄伟坚，胡旺春，2015 年）中进行了描述，并且在 2017 年，有些人开始尝试使用此模块进行视频实验，但这仍然是一个活跃的研究领域。
\ No newline at end of file
--- a/docs/tf-1x-dl-cookbook/06.md
+++ b/docs/tf-1x-dl-cookbook/06.md
@@ -127,15 +127,15 @@ An example of text generated with RNNs

 序列到序列（seq2seq）是 RNN 的一种特殊类型，已成功应用于神经机器翻译，文本摘要和语音识别中。 在本食谱中，我们将讨论如何实现神经机器翻译，其结果与 [Google 神经机器翻译系统](https://research.googleblog.com/2016/09/a-neural-network-for-machine.html)。 关键思想是输入整个文本序列，理解整个含义，然后将翻译输出为另一个序列。 读取整个序列的想法与以前的体系结构大不相同，在先前的体系结构中，将一组固定的单词从一种源语言翻译成目标语言。

-本节的灵感来自 [Minh-Thang Luong](https://github.com/lmthang/thesis/blob/master/thesis.pdf) 的 2016 年博士学位论文*神经机器翻译*）。 第一个关键概念是编码器-解码器体系结构的存在，其中编码器将源句子转换为代表含义的向量。 然后，此向量通过解码器以产生翻译。 编码器和解码器都是 RNN，它们可以捕获语言中的长期依赖关系，例如性别协议和语法结构，而无需先验地了解它们，并且不需要跨语言进行 1：1 映射。 这是一种强大的功能，可实现非常流畅的翻译：
+本节的灵感来自 [Minh-Thang Luong](https://github.com/lmthang/thesis/blob/master/thesis.pdf) 的 2016 年博士学位论文《神经机器翻译》。 第一个关键概念是编码器-解码器体系结构的存在，其中编码器将源句子转换为代表含义的向量。 然后，此向量通过解码器以产生翻译。 编码器和解码器都是 RNN，它们可以捕获语言中的长期依赖关系，例如性别协议和语法结构，而无需先验地了解它们，并且不需要跨语言进行 1：1 映射。 这是一种强大的功能，可实现非常流畅的翻译：

 ![](img/7af9de06-f5cd-4edc-a793-76ad408c579b.png)

 An example of encoder-decoder as seen in https://github.com/lmthang/thesis/blob/master/thesis.pdf

-让我们看一个 RNN 的示例，该语句将“她爱可爱的猫咪”翻译成 Elle Aime les chat Mignons。
+让我们看一个 RNN 的示例，该语句将`She loves cute cats`翻译成`Elle Aime les chat Mignons`。

-有两种 RNN：一种充当编码器，另一种充当解码器。 源句“她爱可爱的猫”后跟一个分隔符-目标句是 Elle aime les chats mignons。 这两个连接的句子在输入中提供给编码器进行训练，并且解码器将生成目标目标。 当然，我们需要像这样的多个示例来获得良好的训练：
+有两种 RNN：一种充当编码器，另一种充当解码器。 源句`She loves cute cats`后跟一个分隔符-目标句是`Elle aime les chats mignons`。 这两个连接的句子在输入中提供给编码器进行训练，并且解码器将生成目标目标。 当然，我们需要像这样的多个示例来获得良好的训练：

 ![](img/8e9fd11b-d547-4740-9010-ca4e1ebb30f9.png)

@@ -148,7 +148,7 @@ An example of sequence models for NMT as seen in https://github.com/lmthang/thes
 *   RNN 可以具有一个嵌入层，该层将单词映射到一个嵌入空间中，在该空间中相似的单词恰好被映射得非常近。
 *   RNNs 可以使用简单的或者复发的细胞，或 LSTM，或窥视孔 LSTM，或越冬。

-仍然参考博士学位论文[神经机器翻译](https://github.com/lmthang/thesis/blob/master/thesis.pdf)，我们可以使用嵌入层来映射 将输入语句放入嵌入空间。 然后，有两个 RNN *粘在一起*——源语言的编码器和目标语言的解码器。 如您所见，存在多个隐藏层，并且有两个流程：前馈垂直方向连接这些隐藏层，水平方向是将知识从上一步转移到下一层的递归部分：
+仍然参考博士学位论文[《神经机器翻译》](https://github.com/lmthang/thesis/blob/master/thesis.pdf)，我们可以使用嵌入层来映射 将输入语句放入嵌入空间。 然后，有两个 RNN *粘在一起*——源语言的编码器和目标语言的解码器。 如您所见，存在多个隐藏层，并且有两个流程：前馈垂直方向连接这些隐藏层，水平方向是将知识从上一步转移到下一层的递归部分：

 ![](img/45216119-cbfa-47f0-9080-b6256eefb995.png)

@@ -368,7 +368,7 @@ An example of attention model for NMT as seen in https://github.com/lmthang/thes

 我们按以下步骤进行：

-1.  使用库`tf.contrib.seq2seq.LuongAttention`定义注意力机制，该库实现了 Minh-Thang Luong，Hieu Pham 和 Christopher D. Manning（2015 年）在*基于注意力的神经机器翻译有效方法*中定义的注意力模型：
+1.  使用库`tf.contrib.seq2seq.LuongAttention`定义注意力机制，该库实现了 Minh-Thang Luong，Hieu Pham 和 Christopher D. Manning（2015 年）在《基于注意力的神经机器翻译有效方法》中定义的注意力模型：

 ```py
 # attention_states: [batch_size, max_time, num_units]

--- a/docs/tf-1x-dl-cookbook/07.md
+++ b/docs/tf-1x-dl-cookbook/07.md
@@ -3,7 +3,7 @@
 到目前为止，我们在本书中涵盖的所有模型都是基于监督学习范式的。 训练数据集包括输入和该输入的所需标签。 相反，本章重点介绍无监督的学习范式。 本章将包括以下主题：

 *   主成分分析
-*   k 均值聚类
+*   K 均值聚类
 *   自组织图
 *   受限玻尔兹曼机
 *   使用 RBM 的推荐系统
@@ -185,13 +185,13 @@ with tf.Session() as sess:
 *   <http://mplab.ucsd.edu/tutorials/pca.pdf>
 *   <http://projector.tensorflow.org/>

-# k 均值聚类
+# K 均值聚类

-顾名思义，k 均值聚类是一种对数据进行聚类的技术，即将数据划分为指定数量的数据点。 这是一种无监督的学习技术。 它通过识别给定数据中的模式来工作。 还记得哈利波特成名的分拣帽子吗？ 书中的工作是聚类-将新生（未标记）的学生分成四个不同的类：格兰芬多，拉文克劳，赫奇帕奇和斯莱特林。
+顾名思义，K 均值聚类是一种对数据进行聚类的技术，即将数据划分为指定数量的数据点。 这是一种无监督的学习技术。 它通过识别给定数据中的模式来工作。 还记得哈利波特成名的分拣帽子吗？ 书中的工作是聚类-将新生（未标记）的学生分成四个不同的类：格兰芬多，拉文克劳，赫奇帕奇和斯莱特林。

-人类非常擅长将对象分组在一起。 聚类算法试图为计算机提供类似的功能。 有许多可用的聚类技术，例如“层次”，“贝叶斯”或“局部”。 k 均值聚类属于部分聚类； 它将数据划分为`k`簇。 每个簇都有一个中心，称为**重心**。 簇数`k`必须由用户指定。
+人类非常擅长将对象分组在一起。 聚类算法试图为计算机提供类似的功能。 有许多可用的聚类技术，例如“层次”，“贝叶斯”或“局部”。 K 均值聚类属于部分聚类； 它将数据划分为`k`簇。 每个簇都有一个中心，称为**重心**。 簇数`k`必须由用户指定。

-k 均值算法以以下方式工作：
+K 均值算法以以下方式工作：

 1.  随机选择`k`个数据点作为初始质心（集群中心）
 2.  将每个数据点分配给最接近的质心； 可以找到接近度的不同方法，最常见的是欧几里得距离
@@ -200,7 +200,7 @@ k 均值算法以以下方式工作：

 # 做好准备

-我们将使用 TensorFlow `KmeansClustering` Estimator 类来实现 k 均值。 它在[这个链接](https://github.com/tensorflow/tensorflow/blob/r1.3/tensorflow/contrib/learn/python/learn/estimators/kmeans.py)中定义。它创建一个模型来运行 k 均值和推理。 根据 TensorFlow 文档，一旦创建了`KmeansClustering`类对象，就可以使用以下`__init__`方法实例化该对象：
+我们将使用 TensorFlow `KmeansClustering` Estimator 类来实现 K 均值。 它在[这个链接](https://github.com/tensorflow/tensorflow/blob/r1.3/tensorflow/contrib/learn/python/learn/estimators/kmeans.py)中定义。它创建一个模型来运行 K 均值和推理。 根据 TensorFlow 文档，一旦创建了`KmeansClustering`类对象，就可以使用以下`__init__`方法实例化该对象：

 ```py
 __init__(
@@ -307,7 +307,7 @@ clusters = kmeans.clusters()
 assignments = list(kmeans.predict_cluster_idex(input_fn=input_fn))
 ```

-7.  现在让我们可视化由 k 均值创建的聚类。 为此，我们创建一个包装器函数`ScatterPlot`，该函数将`X`和`Y`值以及每个数据点的簇和簇索引一起使用：
+7.  现在让我们可视化由 K 均值创建的聚类。 为此，我们创建一个包装器函数`ScatterPlot`，该函数将`X`和`Y`值以及每个数据点的簇和簇索引一起使用：

 ```py
 def ScatterPlot(X, Y, assignments=None, centers=None):
@@ -337,7 +337,7 @@ ScatterPlot(x[:,0], x[:,1], assignments, clusters)

 # 这个怎么运作...

-前面的配方使用 TensorFlow 的 k 均值聚类估计器将给定数据聚类为聚类。 在这里，由于我们知道集群的数量，我们决定保留`num_clusters=3`，但是在大多数情况下，如果使用未标记的数据，则永远无法确定存在多少集群。 可以使用弯头法确定最佳簇数。 该方法基于以下原则：我们应选择能减少**平方误差和**（**SSE**）距离的簇数。 如果`k`是簇数，则随着`k`增加，SSE 减少，SSE = 0； 当`k`等于数据点数时，每个点都是其自己的簇。 我们想要一个`k`较低的值，以使 SSE 也较低。 在 TensorFlow 中，我们可以使用`KmeansClustering`类中定义的`score()`方法找到 SSE； 该方法将距离的总和返回到最近的聚类：
+前面的配方使用 TensorFlow 的 K 均值聚类估计器将给定数据聚类为聚类。 在这里，由于我们知道集群的数量，我们决定保留`num_clusters=3`，但是在大多数情况下，如果使用未标记的数据，则永远无法确定存在多少集群。 可以使用弯头法确定最佳簇数。 该方法基于以下原则：我们应选择能减少**平方误差和**（**SSE**）距离的簇数。 如果`k`是簇数，则随着`k`增加，SSE 减少，SSE = 0； 当`k`等于数据点数时，每个点都是其自己的簇。 我们想要一个`k`较低的值，以使 SSE 也较低。 在 TensorFlow 中，我们可以使用`KmeansClustering`类中定义的`score()`方法找到 SSE； 该方法将距离的总和返回到最近的聚类：

 ```py
 sum_distances = kmeans.score(input_fn=input_fn, steps=100)

--- a/docs/tf-1x-dl-cookbook/08.md
+++ b/docs/tf-1x-dl-cookbook/08.md
@@ -10,7 +10,7 @@

 # 介绍

-自编码器，也称为**空竹网络**或**自动关联器**，最初由 Hinton 和 PDP 小组于 1980 年代提出。 它们是前馈网络，没有任何反馈，并且它们是通过无监督学习来学习的。 像第 3 章的多人感知器，*神经网络感知器*一样，它们使用反向传播算法进行学习，但有一个主要区别-目标与输入相同。
+自编码器，也称为**空竹网络**或**自动关联器**，最初由 Hinton 和 PDP 小组于 1980 年代提出。 它们是前馈网络，没有任何反馈，并且它们是通过无监督学习来学习的。 像第 3 章的多人感知器，神经网络感知器一样，它们使用反向传播算法进行学习，但有一个主要区别-目标与输入相同。

 我们可以认为自编码器由两个级联网络组成-第一个网络是编码器，它接受输入`x`，然后使用变换`h`将其编码为编码信号`y`：


--- a/docs/tf-1x-dl-cookbook/09.md
+++ b/docs/tf-1x-dl-cookbook/09.md
@@ -1083,4 +1083,4 @@ AlphaGo Zero 使用深层神经网络，该网络将原始板表示形式（当
 *   <https://arxiv.org/pdf/1602.01783.pdf>
 *   <http://ufal.mff.cuni.cz/~straka/courses/npfl114/2016/sutton-bookdraft2016sep.pdf>
 *   <http://karpathy.github.io/2016/05/31/rl/>
-*   Xavier Glorot 和 Yoshua Bengio，[“了解训练深度前馈神经网络的困难”](http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf)，第十三届国际人工智能与统计国际会议论文集，2010 年
\ No newline at end of file
+*   `Xavier Glorot and Yoshua Bengio, Understanding the difficulty of training deep feedforward neural networks, Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, 2010, http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf`
\ No newline at end of file
--- a/docs/tf-1x-dl-cookbook/11.md
+++ b/docs/tf-1x-dl-cookbook/11.md
@@ -52,7 +52,7 @@ We can see further improvements in the following image:

 ![](img/c905787d-d0ac-421d-9826-a925c4ada1a8.png)

-GAN 最酷的用途之一是对生成器矢量 Z 的面部进行算术。换句话说，如果我们停留在合成伪造图像的空间中，则可能会看到类似以下内容：`[微笑的女人]-[中性的女人] + [中性的男人] = [微笑的男人]`，或类似这样：`[戴眼镜的男人] - [戴眼镜的男人] + [戴眼镜的女人] = [戴眼镜的女人]`。 下图取自：[深度卷积生成对抗网络的无监督表示学习](https://arxiv.org/abs/1511.06434)（Alec Radford，Luke Metz，Soumith Chintala，2016）
+GAN 最酷的用途之一是对生成器矢量 Z 的面部进行算术。换句话说，如果我们停留在合成伪造图像的空间中，则可能会看到类似以下内容：`[微笑的女人]-[中性的女人] + [中性的男人] = [微笑的男人]`，或类似这样：`[戴眼镜的男人] - [戴眼镜的男人] + [戴眼镜的女人] = [戴眼镜的女人]`。 下图取自：[《深度卷积生成对抗网络的无监督表示学习》](https://arxiv.org/abs/1511.06434)（Alec Radford，Luke Metz，Soumith Chintala，2016）

 ![](img/01744226-effd-46ec-9e04-f7668a1379aa.png)

@@ -909,7 +909,7 @@ VAE 的生成图像取决于潜在空间尺寸。 模糊减少了潜在空间的

 # 通过 Capsule Networks 学习击败 MNIST 的最新结果

-Capsule Networks（或 CapsNets）是一种非常新颖的深度学习网络。 这项技术是在 2017 年 10 月底由 Sara Sabour，Nicholas Frost 和 Geoffrey Hinton 发表的[名为“胶囊之间的动态路由”的开创性论文](https://arxiv.org/abs/1710.09829)中引入的。 欣顿（Hinton）是深度学习之父之一，因此，整个深度学习社区很高兴看到胶囊技术取得的进步。 确实，CapsNets 已经在 MNIST 分类中击败了最好的 CNN，这真是……令人印象深刻！
+Capsule Networks（或 CapsNets）是一种非常新颖的深度学习网络。 这项技术是在 2017 年 10 月底由 Sara Sabour，Nicholas Frost 和 Geoffrey Hinton 发表的[名为《胶囊之间的动态路由》的开创性论文](https://arxiv.org/abs/1710.09829)中引入的。 欣顿（Hinton）是深度学习之父之一，因此，整个深度学习社区很高兴看到胶囊技术取得的进步。 确实，CapsNets 已经在 MNIST 分类中击败了最好的 CNN，这真是……令人印象深刻！

 **那么 CNN 有什么问题？** 在 CNN 中，每一层*都会以渐进的粒度理解*图像。 正如我们在多种配方中讨论的那样，第一层将最有可能识别直线或简单的曲线和边缘，而随后的层将开始理解更复杂的形状（例如矩形）和复杂的形式（例如人脸）。


--- a/docs/tf-1x-dl-cookbook/12.md
+++ b/docs/tf-1x-dl-cookbook/12.md
@@ -28,7 +28,7 @@

 [来自参数服务器的分布式梯度下降示例](https://research.google.com/archive/large_deep_networks_nips2012.html)

-您应该阅读的另一份文档是白皮书 [TensorFlow：异构分布式系统上的大规模机器学习](http://download.tensorflow.org/paper/whitepaper2015.pdf)（MartínAbadi 等人，2015 年 11 月）
+您应该阅读的另一份文档是白皮书[《TensorFlow：异构分布式系统上的大规模机器学习》](http://download.tensorflow.org/paper/whitepaper2015.pdf)（MartínAbadi 等人，2015 年 11 月）

 考虑其中包含的一些示例，我们可以在下面的图片的左侧看到 TensorFlow 代码的片段，然后将其表示为右侧的图形：


--- a/docs/tf-1x-dl-cookbook/13.md
+++ b/docs/tf-1x-dl-cookbook/13.md
@@ -10,13 +10,13 @@

 ![](img/30ccd28f-f08f-4323-aae4-313b11ba8ddb.png)

-例如，控制器循环神经网络可以对卷积网络进行采样。 控制器可以预测许多超参数，例如滤镜高度，滤镜宽度，步幅高度，步幅宽度和一层滤镜的数量，然后可以重复。 每个预测可以由 softmax 分类器执行，然后输入到下一个 RNN 时间步中。 以下图片来自[“使用增强学习的神经体系结构搜索”](https://arxiv.org/abs/1611.01578)，Barret Zoph，Quoc V. Le：
+例如，控制器循环神经网络可以对卷积网络进行采样。 控制器可以预测许多超参数，例如滤镜高度，滤镜宽度，步幅高度，步幅宽度和一层滤镜的数量，然后可以重复。 每个预测可以由 softmax 分类器执行，然后输入到下一个 RNN 时间步中。 以下图片来自[《使用增强学习的神经体系结构搜索》](https://arxiv.org/abs/1611.01578)（Barret Zoph，Quoc V. Le）：

 ![](img/9986f40c-9051-4483-959c-00a067ed0e2a.png)

 预测超参数是不够的，因为最好定义一组动作以在网络中创建新层。 这特别困难，因为描述新层的奖励函数极有可能是不可区分的，因此无法通过标准技术（例如 SGD）对其进行优化。 解决方案来自强化学习，它包括采用类似于我们的第 9 章，“强化学习”中所述的策略梯度网络。

-除此之外，并行性可用于优化控制器 RNN 的参数。 Quoc Le＆Barret Zoph 建议采用参数服务器方案，其中我们有一个 S 碎片的参数服务器，用于存储 K 个控制器副本的共享参数。 每个控制器副本都采样了如下图所示的并行训练的不同子架构，如下图所示，取自[“使用增强学习的神经架构搜索”](https://arxiv.org/abs/1611.01578)，Barret Zoph，Quoc V. Le：
+除此之外，并行性可用于优化控制器 RNN 的参数。 Quoc Le＆Barret Zoph 建议采用参数服务器方案，其中我们有一个 S 碎片的参数服务器，用于存储 K 个控制器副本的共享参数。 每个控制器副本都采样了如下图所示的并行训练的不同子架构，如下图所示，取自[《使用增强学习的神经架构搜索》](https://arxiv.org/abs/1611.01578)（Barret Zoph，Quoc V. Le）：

 ![](img/23d54b43-728d-4230-b0ab-4d219de2c679.png)

@@ -24,7 +24,7 @@ Quoc 和 Barret 将 AutoML 技术用于神经体系结构搜索应用于 [Penn T

 # 元学习块

-在[用于可伸缩图像识别的学习可传输体系结构](https://arxiv.org/abs/1707.07012)（Barret Zoph，Vijay Vasudevan，Jonathon Shlens，Quoc V. Le，2017）中，建议在小型数据集上学习建筑构造块，然后将其传输到大型数据集。 作者建议在 CIFAR-10 数据集上搜索最佳的卷积层（或单元），然后通过堆叠该单元的更多副本（每个都有其自己的参数），将此学习到的单元应用于 ImageNet 数据集。 准确地说，所有卷积网络都是由结构相同但权重不同的卷积层（或单元）组成的。 因此，将搜索最佳卷积体系结构简化为搜索最佳单元结构，这样可以更快地将其推广到其他问题。 尽管无法在 ImageNet 上直接学习该单元，但是在已发表的工作中，由学得最好的单元构成的体系结构可实现 ImageNet 的最新精度为 82.7% top-1 和 96.2% top-5。 该模型的 top-1 准确性比人类发明的最佳体系结构高 1.2%，而 FLOPS 则减少了 90 亿个，与之前的最新模型相比降低了 28%。 还需要注意的重要一点是，使用 RNN + RL（循环神经网络+强化学习）学习的模型正在击败随机搜索（RL）代表的基线，如本文中所取的图所示。 在 RL 与 RS 中确定的前 5 名和前 25 名模型的平均表现中，RL 始终是赢家：
+在[《用于可伸缩图像识别的学习可传输体系结构》](https://arxiv.org/abs/1707.07012)（Barret Zoph，Vijay Vasudevan，Jonathon Shlens，Quoc V. Le，2017）中，建议在小型数据集上学习建筑构造块，然后将其传输到大型数据集。 作者建议在 CIFAR-10 数据集上搜索最佳的卷积层（或单元），然后通过堆叠该单元的更多副本（每个都有其自己的参数），将此学习到的单元应用于 ImageNet 数据集。 准确地说，所有卷积网络都是由结构相同但权重不同的卷积层（或单元）组成的。 因此，将搜索最佳卷积体系结构简化为搜索最佳单元结构，这样可以更快地将其推广到其他问题。 尽管无法在 ImageNet 上直接学习该单元，但是在已发表的工作中，由学得最好的单元构成的体系结构可实现 ImageNet 的最新精度为 82.7% top-1 和 96.2% top-5。 该模型的 top-1 准确性比人类发明的最佳体系结构高 1.2%，而 FLOPS 则减少了 90 亿个，与之前的最新模型相比降低了 28%。 还需要注意的重要一点是，使用 RNN + RL（循环神经网络+强化学习）学习的模型正在击败随机搜索（RL）代表的基线，如本文中所取的图所示。 在 RL 与 RS 中确定的前 5 名和前 25 名模型的平均表现中，RL 始终是赢家：

 ![](img/c806db28-97c3-409d-8877-d86502c86e12.png)

@@ -32,13 +32,13 @@ Quoc 和 Barret 将 AutoML 技术用于神经体系结构搜索应用于 [Penn T

 可以对元学习系统进行训练以完成大量任务，然后对其元学习新任务的能力进行测试。 这种元学习的一个著名例子是在高级 CNN 章节中讨论的所谓转移学习，其中网络可以从相对较小的数据集中成功学习基于图像的新任务。 但是，对于诸如语音，语言和文本之类的非视觉领域，没有类似的预训练方案。

-[用于快速适应深度网络的模型不可知元学习](https://arxiv.org/abs/1703.03400)（切尔西·芬恩（Chelsea Finn），彼得·阿比尔（Siety Levine），2017 年）提出了一个模型 -不可知论方法的名称为 MAML，它与经过梯度下降训练的任何模型兼容，并且适用于各种不同的学习问题，包括分类，回归和强化学习。 元学习的目标是针对各种学习任务训练模型，以便仅使用少量训练样本即可解决新的学习任务。 元学习器旨在找到一种可以快速（以很少的步骤）并有效地（仅使用几个示例）快速适应各种问题的初始化。 用参数为θ的参数化函数 f <sub>θ</sub>表示的模型。 当适应新任务 T <sub>i</sub> 时，模型参数θ变为θ <sub>i</sub> <sup>〜</sup>。 在 MAML 中，使用对任务 T <sub>i</sub> 的一个或多个梯度下降更新来计算更新的参数向量θ <sub>i</sub> <sup>'</sup>。
+[《用于快速适应深度网络的模型不可知元学习》](https://arxiv.org/abs/1703.03400)（切尔西·芬恩（Chelsea Finn），彼得·阿比尔（Siety Levine），2017 年）提出了一个模型 -不可知论方法的名称为 MAML，它与经过梯度下降训练的任何模型兼容，并且适用于各种不同的学习问题，包括分类，回归和强化学习。 元学习的目标是针对各种学习任务训练模型，以便仅使用少量训练样本即可解决新的学习任务。 元学习器旨在找到一种可以快速（以很少的步骤）并有效地（仅使用几个示例）快速适应各种问题的初始化。 用参数为θ的参数化函数 f <sub>θ</sub>表示的模型。 当适应新任务 T <sub>i</sub> 时，模型参数θ变为θ <sub>i</sub> <sup>〜</sup>。 在 MAML 中，使用对任务 T <sub>i</sub> 的一个或多个梯度下降更新来计算更新的参数向量θ <sub>i</sub> <sup>'</sup>。

 例如，当使用一个梯度更新时，θ <sub>i</sub> <sup>〜</sup> =θ-α∇<sub>θ</sub> L <sub>Ti</sub> （f <sub>θ</sub> ）其中 L <sub>Ti</sub> 是任务 T 的损失函数，而α是元学习参数。 该图报告了 MAML 算法：

 ![](img/30503d87-ad59-4ec7-8e66-2918624faaf7.png)

-MAML 能够在流行的少拍图像分类基准上大大胜过许多现有方法。 旨在从一个或几个概念中学习新概念的镜头很少有挑战性。 例如，[通过概率性程序归纳进行人级概念学习](https://www.cs.cmu.edu/~rsalakhu/papers/LakeEtAl2015Science.pdf)（Brenden M. Lake，Ruslan Salakhutdinov，Joshua B. Tenenbaum，2015 年），建议人们可以学会从单个图片中识别新颖的两轮车，例如红色框中包含的图片，如下所示：
+MAML 能够在流行的少拍图像分类基准上大大胜过许多现有方法。 旨在从一个或几个概念中学习新概念的镜头很少有挑战性。 例如，[《通过概率性程序归纳进行人级概念学习》](https://www.cs.cmu.edu/~rsalakhu/papers/LakeEtAl2015Science.pdf)（Brenden M. Lake，Ruslan Salakhutdinov，Joshua B. Tenenbaum，2015 年），建议人们可以学会从单个图片中识别新颖的两轮车，例如红色框中包含的图片，如下所示：

 ![](img/d55d0f5e-ee42-4c09-a213-65fadee76b26.png)

@@ -47,12 +47,12 @@ MAML 能够在流行的少拍图像分类基准上大大胜过许多现有方法
 因此，如果您对一个热门话题感兴趣，那么*学习深度学习*当然是一个可以考虑作为下一份工作的空间。

 *   Google 提出了[采用 RNN 作为控制器的方法](https://research.googleblog.com/2017/05/using-machine-learning-to-explore.html)，该方法使用机器学习来探索神经网络架构。
-*   [带有增强学习的神经体系结构搜索](https://arxiv.org/abs/1611.01578)（Barret Zoph，Quoc V. Le）是一篇开创性的论文，它证明了有关 Google 方法的更多细节。 但是，RNN 不是唯一的选择。
-*   [图像分类器的大规模发展](https://arxiv.org/abs/1703.01041)（Esteban Real，Sherry Moore，Andrew Selle，Saurabh Saxena，Yutaka Leon Suematsu，Jie Tan，Quoc Le，Alex Kurakin，2017 年）提出在进化遗传算法中使用遗传计算来探索新的候选网络。
-*   [学习用于可伸缩图像识别的可转移体系结构](https://arxiv.org/abs/1707.07012)（Barret Zoph，Vijay Vasudevan，Jonathon Shlens，Quoc V. Le）提出了 在 CIFAR 上学习的单元，用于改善 ImageNet 分类。
-*   [构建可以建立人工智能的 AI](https://www.nytimes.com/2017/11/05/technology/machine-learning-artificial-intelligence-ai.html)：谷歌和其他公司为争夺一小部分研究人员而奋斗，他们正在寻找自动方法来应对人工智能专家的短缺。
-*   [用于快速适应深度网络的模型不可知元学习](https://arxiv.org/abs/1703.03400)（切尔西·芬恩（Chelsea Finn），彼得·阿比耶尔（Pieter Abbeel），谢尔盖·莱文（Sergey Levine），2017 年）。
-*   [通过梯度下降学习](https://arxiv.org/abs/1606.04474)（Marcin Andrychowicz，Misha Denil，Sergio Gomez，Matthew W. Hoffman，David Pfau，Tom Schaul，Brendan Shillingford，Nando de Freitas）展示了如何将优化算法的设计转换为学习问题，从而使该算法能够自动学习感兴趣的问题中的结构。 LSMT 学习的算法在训练任务上胜过手工设计的竞争对手，并且可以很好地推广到结构相似的新任务。 该算法的代码可在 [GitHub](https://github.com/deepmind/learning-to-learn) 上获得。
+*   [《带有增强学习的神经体系结构搜索》](https://arxiv.org/abs/1611.01578)（Barret Zoph，Quoc V. Le）是一篇开创性的论文，它证明了有关 Google 方法的更多细节。 但是，RNN 不是唯一的选择。
+*   [《图像分类器的大规模发展》](https://arxiv.org/abs/1703.01041)（Esteban Real，Sherry Moore，Andrew Selle，Saurabh Saxena，Yutaka Leon Suematsu，Jie Tan，Quoc Le，Alex Kurakin，2017 年）提出在进化遗传算法中使用遗传计算来探索新的候选网络。
+*   [《学习用于可伸缩图像识别的可转移体系结构》](https://arxiv.org/abs/1707.07012)（Barret Zoph，Vijay Vasudevan，Jonathon Shlens，Quoc V. Le）提出了 在 CIFAR 上学习的单元，用于改善 ImageNet 分类。
+*   [《构建可以建立人工智能的 AI》](https://www.nytimes.com/2017/11/05/technology/machine-learning-artificial-intelligence-ai.html)：谷歌和其他公司为争夺一小部分研究人员而奋斗，他们正在寻找自动方法来应对人工智能专家的短缺。
+*   [《用于快速适应深度网络的模型不可知元学习》](https://arxiv.org/abs/1703.03400)（切尔西·芬恩（Chelsea Finn），彼得·阿比耶尔（Pieter Abbeel），谢尔盖·莱文（Sergey Levine），2017 年）。
+*   [《通过梯度下降学习》](https://arxiv.org/abs/1606.04474)（Marcin Andrychowicz，Misha Denil，Sergio Gomez，Matthew W. Hoffman，David Pfau，Tom Schaul，Brendan Shillingford，Nando de Freitas）展示了如何将优化算法的设计转换为学习问题，从而使该算法能够自动学习感兴趣的问题中的结构。 LSMT 学习的算法在训练任务上胜过手工设计的竞争对手，并且可以很好地推广到结构相似的新任务。 该算法的代码可在 [GitHub](https://github.com/deepmind/learning-to-learn) 上获得。

 # 连体网络