2020-08-13 23:14:59

f287826a · wizardforcel · 6c69b9f8 · f287826a · f287826a · f287826a
4 changed file
--- a/docs/tf-1x-dl-cookbook/03.md
+++ b/docs/tf-1x-dl-cookbook/03.md
@@ -909,7 +909,10 @@ Keras 提供了添加卷积层，池化层，循环层甚至本地连接层的

 # 也可以看看

-*   McCulloch，Warren S.和 Walter Pitts。 *神经活动中固有观念的逻辑演算*数学生物物理学通报 5.4（1943）：115-133。 [http://vordenker.de/ggphilosophy/mcculloch_a-logical-calculus.pdf](http://vordenker.de/ggphilosophy/mcculloch_a-logical-calculus.pdf)
-*   罗森布拉特（Rosenblatt），弗兰克（Frank）（1957 年），《感知器》-一种感知和识别自动机的方法。 康奈尔航空实验室报告 85-460-1。 [https://blogs.umass.edu/brain-wars/files/2016/03/rosenblatt-1957.pdf](https://blogs.umass.edu/brain-wars/files/2016/03/rosenblatt-1957.pdf)
-*   *思维机*，CBS 广播 [https://www.youtube.com/watch?v=jPHUlQiwD9Y](https://www.youtube.com/watch?v=jPHUlQiwD9Y)
-*   Hornik，Kurt，Maxwell Stinchcombe 和 Halbert White。 *多层前馈网络是通用逼近器*。 *神经网络* 2.5（1989）：359-366。
\ No newline at end of file
+```py
+McCulloch, Warren S., and Walter Pitts. A logical calculus of the ideas immanent in nervous activity The bulletin of mathematical biophysics 5.4 (1943): 115-133. http://vordenker.de/ggphilosophy/mcculloch_a-logical-calculus.pdf
+
+Rosenblatt, Frank (1957), The Perceptron--a perceiving and recognizing automaton. Report 85-460-1, Cornell Aeronautical Laboratory. https://blogs.umass.edu/brain-wars/files/2016/03/rosenblatt-1957.pdf
+
+The Thinking Machine, CBS Broadcast https://www.youtube.com/watch?v=jPHUlQiwD9Y
+```
\ No newline at end of file
--- a/docs/tf-1x-dl-cookbook/04.md
+++ b/docs/tf-1x-dl-cookbook/04.md
@@ -452,7 +452,7 @@ An example of Jupyter execution for CIFAR10 classification

 # 做好准备

-我们将实现在论文中描述的算法*一种艺术风格的神经算法（ [https://arxiv.org/abs/1508.06576](https://arxiv.org/abs/1508.06576) ）*，作者是 Leon A. Gatys，亚历山大 S. Ecker 和 Matthias Bethge。 因此，最好先阅读该论文（ [https://arxiv.org/abs/1508.06576](https://arxiv.org/abs/1508.06576) ）。 此食谱将重复使用在线提供的预训练模型 VGG19（ [http://www.vlfeat.org/matconvnet/models/beta16/imagenet-vgg-verydeep-19.mat](http://www.vlfeat.org/matconvnet/models/beta16/imagenet-vgg-verydeep-19.mat) ），该模型应在本地下载。 我们的风格图片将是一幅可在线获得的梵高著名画作（ [https://commons.wikimedia.org/wiki/File:VanGogh-starry_night.jpg](https://commons.wikimedia.org/wiki/File:VanGogh-starry_night.jpg) ），而我们的内容图片则是玛丽莲（Marilyn）的照片 从 Wikipedia（ [https://commons.wikimedia.org/wiki/File:Marilyn_Monroe_in_1952.jpg](https://commons.wikimedia.org/wiki/File:Marilyn_Monroe_in_1952.jpg) ）下载的梦露。 内容图像将根据梵高的样式重新粉刷。
+我们将实现在论文[《一种艺术风格的神经算法》](https://arxiv.org/abs/1508.06576)中描述的算法，作者是 Leon A. Gatys，亚历山大 S. Ecker 和 Matthias Bethge。 因此，最好先阅读该论文（ [https://arxiv.org/abs/1508.06576](https://arxiv.org/abs/1508.06576) ）。 此食谱将重复使用在线提供的预训练模型 VGG19（ [http://www.vlfeat.org/matconvnet/models/beta16/imagenet-vgg-verydeep-19.mat](http://www.vlfeat.org/matconvnet/models/beta16/imagenet-vgg-verydeep-19.mat) ），该模型应在本地下载。 我们的风格图片将是一幅可在线获得的梵高著名画作（ [https://commons.wikimedia.org/wiki/File:VanGogh-starry_night.jpg](https://commons.wikimedia.org/wiki/File:VanGogh-starry_night.jpg) ），而我们的内容图片则是玛丽莲（Marilyn）的照片 从 Wikipedia（ [https://commons.wikimedia.org/wiki/File:Marilyn_Monroe_in_1952.jpg](https://commons.wikimedia.org/wiki/File:Marilyn_Monroe_in_1952.jpg) ）下载的梦露。 内容图像将根据梵高的样式重新粉刷。

 # 怎么做...

@@ -1002,7 +1002,7 @@ scores = model.predict_generator(validation_generator, nb_validation_samples/bat

 # 创建 DeepDream 网络

-Google 于 2014 年训练了神经网络以应对 **ImageNet 大规模视觉识别挑战**（**ILSVRC**），并于 2015 年 7 月将其开源。*中介绍了原始算法 深入了解卷积，Christian Szegedy，刘炜，贾阳清，Pierre Sermanet，Scott Reed，Dragomir Anguelov，Dumitru Erhan，Vincent Vanhoucke 和 Andrew Rabinovich（https://arxiv.org/abs/1409.4842）*。 网络学会了每个图像的表示。 较低的层学习诸如线条和边缘之类的底层特征，而较高的层则学习诸如眼睛，鼻子，嘴等更复杂的图案。 因此，如果尝试在网络中代表更高的级别，我们将看到从原始 ImageNet 提取的各种不同特征的混合，例如鸟的眼睛和狗的嘴巴。 考虑到这一点，如果我们拍摄一张新图像并尝试使与网络上层的相似性最大化，那么结果就是一张新的有远见的图像。 在这个有远见的图像中，较高层学习的某些模式在原始图像中被梦到（例如，想象中）。 这是此类有远见的图像的示例：
+Google 于 2014 年训练了神经网络以应对 **ImageNet 大规模视觉识别挑战**（**ILSVRC**），并于 2015 年 7 月将其开源。[“深入了解卷积”](https://arxiv.org/abs/1409.4842)中介绍了原始算法。 网络学会了每个图像的表示。 较低的层学习诸如线条和边缘之类的底层特征，而较高的层则学习诸如眼睛，鼻子，嘴等更复杂的图案。 因此，如果尝试在网络中代表更高的级别，我们将看到从原始 ImageNet 提取的各种不同特征的混合，例如鸟的眼睛和狗的嘴巴。 考虑到这一点，如果我们拍摄一张新图像并尝试使与网络上层的相似性最大化，那么结果就是一张新的有远见的图像。 在这个有远见的图像中，较高层学习的某些模式在原始图像中被梦到（例如，想象中）。 这是此类有远见的图像的示例：

 ![](img/cbbf2fe8-00f2-4ee3-b340-050425f20a7c.jpg)

@@ -1156,9 +1156,12 @@ An example of Deep Dream transformation. One of the authors transformed into a w

 在 2015 年发布初步结果之后，还发布了许多有关 DeepDreaming 的新论文和博客文章：

-*   *DeepDream：用于可视化神经网络的代码示例*- [https://research.googleblog.com/2015/07/deepdream-code-example-for-visualizing.html](https://research.googleblog.com/2015/07/deepdream-code-example-for-visualizing.html)
-*   当机器人幻觉，拉弗朗斯，阿德里安- [https://www.theatlantic.com/technology/archive/2015/09/robots-hallucinate-dream/403498/](https://www.theatlantic.com/technology/archive/2015/09/robots-hallucinate-dream/403498/)
+```py
+DeepDream: A code example to visualize Neural Networks--https://research.googleblog.com/2015/07/deepdream-code-example-for-visualizing.html
+
+When Robots Hallucinate, LaFrance, Adrienne--https://www.theatlantic.com/technology/archive/2015/09/robots-hallucinate-dream/403498/
+```

 此外，了解如何可视化预训练网络的每一层并更好地了解网络如何记忆较低层的基本功能以及较高层的较复杂功能可能会很有趣。 在线提供有关此主题的有趣博客文章：

-*   卷积神经网络如何看待世界- [https://blog.keras.io/category/demo.html](https://blog.keras.io/category/demo.html)
\ No newline at end of file
+*   [卷积神经网络如何看待世界](https://blog.keras.io/category/demo.html)
\ No newline at end of file
--- a/docs/tf-1x-dl-cookbook/05.md
+++ b/docs/tf-1x-dl-cookbook/05.md
@@ -121,7 +121,7 @@ Training Step: 3519 | total loss: 0.09738 | time: 85.043s

 # 这个怎么运作...

-*用于句子分类的卷积神经网络*，Yoon Kim，EMNLP 2014（ [https://arxiv.org/abs/1408.5882](https://arxiv.org/abs/1408.5882) ）。 请注意，由于筛选器窗口对连续单词进行操作，因此本文提出的模型保留了一些有关位置的信息。 从论文中提取的以下图像以图形方式表示了网络之外的主要直觉。 最初，文本被表示为基于标准嵌入的向量，从而为我们提供了一维密集空间中的紧凑表示。 然后，使用多个标准一维卷积层处理矩阵。
+[用于句子分类的卷积神经网络，Yoon Kim，EMNLP 2014](https://arxiv.org/abs/1408.5882)。 请注意，由于筛选器窗口对连续单词进行操作，因此本文提出的模型保留了一些有关位置的信息。 从论文中提取的以下图像以图形方式表示了网络之外的主要直觉。 最初，文本被表示为基于标准嵌入的向量，从而为我们提供了一维密集空间中的紧凑表示。 然后，使用多个标准一维卷积层处理矩阵。

 Note that the model uses multiple filters (with varying window sizes) to obtain multiple features. After that, there is a max pool operation where the idea is to capture the most important feature-the one with the highest value for each feature map. For regularization, the article proposed to adopt a dropout on the penultimate layer with a constraint on L2-norms of the weight vectors. The final layer will output the sentiment as positive or negative.


--- a/docs/tf-1x-dl-cookbook/13.md
+++ b/docs/tf-1x-dl-cookbook/13.md
@@ -2,21 +2,21 @@

 深度学习的成功极大地促进了特征工程的工作。 确实，传统的机器学习很大程度上取决于对正确的功能集的选择，而且与选择特定的学习算法相比，这一步骤通常更为重要。 深度学习改变了这种情况。 创建正确的模型仍然非常重要，但是现今的网络对特定功能集的选择已不那么敏感，并且能够自动选择真正重要的功能。

-取而代之的是，深度学习的引入使人们更加关注正确的神经网络架构的选择。 这意味着研究人员的兴趣正逐渐从功能工程转向网络工程**。 AutoML** （**元学习**）是一个新兴的研究主题，旨在针对给定的学习任务自动选择最有效的神经网络。 换句话说，AutoML 代表*或学习如何有效学习* 的一组方法。 考虑例如机器翻译，图像识别或游戏的任务。 通常，模型是由工程师，数据科学家和领域专家组成的团队手动设计的。 如果您认为一个典型的 10 层网络可以具有约 10 个 <sup>10</sup> 候选网络，那么您就会知道该过程可能很昂贵，容易出错并且最终不是最佳选择。
+取而代之的是，深度学习的引入使人们更加关注正确的神经网络架构的选择。 这意味着研究人员的兴趣正逐渐从功能工程转向网络工程。 **AutoML**（**元学习**）是一个新兴的研究主题，旨在针对给定的学习任务自动选择最有效的神经网络。 换句话说，AutoML 代表*学习如何有效学习*的一组方法。 考虑例如机器翻译，图像识别或游戏的任务。 通常，模型是由工程师，数据科学家和领域专家组成的团队手动设计的。 如果您认为一个典型的 10 层网络可以具有约`10^10`个候选网络，那么您就会知道该过程可能很昂贵，容易出错并且最终不是最佳选择。

 # 带有递归网络和强化学习的元学习

-解决此问题的关键思想是拥有一个控制器网络，该控制器网络会在给定特定网络输入的情况下，以概率 *p* 提出*子*模型架构。 对孩子进行训练和评估，以解决要解决的特定任务（例如，孩子获得的准确度 *R* ）。 该评估 *R* 被传递回控制器，该控制器进而使用 R 来改善下一个候选架构。 在此框架下，可以将候选儿童到控制器的反馈建模为计算 *p* 的梯度的任务，然后通过 *R* 缩放此梯度。 控制器可以实现为循环神经网络（请参见下图）。 这样做，控制器将倾向于在迭代之后获得更好的 *R* 的体系结构候选区域，并倾向于给得分不那么高的候选区域分配较低的概率。
+解决此问题的关键思想是拥有一个控制器网络，该控制器网络会在给定特定网络输入的情况下，以概率 *p* 提出*子*模型架构。 对孩子进行训练和评估，以解决要解决的特定任务（例如，孩子获得的准确度 *R*）。 该评估 *R* 被传递回控制器，该控制器进而使用 R 来改善下一个候选架构。 在此框架下，可以将候选儿童到控制器的反馈建模为计算 *p* 的梯度的任务，然后通过 *R* 缩放此梯度。 控制器可以实现为循环神经网络（请参见下图）。 这样做，控制器将倾向于在迭代之后获得更好的 *R* 的体系结构候选区域，并倾向于给得分不那么高的候选区域分配较低的概率。

 ![](img/30ccd28f-f08f-4323-aae4-313b11ba8ddb.png)

-例如，控制器循环神经网络可以对卷积网络进行采样。 控制器可以预测许多超参数，例如滤镜高度，滤镜宽度，步幅高度，步幅宽度和一层滤镜的数量，然后可以重复。 每个预测可以由 softmax 分类器执行，然后输入到下一个 RNN 时间步中。 以下图片来自*带增强学习的神经体系结构搜索*，Barret Zoph，Quoc V. Le， [https://arxiv.org/abs/1611.01578](https://arxiv.org/abs/1611.01578) ：
+例如，控制器循环神经网络可以对卷积网络进行采样。 控制器可以预测许多超参数，例如滤镜高度，滤镜宽度，步幅高度，步幅宽度和一层滤镜的数量，然后可以重复。 每个预测可以由 softmax 分类器执行，然后输入到下一个 RNN 时间步中。 以下图片来自[“使用增强学习的神经体系结构搜索”](https://arxiv.org/abs/1611.01578)，Barret Zoph，Quoc V. Le：

 ![](img/9986f40c-9051-4483-959c-00a067ed0e2a.png)

-预测超参数是不够的，因为最好定义一组动作以在网络中创建新层。 这特别困难，因为描述新层的奖励函数极有可能是不可区分的，因此无法通过标准技术（例如 SGD）对其进行优化。 解决方案来自强化学习，它包括采用类似于我们的第 9 章，*强化学习*中所述的策略梯度网络。
+预测超参数是不够的，因为最好定义一组动作以在网络中创建新层。 这特别困难，因为描述新层的奖励函数极有可能是不可区分的，因此无法通过标准技术（例如 SGD）对其进行优化。 解决方案来自强化学习，它包括采用类似于我们的第 9 章，“强化学习”中所述的策略梯度网络。

-除此之外，并行性可用于优化控制器 RNN 的参数。 Quoc Le＆Barret Zoph 建议采用参数服务器方案，其中我们有一个 S 碎片的参数服务器，用于存储 K 个控制器副本的共享参数。 每个控制器副本都采样了如下图所示的并行训练的不同子架构，如下图所示，取自*带增强学习的神经架构搜索*，Barret Zoph，Quoc V. Le， [https：// arxiv.org/abs/1611.01578](https://arxiv.org/abs/1611.01578) ：
+除此之外，并行性可用于优化控制器 RNN 的参数。 Quoc Le＆Barret Zoph 建议采用参数服务器方案，其中我们有一个 S 碎片的参数服务器，用于存储 K 个控制器副本的共享参数。 每个控制器副本都采样了如下图所示的并行训练的不同子架构，如下图所示，取自[“使用增强学习的神经架构搜索”](https://arxiv.org/abs/1611.01578)，Barret Zoph，Quoc V. Le：

 ![](img/23d54b43-728d-4230-b0ab-4d219de2c679.png)

@@ -24,7 +24,7 @@ Quoc 和 Barret 将 AutoML 技术用于神经体系结构搜索应用于 Penn Tr

 # 元学习块

-在*用于可伸缩图像识别的学习可传输体系结构*中，Barret Zoph，Vijay Vasudevan，Jonathon Shlens，Quoc V. Le，2017 [https://arxiv.org/abs/1707.07012](https://arxiv.org/abs/1707.07012) 。 建议在小型数据集上学习建筑构造块，然后将其传输到大型数据集。 作者建议在 CIFAR-10 数据集上搜索最佳的卷积层（或单元），然后通过堆叠该单元的更多副本（每个都有其自己的参数），将此学习到的单元应用于 ImageNet 数据集。 准确地说，所有卷积网络都是由结构相同但权重不同的卷积层（或单元）组成的。 因此，将搜索最佳卷积体系结构简化为搜索最佳单元结构，这样可以更快地将其推广到其他问题。 尽管无法在 ImageNet 上直接学习该单元，但是在已发表的工作中，由学得最好的单元构成的体系结构可实现 ImageNet 的最新精度为 82.7％top-1 和 96.2％top-5。 该模型的 top-1 准确性比人类发明的最佳体系结构高 1.2％，而 FLOPS 则减少了 90 亿个，与之前的最新模型相比降低了 28％。 还需要注意的重要一点是，使用 RNN + RL（循环神经网络+强化学习）学习的模型正在击败随机搜索（RL）代表的基线，如本文中所取的图所示。 在 RL 与 RS 中确定的前 5 名和前 25 名模型的平均表现中，RL 始终是赢家：
+在[用于可伸缩图像识别的学习可传输体系结构](https://arxiv.org/abs/1707.07012)（Barret Zoph，Vijay Vasudevan，Jonathon Shlens，Quoc V. Le，2017）中，建议在小型数据集上学习建筑构造块，然后将其传输到大型数据集。 作者建议在 CIFAR-10 数据集上搜索最佳的卷积层（或单元），然后通过堆叠该单元的更多副本（每个都有其自己的参数），将此学习到的单元应用于 ImageNet 数据集。 准确地说，所有卷积网络都是由结构相同但权重不同的卷积层（或单元）组成的。 因此，将搜索最佳卷积体系结构简化为搜索最佳单元结构，这样可以更快地将其推广到其他问题。 尽管无法在 ImageNet 上直接学习该单元，但是在已发表的工作中，由学得最好的单元构成的体系结构可实现 ImageNet 的最新精度为 82.7％top-1 和 96.2％top-5。 该模型的 top-1 准确性比人类发明的最佳体系结构高 1.2％，而 FLOPS 则减少了 90 亿个，与之前的最新模型相比降低了 28％。 还需要注意的重要一点是，使用 RNN + RL（循环神经网络+强化学习）学习的模型正在击败随机搜索（RL）代表的基线，如本文中所取的图所示。 在 RL 与 RS 中确定的前 5 名和前 25 名模型的平均表现中，RL 始终是赢家：

 ![](img/c806db28-97c3-409d-8877-d86502c86e12.png)

@@ -32,19 +32,19 @@ Quoc 和 Barret 将 AutoML 技术用于神经体系结构搜索应用于 Penn Tr

 可以对元学习系统进行训练以完成大量任务，然后对其元学习新任务的能力进行测试。 这种元学习的一个著名例子是在高级 CNN 章节中讨论的所谓转移学习，其中网络可以从相对较小的数据集中成功学习基于图像的新任务。 但是，对于诸如语音，语言和文本之类的非视觉领域，没有类似的预训练方案。

-*用于快速适应深度网络的模型不可知元学习*，切尔西·芬恩（Chelsea Finn），彼得·阿比尔（Siety Levine），2017 年， [https://arxiv.org/abs/1703.03400](https://arxiv.org/abs/1703.03400) 提出了一个模型 -不可知论方法的名称为 MAML，它与经过梯度下降训练的任何模型兼容，并且适用于各种不同的学习问题，包括分类，回归和强化学习。 元学习的目标是针对各种学习任务训练模型，以便仅使用少量训练样本即可解决新的学习任务。 元学习器旨在找到一种可以快速（以很少的步骤）并有效地（仅使用几个示例）快速适应各种问题的初始化。 用参数为θ的参数化函数 f <sub>θ</sub>表示的模型。 当适应新任务 T <sub>i</sub> 时，模型参数θ变为θ <sub>i</sub> <sup>〜</sup>。 在 MAML 中，使用对任务 T <sub>i</sub> 的一个或多个梯度下降更新来计算更新的参数向量θ <sub>i</sub> <sup>'</sup>。
+[用于快速适应深度网络的模型不可知元学习](https://arxiv.org/abs/1703.03400)（切尔西·芬恩（Chelsea Finn），彼得·阿比尔（Siety Levine），2017 年）提出了一个模型 -不可知论方法的名称为 MAML，它与经过梯度下降训练的任何模型兼容，并且适用于各种不同的学习问题，包括分类，回归和强化学习。 元学习的目标是针对各种学习任务训练模型，以便仅使用少量训练样本即可解决新的学习任务。 元学习器旨在找到一种可以快速（以很少的步骤）并有效地（仅使用几个示例）快速适应各种问题的初始化。 用参数为θ的参数化函数 f <sub>θ</sub>表示的模型。 当适应新任务 T <sub>i</sub> 时，模型参数θ变为θ <sub>i</sub> <sup>〜</sup>。 在 MAML 中，使用对任务 T <sub>i</sub> 的一个或多个梯度下降更新来计算更新的参数向量θ <sub>i</sub> <sup>'</sup>。

 例如，当使用一个梯度更新时，θ <sub>i</sub> <sup>〜</sup> =θ-α∇<sub>θ</sub> L <sub>Ti</sub> （f <sub>θ</sub> ）其中 L <sub>Ti</sub> 是任务 T 的损失函数，而α是元学习参数。 该图报告了 MAML 算法：

 ![](img/30503d87-ad59-4ec7-8e66-2918624faaf7.png)

-MAML 能够在流行的少拍图像分类基准上大大胜过许多现有方法。 旨在从一个或几个概念中学习新概念的镜头很少有挑战性。 例如，*通过概率性程序归纳*进行人级概念学习，Brenden M. Lake，Ruslan Salakhutdinov，Joshua B. Tenenbaum，2015 年， [https://www.cs.cmu.edu/ 〜rsalakhu / papers / LakeEtAl2015Science.pdf](https://www.cs.cmu.edu/~rsalakhu/papers/LakeEtAl2015Science.pdf) ，建议人们可以学会从单个图片中识别新颖的两轮车，例如红色框中包含的图片，如下所示：
+MAML 能够在流行的少拍图像分类基准上大大胜过许多现有方法。 旨在从一个或几个概念中学习新概念的镜头很少有挑战性。 例如，[通过概率性程序归纳进行人级概念学习](https://www.cs.cmu.edu/~rsalakhu/papers/LakeEtAl2015Science.pdf)（Brenden M. Lake，Ruslan Salakhutdinov，Joshua B. Tenenbaum，2015 年），建议人们可以学会从单个图片中识别新颖的两轮车，例如红色框中包含的图片，如下所示：

 ![](img/d55d0f5e-ee42-4c09-a213-65fadee76b26.png)

 在 2017 年底，AutoML（或元学习）主题是一个活跃的研究主题，旨在针对给定的学习任务自动选择最高效的神经网络。 目标是学习如何高效，自动地设计网络，从而可以学习特定任务或适应新任务。 主要问题是不能简单地用可微分的损失函数描述网络的设计，因此传统的优化技术不能简单地用于元学习。 因此，已经提出了一些解决方案，包括具有控制器递归网络（RNN）和基于强化学习的奖励策略的思想，以及具有与模型无关的元学习的思想。 两种方法都非常有前途，但是肯定还有很多研究空间。

-因此，如果您对一个热门话题感兴趣，那么*学习为深度学习*当然是一个可以考虑作为下一份工作的空间。
+因此，如果您对一个热门话题感兴趣，那么*学习深度学习*当然是一个可以考虑作为下一份工作的空间。

 *   Google 在*中提出了采用 RNN 作为控制器的方法，该方法使用机器学习来探索神经网络架构*； Quoc Le & Barret Zoph，2017 年， [https://research.googleblog.com/2017/05/using-machine-learning-to-explore.html](https://research.googleblog.com/2017/05/using-machine-learning-to-explore.html) 。
 *   *带有增强学习的神经体系结构搜索*，Barret Zoph，Quoc V. Le， [https://arxiv.org/abs/1611.01578](https://arxiv.org/abs/1611.01578) 是一篇开创性的论文，它证明了有关 Google 方法的更多细节。 但是，RNN 不是唯一的选择。