2021-01-21 16:07:50

97b03d3a · wizardforcel · fa84ca6f · 97b03d3a · 97b03d3a · 97b03d3a
22 changed file
--- a/new/handson-1shot-learn-py/0.md
+++ b/new/handson-1shot-learn-py/0.md
 # 前言

-一次学习一直是许多科学家的活跃研究领域，他们试图找到一种在学习方面尽可能接近人类的认知机器。 关于人类如何实现一键式学习的理论多种多样，从非参数模型和深度学习架构到概率模型，可以采用多种方法来实现这一功能。
+一次学习一直是许多科学家的活跃研究领域，他们试图找到一种在学习方面尽可能接近人类的认知机器。 关于人类如何实现一次学习的理论多种多样，从非参数模型和深度学习架构到概率模型，可以采用多种方法来实现这一功能。

-《Python 一次学习实用指南》将专注于设计和学习可以从一个或几个训练示例中学习与对象有关的信息的模型。 本书将首先为您简要介绍深度学习和一次学习，以帮助您入门。 然后，您将学习实现此目标的不同方法，包括非参数模型，深度学习架构和概率模型。 精通核心原理后，您将探索一些实用的实际示例和使用 scikit-learn 和 PyTorch 的一键式学习的实现。
+《Python 一次学习实用指南》将专注于设计和学习可以从一个或几个训练示例中学习与对象有关的信息的模型。 本书将首先为您简要介绍深度学习和一次学习，以帮助您入门。 然后，您将学习实现此目标的不同方法，包括非参数模型，深度学习架构和概率模型。 精通核心原理后，您将探索一些实用的实际示例和使用 scikit-learn 和 PyTorch 的一次学习的实现。

 到本书结尾，您将熟悉单发和少发的学习方法，并能够通过单发学习来加速深度学习过程。

 # 这本书是给谁的

-人工智能研究人员以及希望应用一键式学习以减少其模型的总体训练时间的机器学习和深度学习专家，将发现本书是非常好的入门学习资源。
+人工智能研究人员以及希望应用一次学习以减少其模型的总体训练时间的机器学习和深度学习专家，将发现本书是非常好的入门学习资源。

 # 本书涵盖的内容


--- a/new/handson-1shot-learn-py/1.md
+++ b/new/handson-1shot-learn-py/1.md
-# 一键式学习简介
+# 一次学习简介

 人们可以通过少量示例学习新事物。 当受到刺激时，人类似乎能够快速理解新概念，然后在将来认识到这些概念的变体。 孩子可以从一张图片中学会识别狗，但是机器学习系统需要大量示例来学习狗的特征并在将来识别它们。 作为一个领域，机器学习在各种任务（例如分类和 Web 搜索以及图像和语音识别）上都取得了巨大的成功。 但是，这些模型通常在没有大量数据（示例）可供学习的情况下表现不佳。 本书的主要动机是使用很少的示例来训练模型，而无需进行大量的重新训练就能够将其概括为不熟悉的类别。

-深度学习在机器学习的发展中发挥了重要作用，但它也需要大量的数据集。 不同的技术（例如正则化）可以减少在低数据环境中的过拟合，但不能解决较少的训练示例所固有的问题。 此外，大型数据集导致学习缓慢，需要使用梯度下降法进行许多权重更新。 这主要是由于 ML 算法的参数方面，在该方面需要慢慢学习训练示例。 相反，许多已知的非参数模型（例如最近邻居）不需要任何训练，但是性能取决于有时任意选择的距离度量（例如 L2 距离）。 一次学习是计算机视觉中的对象分类问题。 尽管大多数基于 ML 的对象分类算法都需要数百或数千张图像和非常大的数据集进行训练，但是一次学习的目的是从一个或仅几个训练图像中学习有关对象类别的信息。 在本章中，我们将学习一键式学习的基础知识，并探索其实际应用。
+深度学习在机器学习的发展中发挥了重要作用，但它也需要大量的数据集。 不同的技术（例如正则化）可以减少在低数据环境中的过拟合，但不能解决较少的训练示例所固有的问题。 此外，大型数据集导致学习缓慢，需要使用梯度下降法进行许多权重更新。 这主要是由于 ML 算法的参数方面，在该方面需要慢慢学习训练示例。 相反，许多已知的非参数模型（例如最近邻居）不需要任何训练，但是性能取决于有时任意选择的距离度量（例如 L2 距离）。 一次学习是计算机视觉中的对象分类问题。 尽管大多数基于 ML 的对象分类算法都需要数百或数千张图像和非常大的数据集进行训练，但是一次学习的目的是从一个或仅几个训练图像中学习有关对象类别的信息。 在本章中，我们将学习一次学习的基础知识，并探索其实际应用。

 本章将涵盖以下主题：

 *   人脑概述
 *   机器学习-历史概述
-*   一键式学习-概述
+*   一次学习-概述
 *   设置环境
 *   编码练习

@@ -25,7 +25,7 @@

 [您可以在本书的 GitHub 存储库中找到本章的代码文件](https://github.com/PacktPublishing/Hands-on-One-Shot-Learning-with-Python)。

-# 人脑–概述
+# 人脑概述

 自文明开始以来，人脑一直是研究的主题。 如果我们研究孩子的成长，我们会发现随着他们的成长，他们的学习能力也会提高。 首先，他们了解食物，然后学习识别面孔。 每当孩子学到东西时，信息就会被编码到大脑的某个部分。 尽管如此，真正的问题仍然存在，信息如何存储在我们的大脑中？ 为什么有些信息被硬编码，而其他信息却容易被忘记？

@@ -72,11 +72,11 @@

 在下一节中，我们将介绍一次学习，并学习如何尝试解决机器学习和深度学习所面临的挑战。

-# 一键式学习–概述
+# 一次学习概述

-一次学习可以看作是一种类似于人类学习方式的机器训练方法。 一次学习是一种在有限的监督数据的帮助下，借助强大的先验知识来学习新任务的方法。 李菲菲博士最早发表的导致图像分类问题精度高的著作可以追溯到 2000 年代-尽管近年来，研究人员在通过不同的深度学习架构和优化算法（例如， 匹配网络，不可知论元学习模型和记忆增强神经网络。 一键式学习在多个行业中都有很多应用，尤其是在医疗和制造业中。 在医学上，当可用数据有限时，例如在治疗罕见疾病时，我们可以使用一次学习。 而在制造中，我们可以减少人为错误，例如表壳制造中的缺陷。
+一次学习可以看作是一种类似于人类学习方式的机器训练方法。 一次学习是一种在有限的监督数据的帮助下，借助强大的先验知识来学习新任务的方法。 李菲菲博士最早发表的导致图像分类问题精度高的著作可以追溯到 2000 年代-尽管近年来，研究人员在通过不同的深度学习架构和优化算法（例如， 匹配网络，不可知论元学习模型和记忆增强神经网络。 一次学习在多个行业中都有很多应用，尤其是在医疗和制造业中。 在医学上，当可用数据有限时，例如在治疗罕见疾病时，我们可以使用一次学习。 而在制造中，我们可以减少人为错误，例如表壳制造中的缺陷。

-# 一口气学习的先决条件
+# 一次学习的先决条件

 如果我们进一步讨论如何从有限的数据中学习必要的信息，我们将意识到人脑已经受过训练以提取重要信息的神经元。 例如，如果教导孩子球形物体是球，那么他们的大脑也会处理有关球的大小和纹理的信息，也称为物体的**过滤器**。 因此，对于任何形式的一次学习，我们都可以说我们至少需要满足以下条件之一：

@@ -88,7 +88,7 @@

 在下一部分中，我们将进行简短的编码练习，以了解当我们拥有小的数据集时，简单的非参数 kNN 的性能要优于神经网络。 不幸的是，它在现实世界中可能无法很好地工作，因为我们仍然存在学习良好的特征表示并选择合适的距离函数的问题。

-# 一键式学习的类型
+# 一次学习的类型

 解决单次学习的方法多种多样。 粗略地说，它们可以分为五个主要类别：

@@ -154,7 +154,7 @@ jupyter notebook

 在本节中，我们将探索一种基本的一次学习方法。 作为人类，我们有一种分层的思维方式。 例如，如果我们看到一些未知的东西，我们会寻找它与我们已经知道的对象的相似性。 同样，在本练习中，我们将使用非参数 kNN 方法查找类。 我们还将其性能与基本神经网络架构进行比较。

-# kNN –基本的一次学习
+# kNN – 基本的一次学习

 在本练习中，我们将把 kNN 与拥有少量数据集的神经网络进行比较。 我们将使用从`scikit-learn`库导入的`iris`数据集。

@@ -285,7 +285,7 @@ Accuracy of our model is equal 50.0 %.

 对于我们当前的情况，我们可以看到神经网络的准确率不如 kNN。 这可能是由于许多原因造成的，包括数据集的随机性，邻居的选择以及层数。 但是，如果我们运行足够的时间，我们会发现 kNN 总是会存储更好的数据，因为它总是存储数据点，而不是像神经网络那样学习参数。 因此，kNN 可以称为单次学习方法。

-# 概要
+# 总结

 深度学习已经彻底变革了数据科学领域，并且仍在不断进步，但是仍然有一些主要行业尚未体验到深度学习的所有优势，例如医疗和制造业。 人类成就的顶峰将是创造一种可以像人类一样学习并且可以像人类一样成为专家的机器。 但是，成功的深度学习通常需要拥有非常庞大的数据集才能进行工作。 幸运的是，本书重点介绍了可以消除此先决条件的架构。


--- a/new/handson-1shot-learn-py/2.md
+++ b/new/handson-1shot-learn-py/2.md
@@ -157,7 +157,7 @@

 # 应用领域

-通常，可以使用各种方法解决问题。 例如我们手机上的人脸检测。 图像分类是一种需要大量数据点的方法，而如果使用单次学习的连体网络架构，则仅需几个数据点就可以实现更高的准确率。 连体网络架构已成为软件行业采用的最流行的一键式学习架构之一。 它可用于各种其他应用程序，例如面部检测，手写检测和垃圾邮件检测。 但是仍然有很多改进的余地，并且各种各样的研究者正在为此努力。 在下一节中，以相似的主题进行工作，我们将学习匹配的网络架构，该架构使用注意力机制和不同的训练过程来学习训练集标签上的概率分布。
+通常，可以使用各种方法解决问题。 例如我们手机上的人脸检测。 图像分类是一种需要大量数据点的方法，而如果使用单次学习的连体网络架构，则仅需几个数据点就可以实现更高的准确率。 连体网络架构已成为软件行业采用的最流行的一次学习架构之一。 它可用于各种其他应用程序，例如面部检测，手写检测和垃圾邮件检测。 但是仍然有很多改进的余地，并且各种各样的研究者正在为此努力。 在下一节中，以相似的主题进行工作，我们将学习匹配的网络架构，该架构使用注意力机制和不同的训练过程来学习训练集标签上的概率分布。

 # 了解匹配网络

@@ -1062,7 +1062,7 @@ plot_loss(train_loss,val_loss)

 您可能还观察到某些模型是从头开始训练的-我们可能已经使用了迁移学习架构，或者增加了 LSTM 架构的隐藏大小，或者也许被认为是加权的交叉熵损失函数。 总是有实验和改进的空间。 如果您想进一步尝试使用该模型，建议您访问本书的 GitHub 页面。

-# 概要
+# 总结

 在本章中，我们学习了基于指标的一次学习方法。 我们探索了两种神经网络架构，它们已在研究界和软件行业中用于一次学习。 我们还学习了如何评估经过训练的模型。 然后，我们使用 MNIST 数据集在连体网络中执行了一个练习。 总之，可以说匹配网络和连体网络架构都已经成功证明，通过更改损失函数或特征表示，我们可以用有限的数据量实现目标。


--- a/new/handson-1shot-learn-py/3.md
+++ b/new/handson-1shot-learn-py/3.md
@@ -714,7 +714,7 @@ class WriteHead(Memory):

 请注意，此练习只是为了展示 MANN 如何受到 NTM 的启发。 如果您想在真实的数据集上探索前面的练习，请参考[GitHub 存储库](https://github.com/PacktPublishing/Hands-On-One-shot-Learning-with-Python/tree/master/Chapter03)。

-# 概要
+# 总结

 在本章中，我们探索了用于单次学习的不同形式的基于模型的架构。 我们观察到的最常见的事情是使用外部存储器，这对学习神经网络不同阶段的表示形式有什么帮助。 NMT 方法在一次学习任务中表现良好，但是由于手工设计的内存寻址功能，它们的能力仍然有限，因为它们必须具有差异性。 探索更复杂的功能来处理内存可能很有趣。 在元网络中，我们看到了如何定义一个新网络以实现对原始网络的快速学习，以及如何在元学习器级别上存储有关表示的信息如何在基础级别上微调参数。 尽管基于模型的架构是实现一次学习的好方法，但它们具有外部存储器的先决条件，因此与其他方法相比，实现基于模型的架构的成本昂贵。


--- a/new/handson-1shot-learn-py/4.md
+++ b/new/handson-1shot-learn-py/4.md
@@ -40,7 +40,7 @@ MAML 的目的是为模型的参数提供良好的初始化，从而以较少的

 如上图所示，`θ`是模型的参数，粗黑线是元学习阶段。 假设我们有三个不同的新任务，并且为每个任务（带有箭头的灰色线）执行了一个梯度步骤。 我们可以看到参数`θ`接近三个任务的所有三个最佳参数，这使`θ`成为可以快速适应不同新任务的最佳参数初始化。 结果，参数θ的很小变化将导致任何任务的损失函数的最佳最小化。 根据这一观察结果，MML 建议我们首先应通过主要数据集学习θ； 在对实际数据集进行微调的同时，我们仅需移动一小步。

-顾名思义，与模型无关的元学习可以用于任何形式的模型，无论是分类，回归还是强化学习。 但是对于这本书，我们将只关注 MAML 算法的一键式学习分类方面。 所以，让我们开始吧！
+顾名思义，与模型无关的元学习可以用于任何形式的模型，无论是分类，回归还是强化学习。 但是对于这本书，我们将只关注 MAML 算法的一次学习分类方面。 所以，让我们开始吧！

 # 算法

@@ -537,7 +537,7 @@ plt.savefig('daml-sine.png')

 在这里，您可以看到我们的净模型（橙色线）非常接近真实数据集（蓝色线）。 如果您希望使用真实的数据集探索这些模型，请参考[上的 GitHub 存储库 https://github.com/PacktPublishing/Hands-On-One-shot-Learning-with-Python/tree/ master / Chapter04](https://github.com/PacktPublishing/Hands-On-One-shot-Learning-with-Python/tree/master/Chapter04) 。 在这里，您会发现使用 Omniglot 和 mini-ImageNet 数据集的其他优化算法。

-# 概要
+# 总结

 要求解任何方程，通常我们可以使用很多方法。 同样，为了进行优化（学习神经网络的参数），许多研究人员也公开了许多方法，但是事实证明梯度下降是一种适用于每种情况的通用方法。 如果我们希望处理特定类型的神经网络问题，那么最好探索可能适合我们任务的不同优化技术。


--- a/new/handson-1shot-learn-py/5.md
+++ b/new/handson-1shot-learn-py/5.md
@@ -216,7 +216,7 @@ K 次测试时间 <sub>![](img/c3734ba9-5a51-47ff-84f2-54c038662868.png)</sub> 

 在 miniImageNet 数据集（由 100 个类组成，每个类中包含 600 个图像）上，此方法可以一次学习一次和五次学习获得最先进的结果。 离统一概率模型和深度学习的领域又迈进了一步，将两者结合起来，可以开发出真正强大的模型，从而利用概率领域的强大数学保证和深度学习模型的强大健壮功能。 判别式 k 次学习方法仍然需要大量带标签的训练数据来训练基于深度学习的特征提取器。 另一方面，贝叶斯程序学习方法利用模型中的归纳偏差和手工设计的特征，因此需要较少的标注训练数据。

-# 概要
+# 总结

 在本章中，我们学习了在贝叶斯框架内开发概率模型的方法，该模型可以极大地减少数据需求并达到人类水平的性能。 从前面讨论的手写字符的示例中，我们还观察到概率模型不仅可以学习如何对字符进行分类，还可以学习基本概念，即以新的方式应用获得的知识，例如生成相似的字符并生成全新的 集合中只有几个字符的字符，以及将字符解析为部分和关系。


--- a/new/handson-1shot-learn-py/6.md
+++ b/new/handson-1shot-learn-py/6.md
 # 结论和其他方法

-在这本书中，我们了解了用于深度学习的各种形式的架构，以及从手动特征提取到变型贝叶斯框架的各种技术和方法。 一次学习是一个特别活跃的研究领域，因为它专注于根据人类的神经能力更紧密地建立一种机器意识。 过去 5 年中，随着深度学习社区的进步，我们至少可以说，我们正在开发一种可以像人类一样同时学习多个任务的机器。 在这一章中，我们将看到一键式学习还有哪些其他选择，并讨论本书中未深入探讨的其他方法。
+在这本书中，我们了解了用于深度学习的各种形式的架构，以及从手动特征提取到变型贝叶斯框架的各种技术和方法。 一次学习是一个特别活跃的研究领域，因为它专注于根据人类的神经能力更紧密地建立一种机器意识。 过去 5 年中，随着深度学习社区的进步，我们至少可以说，我们正在开发一种可以像人类一样同时学习多个任务的机器。 在这一章中，我们将看到一次学习还有哪些其他选择，并讨论本书中未深入探讨的其他方法。

 将涵盖以下主题：

@@ -75,7 +75,7 @@

 # 应用领域

-从理论上讲，一键式学习有多种应用程序，但直到最近才开始在实际场景中使用。 使用一键式学习已取得了最新进展，例如编写 SQL 代码，改进变形的医学图像以及运行签名验证。 还有其他几个领域仍在研究中。 OpenAI，Google，Microsoft 和 Amazon 等公司正在 AI 研究方面投入巨资。 解决一次学习将意味着创建具有人类能力的机械大脑。 这种进步可以通过多种方式挽救生命：可以为罕见病的发现铺平道路，解决全球粮食危机或优化供应链模型。
+从理论上讲，一次学习有多种应用程序，但直到最近才开始在实际场景中使用。 使用一次学习已取得了最新进展，例如编写 SQL 代码，改进变形的医学图像以及运行签名验证。 还有其他几个领域仍在研究中。 OpenAI，Google，Microsoft 和 Amazon 等公司正在 AI 研究方面投入巨资。 解决一次学习将意味着创建具有人类能力的机械大脑。 这种进步可以通过多种方式挽救生命：可以为罕见病的发现铺平道路，解决全球粮食危机或优化供应链模型。

 在本书中，我们探讨了一些一次学习的可能方法。 如果您想探索更多内容，请参阅“进一步阅读”部分。


--- a/new/rl-tf/01.md
+++ b/new/rl-tf/01.md
@@ -1012,7 +1012,7 @@ Libratus 是由卡内基梅隆大学的 Tuomas Sandholm 教授带领的团队设

 尽管 Libratus 专注于玩扑克，但其设计师提到了它能够学习任何信息不完整且对手参与欺骗的游戏的能力。 结果，他们提出该系统可以应用于网络安全，商务谈判或医疗计划领域中的问题。

-# 概要
+# 总结

 在本章中，我们涵盖了构建模块，例如包括逻辑回归的浅层和深度神经网络，单隐藏层神经网络，RNN，LSTM，CNN 及其其他变体。 针对这些主题，我们还介绍了多个激活函数，正向和反向传播的工作方式以及与深度神经网络训练相关的问题，例如消失和梯度爆炸。


--- a/new/rl-tf/02.md
+++ b/new/rl-tf/02.md
@@ -567,7 +567,7 @@ Q 学习和 Q 网络都需要付出一定的稳定性。 在某些情况下，

 由于增加了状态空间，因此与 Q 学习相比，Q 网络具有更大的灵活性。 Q 网络中的深度神经网络可能会导致更好的学习和性能。 就使用深度状态 Q 网络玩 Atari 而言，有许多调整，我们将在接下来的章节中进行讨论。

-# 概要
+# 总结

 在本章中，我们学习了 OpenAI Gym，包括安装各种重要功能以加载，渲染和理解环境状态操作空间。 我们了解了 ε 贪婪方法作为探索与利用难题的解决方案，并尝试实现基本的 Q 学习和 Q 网络算法，以训练增强学习代理从 OpenAI Gym 导航环境。


--- a/new/rl-tf/03.md
+++ b/new/rl-tf/03.md
@@ -588,7 +588,7 @@ After learning completion printing the utilities for each states below from stat

 因此，我们的策略包含`DOWN`，`DOWN`，`RIGHT`，`DOWN`，`RIGHT`和`RIGHT`通过避开空穴状态（5、7、11、12）从`s = 0`（开始状态）到达`s = 15`（目标状态）。

-# 概要
+# 总结

 在本章中，我们介绍了网格世界类型的环境的详细信息，并了解了马尔可夫决策过程的基础，即状态，动作，奖励，过渡模型和策略。 此外，我们利用这些信息通过价值迭代和策略迭代方法来计算效用和最优策略。


--- a/new/rl-tf/04.md
+++ b/new/rl-tf/04.md
@@ -606,7 +606,7 @@ while True:

 如果您在笔记本电脑上运行先前的代码，则融合可能需要几天的时间。 尝试使用 GPU 驱动的云实例在大约 5-6 个小时内获得更好的结果。

-# 概要
+# 总结

 在本章中，我们介绍了强化学习中最著名的算法，策略梯度和参与者批评算法。 在制定策略梯度以加强学习中更好的基准测试方面，正在进行大量研究。 策略梯度的进一步研究包括**信任区域策略优化**（**TRPO**），**自然策略梯度**和**深度依赖策略梯度**（**DDPG**），这些内容不在本书的讨论范围之内。


--- a/new/rl-tf/05.md
+++ b/new/rl-tf/05.md
@@ -1502,7 +1502,7 @@ Episode 10 completed with total reward 213.212231118 in 786 steps

 因此，我们已经能够成功实现山地车问题的 SARSA 算法。

-# 概要
+# 总结

 我们知道强化学习可以优化环境中智能体的回报，**马尔可夫决策过程**（**MDP**）是一种环境表示和数学框架，用于使用状态对决策进行建模 ，动作和奖励。 在本章中，我们了解到 Q 学习是一种无需任何过渡模型即可为任何 MDP 找到最佳动作选择策略的方法。 另一方面，如果给出了转换模型，则值迭代会为任何 MDP 找到最佳的动作选择策略。


--- a/new/rl-tf/06.md
+++ b/new/rl-tf/06.md
@@ -491,7 +491,7 @@ if __name__ == "__main__":

 ![](img/fae36238-a4f7-46b5-aeeb-0110aac10b23.png)

-# 概要
+# 总结

 我们看到，使用并行学习器更新共享模型可以大大改善学习过程。 我们了解了在深度学习中使用异步方法的原因及其不同的变体，包括异步单步 Q 学习，异步单步 SARSA，异步 N 步 Q 学习和异步优势参与者。 我们还学习了实现 A3C 算法的方法，在该方法中，我们使代理学习了 Breakout 和 Doom 游戏。


--- a/new/rl-tf/07.md
+++ b/new/rl-tf/07.md
@@ -137,7 +137,7 @@ Brett Sperry 首先使用术语**实时策略**（**RTS**）作为宣传其游

 此外，使用异步或分布式多主体强化学习方法（在第 6 章，“异步方法”中讨论），其中学习代理与自己的环境副本并行工作将进一步减少 收敛时间更好的结果。

-# 概要
+# 总结

 在本章中，我们讨论了真正的战略游戏以及 AI 社区的研究人员为何试图解决它们。 我们还介绍了实际策略游戏的复杂性和属性以及不同的传统 AI 方法，例如基于案例的推理和基于在线案例的计划以解决它们及其缺点。 我们讨论了强化学习成为该问题的最佳人选的原因，以及强化学习如何成功解决与早期传统 AI 方法失败有关的实时战略游戏相关的复杂性和问题。 我们还了解了深层自编码器，以及如何使用它们来减少输入数据的维数并获得更好的输入表示。


--- a/new/rl-tf/08.md
+++ b/new/rl-tf/08.md
@@ -228,7 +228,7 @@ AlphaGo 团队决定为每个单板位置评估进行大约 1600 次仿真。 

 AlphaGo Zero 进行的蒙特卡罗树搜索，摘录自 Google DeepMind 的 Silver 等人在 Nature 上发表的文章[《AlphaGo Zero》](https://www.nature.com/articles/nature24270)

-# 概要
+# 总结

 在本章中，我们研究了目前最好的强化学习架构，即 AlphaGo。 我们了解了选择围棋的原因及其相对于象棋的复杂性。 我们还了解了 DeepBlue AI 架构的工作原理，以及围棋需要一种不同的更好的架构和训练过程。 我们研究了 AlphaGo 和 AlphaGo Zero 使用的架构和训练过程，还了解了版本之间的差异以及 AlphaGo Zero 如何超越其早期版本。


--- a/new/rl-tf/09.md
+++ b/new/rl-tf/09.md
@@ -177,7 +177,7 @@ DeepTraffic 由一条高速公路带组成，该高速公路带显示了同时

 对于其他汽车，将按照现实的模式随机选择动作，例如，由于随机选择动作，不会太频繁地改变车道。 以红色（深灰色）显示的汽车由深度强化学习代理控制。 竞争对手获得以 DQN 实施的预定义神经网络。 任务是配置不同的超参数并获得最佳性能，即最高平均速度。

-# 概要
+# 总结

 在本章中，我们谈到了与最大的 AI 问题之一即自动驾驶相关的主要概念和挑战。 我们了解了问题所带来的挑战，还了解了用于使自动驾驶成功的当前方法。 此外，我们从接收感官输入到计划开始，对过程的各个子任务进行了概述。 我们还介绍了著名的 DeepTraffic 仿真，您可以在其中测试神经网络，以了解繁忙交通中的有效运动方式。 自动驾驶本身就是一个不断发展的广泛研究主题，而涵盖所有这些内容超出了本书的范围。


--- a/new/rl-tf/10.md
+++ b/new/rl-tf/10.md
@@ -231,7 +231,7 @@ PVM 是按时间步长顺序（即时间顺序）收集投资组合向量的集
 *   使用行为者-批评类型的框架将有助于长期的市场反应。
 *   在基本 RNN 上优于 LSTM 和 GRU 可以解决梯度消失的问题。

-# 概要
+# 总结

 在本章中，我们研究了最近发布的在金融组合管理中使用深度强化学习的方法之一。 我们查看了金融投资组合管理中的问题陈述，投资组合经理的目标，并将问题陈述映射到强化学习任务。 我们还了解了用于基准化绩效的不同财务指标以及不同的现有在线投资组合管理方法。 使用深度强化学习使财务组合自动化的研究主题是 AI 社区中要解决的最具挑战性的任务之一。 因此，除了本章介绍的方法外，还要尝试研究算法交易中的其他传统机器学习方法。


--- a/new/rl-tf/11.md
+++ b/new/rl-tf/11.md
@@ -171,7 +171,7 @@ Perkins 和 Barto（2002）提出了一种基于 Lyapunov 函数构造强化学

 ![](img/77acde64-835e-4b0f-a142-dc86e02ab6bc.png)

-# 概要
+# 总结

 在本章中，我们介绍了强化学习算法的现状以及机器人技术方面的挑战。 我们还尝试详细了解每个挑战。 我们还了解了实际挑战及其建议的解决方案。 破解端到端机器人技术的解决方案将是 AI 社区最大的里程碑。 当前，算法和数据处理单元的不断改进面临挑战。 但是，我们看到机器人执行一般人工任务的日子已经过去了。 如果您想跟进机器人强化学习中的一些研究，那么您可以从以下选项开始：


--- a/new/rl-tf/12.md
+++ b/new/rl-tf/12.md
@@ -137,7 +137,7 @@ for δ = 0, 1, · · · , min(, ) do
 end for
 ```

-# 概要
+# 总结

 在本章中，我们了解了广告技术领域的基本概念和挑战。 我们还了解了相关的业务模型，例如 CPC，CPM 和 CPA，以及实时策略出价，以及为什么需要一个独立的代理商来使流程自动化。 此外，我们讨论了一种将在线广告中实时出价的问题状态转换为强化学习框架的基本方法。 这是用于强化学习的全新领域。 利用强化学习技术进行广告技术开发的更多探索性作品及其结果尚未发布。


--- a/new/rl-tf/13.md
+++ b/new/rl-tf/13.md
@@ -172,7 +172,7 @@ YOLO 还可以预测训练中所有班级每个盒子的班级得分。 因此

 ![](img/85511cca-8996-4088-9567-e5fea761e566.png)

-# 概要
+# 总结

 在本章中，我们介绍了对象检测中的各种最新技术，例如 R-CNN，Fast R-CNN，Faster R-CNN，YOLO，SSD 等。 此外，我们探索了 Bellver 等人（2016）在《使用深度强化学习的分层对象检测》中所提供的方法。按照这种方法，我们学习了如何创建 MDP 框架以进行对象检测，并以最短的时间步长以自上而下的探索方法分层检测对象。 图像中的对象检测是计算机视觉中的一种应用。 还有其他领域，例如视频中的对象检测，视频标记等等，在这些领域中，强化学习可以创建最先进的学习代理。


--- a/new/rl-tf/14.md
+++ b/new/rl-tf/14.md
@@ -246,7 +246,7 @@ DCN 在答案的开始位置创建概率分布，并在答案的结束位置创

 如果我们检查 F1 分数，则`A`的量度显示单词在跨度`A`中重叠且具有真实答案范围，但答案`B`则不是这种情况。 因此，F1 分数与自关键策略梯度算法一起用作训练的奖励函数。

-# 概要
+# 总结

 在本章中，我们学习了强化学习如何破坏 NLP 的领域。 我们研究了在 NLP 中使用强化学习的原因。 我们涵盖了 NLP 中的两个主要应用领域，即文本摘要和问题回答，并了解了在现有模型中如何实施强化学习框架以获得最新结果的基础。 NLP 中还有其他实施了强化学习的应用程序领域，例如对话生成和机器翻译（讨论它们不在本书的范围之内）。


--- a/new/rl-tf/15.md
+++ b/new/rl-tf/15.md
@@ -225,7 +225,7 @@ ROUGE 还可以通过将机器生成的输出（自动摘要或翻译）与一

 本附录涵盖了 NLP 中顺序模型中 ROUGE 评分的基本概述。 有关 ROUGE-N，ROUGE-L 和 ROUGE-S 的更多详细信息，请浏览[《ROUGE：自动摘要评估包》](http://www.aclweb.org/anthology/W04-1013)，作者为 CY Lin。

-# 概要
+# 总结

 作为附录的一部分，我们涵盖了深度强化学习拓扑的连续动作空间算法的基本概述，其中简要介绍了信任区域策略优化和确定性策略梯度。 我们还了解到 BLEU 和 ROUGE 分数被积极用于基于 NLP 的顺序模型中的评估。