2021-01-22 11:19:25

e2bdbb4a · wizardforcel · 1b4e32a0 · e2bdbb4a · e2bdbb4a · e2bdbb4a
11 changed file
--- a/new/pt-dl-handson/1.md
+++ b/new/pt-dl-handson/1.md
@@ -286,7 +286,7 @@ Figure 1.16: GAN setup

 现代强化学习使用深度网络进行学习，这与我们以前明确编码那些规则的旧方法不同。 我们将研究 Q 学习和深度 Q 学习，向您展示有无深度学习的强化学习之间的区别。

-强化学习被认为是通向一般智能的途径之一，在这种途径中，计算机或代理通过与现实世界，对象或实验的交互或从反馈中学习。 教一个强化学习代理人相当于通过负面和正面奖励来训练狗。 当您给一块饼干拿起球时，或者当您对狗不捡球而大喊时，您会通过消极和积极的奖励来增强对狗大脑的了解。 我们对 AI 代理执行相同的操作，但是正数奖励将为正数，负数奖励将为负数。 即使我们不能将强化学习视为类似于 CNN/RNN 等的另一种架构，但我还是在这里将其作为使用深度神经网络解决实际问题的另一种方法：
+强化学习被认为是通向一般智能的途径之一，在这种途径中，计算机或代理通过与现实世界，对象或实验的交互或从反馈中学习。 教一个强化学习智能体人相当于通过负面和正面奖励来训练狗。 当您给一块饼干拿起球时，或者当您对狗不捡球而大喊时，您会通过消极和积极的奖励来增强对狗大脑的了解。 我们对 AI 代理执行相同的操作，但是正数奖励将为正数，负数奖励将为负数。 即使我们不能将强化学习视为类似于 CNN/RNN 等的另一种架构，但我还是在这里将其作为使用深度神经网络解决实际问题的另一种方法：

 ![Reinforcement learning](img/B09475_01_17.jpg)


--- a/new/rl-tf/01.md
+++ b/new/rl-tf/01.md
@@ -2,7 +2,7 @@

 人工神经网络是一种计算系统，为我们提供了解决诸如图像识别到语音翻译等具有挑战性的机器学习任务的重要工具。 最近的突破，例如 Google DeepMind 的 AlphaGo 击败了最好的围棋玩家，或者卡内基梅隆大学的 Libratus 击败了世界上最好的职业扑克玩家，都证明了算法的进步。 这些算法像人类一样学习狭窄的智能，并达到超人水平的性能。 用通俗易懂的话说，人工神经网络是我们可以在计算机上编程的人脑的松散表示。 确切地说，这是受我们对人脑功能知识的启发而产生的一种方法。 神经网络的一个关键概念是创建输入数据的表示空间，然后在该空间中解决问题。 也就是说，从数据的当前状态开始扭曲数据，以便可以以不同的状态表示数据，从而可以解决有关的问题陈述（例如分类或回归）。 深度学习意味着多个隐藏的表示，即具有许多层的神经网络，可以创建更有效的数据表示。 每一层都会细化从上一层收到的信息。

-另一方面，强化学习是机器学习的另一个方面，它是一种学习遵循一系列动作的任何类型的活动的技术。 强化学习代理从环境中收集信息并创建状态表示； 然后执行一个导致新状态和报酬的动作（即来自环境的可量化反馈，告诉我们该动作是好是坏）。 这种现象一直持续到代理能够将性能提高到超过特定阈值（即最大化奖励的期望值）为止。 在每个步骤中，可以随机选择这些动作，将其固定或使用神经网络进行监督。 使用深度神经网络对动作预测进行监督将打开一个新领域，称为**深度强化学习**。 这构成了 AlphaGo，Libratus 和人工智能领域中许多其他突破性研究的基础。
+另一方面，强化学习是机器学习的另一个方面，它是一种学习遵循一系列动作的任何类型的活动的技术。 强化学习智能体从环境中收集信息并创建状态表示； 然后执行一个导致新状态和报酬的动作（即来自环境的可量化反馈，告诉我们该动作是好是坏）。 这种现象一直持续到代理能够将性能提高到超过特定阈值（即最大化奖励的期望值）为止。 在每个步骤中，可以随机选择这些动作，将其固定或使用神经网络进行监督。 使用深度神经网络对动作预测进行监督将打开一个新领域，称为**深度强化学习**。 这构成了 AlphaGo，Libratus 和人工智能领域中许多其他突破性研究的基础。

 我们将在本章介绍以下主题：

@@ -644,7 +644,7 @@ Inception 由 Google 团队于 2014 年创建。其主要思想是创建更广

 # 强化学习

-强化学习是人工智能的一个分支，它与以状态空间和动作空间的形式感知环境信息并作用于环境的主体进行处理，从而产生新的状态并获得作为该动作的反馈的奖励 。 该收到的奖励被分配给新状态。 就像当我们必须最小化成本函数以训练我们的神经网络时一样，在这里强化学习代理必须最大化整体奖励以找到解决特定任务的最佳策略。
+强化学习是人工智能的一个分支，它与以状态空间和动作空间的形式感知环境信息并作用于环境的主体进行处理，从而产生新的状态并获得作为该动作的反馈的奖励 。 该收到的奖励被分配给新状态。 就像当我们必须最小化成本函数以训练我们的神经网络时一样，在这里强化学习智能体必须最大化整体奖励以找到解决特定任务的最佳策略。

 这与有监督和无监督学习有何不同？

@@ -654,11 +654,11 @@ Inception 由 Google 团队于 2014 年创建。其主要思想是创建更广

 强化学习与有监督的和无监督的都不同。 强化学习可以指导代理人如何在现实世界中行动。 界面比训练向量更广泛，例如在有监督或无监督学习中。 这是整个环境，可以是真实的世界也可以是模拟的世界。 代理人以不同的方式进行训练，即目标是达到目标状态，这与监督学习的情况不同，后者的目的是使可能性最大化或成本最小化。

-强化学习代理会自动从环境中获得反馈，即从环境中获得奖励，这与监督学习中的标注需要耗时的人力不同。 强化学习的更大优势之一是，以目标的形式表述任何任务的目标有助于解决各种各样的问题。 例如，视频游戏代理商的目标是通过获得最高分数来赢得比赛。 这也有助于发现实现目标的新方法。 例如，当 AlphaGo 成为围棋世界冠军时，它发现了新颖独特的取胜方法。
+强化学习智能体会自动从环境中获得反馈，即从环境中获得奖励，这与监督学习中的标注需要耗时的人力不同。 强化学习的更大优势之一是，以目标的形式表述任何任务的目标有助于解决各种各样的问题。 例如，视频游戏代理商的目标是通过获得最高分数来赢得比赛。 这也有助于发现实现目标的新方法。 例如，当 AlphaGo 成为围棋世界冠军时，它发现了新颖独特的取胜方法。

-强化学习代理就像人一样。 人类进化非常缓慢。 代理人可以增强力量，但它可以很快完成任务。 就感知环境而言，人类和人工智能代理都无法立即感知整个世界。 感知环境创建了一种状态，在该状态中，代理执行操作并落入新状态，即新感知的环境不同于早期环境。 这将创建一个既可以有限也可以无限的状态空间。
+强化学习智能体就像人一样。 人类进化非常缓慢。 代理人可以增强力量，但它可以很快完成任务。 就感知环境而言，人类和人工智能代理都无法立即感知整个世界。 感知环境创建了一种状态，在该状态中，代理执行操作并落入新状态，即新感知的环境不同于早期环境。 这将创建一个既可以有限也可以无限的状态空间。

-对此技术感兴趣的最大部门是国防。 强化学习代理人可以代替不仅步行，还能战斗并做出重要决定的士兵吗？
+对此技术感兴趣的最大部门是国防。 强化学习智能体人可以代替不仅步行，还能战斗并做出重要决定的士兵吗？

 # 基本术语和约定


--- a/new/rl-tf/02.md
+++ b/new/rl-tf/02.md
 # 使用 OpenAI Gym 训练强化学习智能体

-OpenAI Gym 提供了许多虚拟环境来训练您的强化学习代理。 在强化学习中，最困难的任务是创造环境。 OpenAI Gym 通过提供许多玩具游戏环境为用户提供了一个平台，以训练和确定他们的强化学习代理，从而为救援提供了帮助。
+OpenAI Gym 提供了许多虚拟环境来训练您的强化学习智能体。 在强化学习中，最困难的任务是创造环境。 OpenAI Gym 通过提供许多玩具游戏环境为用户提供了一个平台，以训练和确定他们的强化学习智能体，从而为救援提供了帮助。

-换句话说，它为强化学习代理提供了一个学习和基准化他们的表现的场所，其中代理必须学会从开始状态导航到目标状态，而不会遭受任何不幸。
+换句话说，它为强化学习智能体提供了一个学习和基准化他们的表现的场所，其中代理必须学会从开始状态导航到目标状态，而不会遭受任何不幸。

 因此，在本章中，我们将学习从 OpenAI Gym 了解和使用环境，并尝试实现基本的 Q 学习和 Q 网络，供我们的代理商学习。


--- a/new/rl-tf/05.md
+++ b/new/rl-tf/05.md
@@ -331,7 +331,7 @@ Episode 10 completed with total reward 222.356805259 in 843 steps

 # 深度 Q 网络

-如果我们回想起第 2 章和“使用 OpenAI Gym 训练强化学习代理”，我们曾尝试在其中实现基本的 Q 网络，那么我们就针对一个实际问题研究了 Q 学习 由于连续的状态和动作空间，使用 Q 表不是可行的解决方案。 而且，Q 表是特定于环境的，而不是通用的。 因此，我们需要一个模型，该模型可以将作为输入提供的状态信息映射到可能的一组动作的 Q 值。 在这里，神经网络开始发挥函数逼近器的作用，函数逼近器可以接受向量形式的状态信息输入，并学习将其映射为所有可能动作的 Q 值。
+如果我们回想起第 2 章和“使用 OpenAI Gym 训练强化学习智能体”，我们曾尝试在其中实现基本的 Q 网络，那么我们就针对一个实际问题研究了 Q 学习 由于连续的状态和动作空间，使用 Q 表不是可行的解决方案。 而且，Q 表是特定于环境的，而不是通用的。 因此，我们需要一个模型，该模型可以将作为输入提供的状态信息映射到可能的一组动作的 Q 值。 在这里，神经网络开始发挥函数逼近器的作用，函数逼近器可以接受向量形式的状态信息输入，并学习将其映射为所有可能动作的 Q 值。

 让我们讨论游戏环境中的 Q 学习问题以及深度 Q 网络的发展。 考虑将 Q 学习应用于游戏环境，该状态将由玩家，障碍物，对手等的位置来定义，但这将是特定于游戏的，即使在我们创建时也不能在其他游戏环境中推广 一个以某种方式表示该游戏所有可能状态的 Q 表。


--- a/new/rl-tf/06.md
+++ b/new/rl-tf/06.md
@@ -52,7 +52,7 @@ Google DeepMind 和 MILA 的联合团队于 2016 年 6 月发布了用于深度
 *   异步 N 步 Q 学习
 *   **异步优势演员评论家**（**A3C**）

-将变体 A3C 应用于各种 Atari 2600 游戏时，在多核 CPU 上获得了更好的基准测试结果，相对于早期的深度强化学习算法而言，其结果所需的时间要短得多，后者需要在 GPU 驱动的机器上运行。 因此，由于依赖于昂贵的硬件资源（如 GPU）以及不同的复杂分布式架构，因此解决了该问题。 由于所有这些优点，A3C 学习代理是当前最先进的强化学习代理。
+将变体 A3C 应用于各种 Atari 2600 游戏时，在多核 CPU 上获得了更好的基准测试结果，相对于早期的深度强化学习算法而言，其结果所需的时间要短得多，后者需要在 GPU 驱动的机器上运行。 因此，由于依赖于昂贵的硬件资源（如 GPU）以及不同的复杂分布式架构，因此解决了该问题。 由于所有这些优点，A3C 学习代理是当前最先进的强化学习智能体。

 # 异步单步 Q 学习


--- a/new/rl-tf/07.md
+++ b/new/rl-tf/07.md
@@ -82,7 +82,7 @@ Brett Sperry 首先使用术语**实时策略**（**RTS**）作为宣传其游
 强化学习相对于其他 AI 方法脱颖而出的原因如下：

 *   避免使用基于规则的手动编码方法。
-*   强化学习不需要存储游戏的特定规则。 强化学习代理学习多种交互，并增强其每次与环境交互时在环境中起作用的理解。
+*   强化学习不需要存储游戏的特定规则。 强化学习智能体学习多种交互，并增强其每次与环境交互时在环境中起作用的理解。
 *   对于高维状态作用空间，可以将神经网络用作函数逼近器以得出最佳作用。
 *   始终探索不同的策略以找到最佳策略。
 *   强化学习已应用于需要状态行动计划的各个领域，例如机器人技术，自动驾驶汽车等。

--- a/new/rl-tf/09.md
+++ b/new/rl-tf/09.md
@@ -175,7 +175,7 @@ DeepTraffic 由一条高速公路带组成，该高速公路带显示了同时
 *   减速
 *   没做什么

-对于其他汽车，将按照现实的模式随机选择动作，例如，由于随机选择动作，不会太频繁地改变车道。 以红色（深灰色）显示的汽车由深度强化学习代理控制。 竞争对手获得以 DQN 实现的预定义神经网络。 任务是配置不同的超参数并获得最佳性能，即最高平均速度。
+对于其他汽车，将按照现实的模式随机选择动作，例如，由于随机选择动作，不会太频繁地改变车道。 以红色（深灰色）显示的汽车由深度强化学习智能体控制。 竞争对手获得以 DQN 实现的预定义神经网络。 任务是配置不同的超参数并获得最佳性能，即最高平均速度。

 # 总结


--- a/new/rl-tf/11.md
+++ b/new/rl-tf/11.md
@@ -18,14 +18,14 @@

 *   机器人技术中的强化学习
 *   机器人强化学习中的挑战
-*   悬而未决的问题和实际挑战
-*   重要要点
+*   未解决的问题和实际挑战
+*   要点

 # 机器人技术中的强化学习

 机器人技术与行为的高度复杂性相关联，这使手工工程师既难以进行操作，也没有足够详尽的方法来使用监督学习来完成任务。 因此，强化学习提供了一种捕获此类复杂行为的框架。

-与机器人技术有关的任何任务都由高维，连续状态和动作空间表示。 环境状态不是完全可观察到的。 仅在模拟中学习不足以说强化学习代理已经为现实世界做好了准备。 在使用机器人技术的情况下，强化学习代理应该在现实世界中遇到不确定性，但是获取和复制起来既困难又昂贵。
+与机器人技术有关的任何任务都由高维，连续状态和动作空间表示。 环境状态不是完全可观察到的。 仅在模拟中学习不足以说强化学习智能体已经为现实世界做好了准备。 在使用机器人技术的情况下，强化学习智能体应该在现实世界中遇到不确定性，但是获取和复制起来既困难又昂贵。

 鲁棒性是机器人技术的重中之重。 在常规分析或传统机器学习问题中，数据，预处理或算法中的细微错误会导致行为发生重大变化，尤其是对于动态任务。 因此，需要能够捕获实际细节的健壮算法。 机器人强化学习的下一个挑战是奖励功能。 由于奖励功能在优化学习中起着最重要的作用，因此需要生成特定领域的奖励功能，以帮助学习代理尽快更好地适应现实世界。 因此，领域知识是设计好的奖励功能的关键，而这又是机器人机器学习中的艰巨任务。

@@ -81,7 +81,7 @@ Perkins 和 Barto（2002）提出了一种基于 Lyapunov 函数构造强化学

 此外，由于这些强化学习算法是在计算机中实现的，因此无法避免时间离散化，从而导致在现实情况下无法复制连续时间系统。 由于以下过程，现实世界的状态表示与现实世界状态相比可能会滞后：

-*   信号通讯延迟
+*   信号通信延迟
 *   信号信息处理
 *   实时创建学习模型以输出要采取的最佳措施
 *   延迟接收动作信号和致动导致机器人中的机器运动
@@ -137,7 +137,7 @@ Perkins 和 Barto（2002）提出了一种基于 Lyapunov 函数构造强化学
    *   强化学习算法的成功很大程度上取决于奖励函数的质量，其对不同状态表示的覆盖范围以及与之相关的不确定性
 *   先验领域知识的重要性是什么？

-    *   先验知识对于强化学习代理的准确率更好。
+    *   先验知识对于强化学习智能体的准确率更好。
    *   在尽可能少的情节中更好地学习所需的先验知识量尚不确定，并且尚待解决。 因此，重复大量的迭代以确保更好的学习。
    *   在某些情况下，由于与环境相关的大量不确定性，先验知识可能无济于事。
 *   我们如何根据感知数据仔细学习？

--- a/new/rl-tf/12.md
+++ b/new/rl-tf/12.md
@@ -6,7 +6,7 @@

 *   计算广告挑战和出价策略

-*   在展示广告中通过强化学习进行实时出价
+*   展示广告中使用强化学习的实时出价

 # 计算广告挑战和出价策略

@@ -57,17 +57,17 @@
 广告客户的出价策略主要包括在出价时针对不同关键字的预算优化。 重点讨论如下：

 *   广告客户可以更好地将预算分配给不同的关键字
-*   更好的出价策略以实现利润最大化
+*   实现利润最大化的更好的出价策略

 此外，在这个在线广告世界中，竞标是实时发生的。 您如何实现更好的实时出价策略以实现利润最大化？

-*   自主招标代理
-    *   这些代理商将使用历史市场数据并直接与市场参与者进行交互，并根据此数据对自己的行为进行建模，从而帮助制定不同的决策策略
+*   自主竞标智能体
+    *   这些智能体将使用历史市场数据并直接与市场参与者进行交互，并根据此数据对自己的行为进行建模，从而帮助制定不同的决策策略
 *   使用强化学习的机器学习方法

    *   在第 3 章“Markov 决策过程”中可以看到**马尔可夫决策过程**（**MDP**）的框架，在该框架中，我们最大化了每个模型的预期效用 通过最大化预期奖励总和，最优化进入目标状态的路径的状态

-# 使用强化学习的展示广告中的实时出价
+# 展示广告中使用强化学习的实时出价

 在线展示主要通过实时出价来提供，其中，展示广告的每次展示都是在通过用户访问产生的同时实时出价的。 自动实时地出价对于广告商最大限度地提高利润至关重要。 因此，需要设计一种学习算法，该算法可以基于历史数据实时设计出最佳的学习策略，以便根据即时和未来的回报跨不同的印象进行预算的动态分配。 在这里，我们将讨论由 Cai 等人在《使用强化学习的展示广告中的实时出价》中发布的强化学习框架来制定出价决策过程。 

@@ -77,12 +77,12 @@

 本研究试图通过使用强化学习框架来解决实时竞标挑战，并将其作为顺序决策来解决，其中：

-*   学习代理将从广告商的角度学习
+*   智能体将从广告商的角度学习
 *   整个广告市场和所有互联网用户形成环境
 *   状态空间包含出价信息和实时活动参数
 *   动作是要设定的买入价

-因此，在每个步骤中，代表广告商出价者的代理都会观察到由当前广告系列参数（例如预算和剩余时间）以及针对该特定广告印象的出价请求组成的状态。 然后，它发布一个动作； 例如，确定出价，中奖结果和用户反馈将一起作为对所采取措施的奖励，并将用于加强模型。 由于在现实世界中出价量很大，因此 MDP 框架已与基于 Q 网络的方法一起使用，该方法使用神经网络作为状态作用值函数逼近器。 招标的基本强化学习框架如下所示：
+因此，在每个步骤中，代表广告商出价者的代理都会观察到由当前广告系列参数（例如预算和剩余时间）以及针对该特定广告印象的出价请求组成的状态。 然后，它发布一个动作； 例如，确定出价，中奖结果和用户反馈将一起作为对所采取措施的奖励，并将用于加强模型。 由于在现实世界中出价量很大，因此 MDP 框架已与基于 Q 网络的方法一起使用，该方法使用神经网络作为状态作用值函数逼近器。 竞标的基本强化学习框架如下所示：

 ![](img/6807396c-6fb5-4a47-8cd9-2ba802d62c72.png)


--- a/new/rl-tf/13.md
+++ b/new/rl-tf/13.md
@@ -98,7 +98,7 @@ YOLO 还可以预测训练中所有班级每个盒子的班级得分。 因此

 # 分层对象检测模型

-在这里，我们将尝试通过强化学习框架来实现对象检测问题，在强化学习框架中，强化学习代理将与环境图像进行交互，并且每步，代理将决定关注哪个区域，以实现目标。 以最少的时间步长找到对象。 问题陈述以**马尔可夫决策过程**（**MDP**）框架表示，其不同参数讨论如下：
+在这里，我们将尝试通过强化学习框架来实现对象检测问题，在强化学习框架中，强化学习智能体将与环境图像进行交互，并且每步，代理将决定关注哪个区域，以实现目标。 以最少的时间步长找到对象。 问题陈述以**马尔可夫决策过程**（**MDP**）框架表示，其不同参数讨论如下：

 # 状态

@@ -120,7 +120,7 @@ YOLO 还可以预测训练中所有班级每个盒子的班级得分。 因此

 每个移动动作只能从预定义的层次结构在区域之间自上而下转移注意力。 图像被进一步分为五个较小的子区域进行聚焦。 因此，在创建为的五个子区域（下图中）中构建了层次结构：

-*   四个季度
+*   四个区域
 *   一个中央重叠区域

 ![](img/f9a7d380-b75c-4007-aee2-e3861547a2ec.png)

--- a/new/rl-tf/14.md
+++ b/new/rl-tf/14.md
@@ -14,11 +14,11 @@

 *   文字摘要
 *   问题回答
-*   对话产生
+*   对话生成
 *   对话系统
 *   基于知识的质量检查
 *   机器翻译
-*   文字产生
+*   文字生成

 在这里，我们将介绍在文本摘要和问题解答中使用强化学习的方法，这将使您对研究人员如何在这些领域中收获强化学习的好处有一个基本的了解。

@@ -221,7 +221,7 @@ Ground Truth Answer: Colorado Springs

 在 DCN+ 的新框架中，原始 DCN 框架引入了两个新更改。 它们如下：

-*   添加深度残留共同注意浓淡度编码器
+*   添加深度残差共同注意编码器
 *   混合训练目标函数，是最大似然交叉熵损失函数和强化学习的奖励函数的组合

 # 深度残差共同注意编码器