2021-01-21 17:52:39

08c6d573 · wizardforcel · 848973d1 · 08c6d573 · 08c6d573 · 08c6d573
Showing with 12 addition and 12 deletion

new/rl-tf/06.md new/rl-tf/06.md +2 -2

new/rl-tf/07.md new/rl-tf/07.md +2 -2

new/rl-tf/08.md new/rl-tf/08.md +1 -1

new/rl-tf/09.md new/rl-tf/09.md +6 -6

new/rl-tf/10.md new/rl-tf/10.md +1 -1

未找到文件。
--- a/new/rl-tf/06.md
+++ b/new/rl-tf/06.md
@@ -54,7 +54,7 @@ Google DeepMind 和 MILA 的联合团队于 2016 年 6 月发布了用于深度
 将变体 A3C 应用于各种 Atari 2600 游戏时，在多核 CPU 上获得了更好的基准测试结果，相对于早期的深度强化学习算法而言，其结果所需的时间要短得多，后者需要在 GPU 驱动的机器上运行。 因此，由于依赖于昂贵的硬件资源（如 GPU）以及不同的复杂分布式架构，因此解决了该问题。 由于所有这些优点，A3C 学习代理是当前最先进的强化学习代理。
-# 异步一站式 Q 学习
+# 异步单步 Q 学习
 异步单步 Q 学习的架构与 DQN 非常相似。 DQN 中的代理由一组主要网络和目标网络表示，其中一步损失的计算方法是主要网络预测的当前状态`s`的状态作用值与目标状态- 目标网络计算的当前状态的动作值。 相对于策略网络的参数来计算损失的梯度，然后使用梯度下降优化器将损失最小化，从而导致主网络的参数更新。
@@ -103,7 +103,7 @@ repeat until  :
        #update  using accumulated gradients 
 ```
-# 异步一步式 SARSA
+# 异步单步 SARSA
 异步单步 SARSA 的架构几乎与异步单步 Q 学习的架构相似，不同之处在于目标网络计算当前状态的目标状态作用值的方式。 SARSA 并未使用目标网络使用下一个状态`s'`的最大 Q 值，而是使用 ε 贪婪为下一个状态`s'`选择动作`a'`。 下一个状态动作对的 Q 值`Q(s', a')`；![](img/88250d05-5523-43d2-b0fc-20f621b58966.png)用于计算当前状态的目标状态动作值。

--- a/new/rl-tf/07.md
+++ b/new/rl-tf/07.md
-# 机器人一切-真正的战略游戏
+# 一切都是机器人-真正的战略游戏
 近年来，视频游戏行业以惊人的速度增长。 根据 SuperData 的 2017 年度回顾报告，全球游戏行业创造了 1084 亿美元的收入。 全球游戏市场研究机构 Newzoo 预测，到 2020 年，视频游戏行业的收入将超过 1400 亿美元。
@@ -34,7 +34,7 @@ Brett Sperry 首先使用术语**实时策略**（**RTS**）作为宣传其游
 已经设计出许多方法来解决实时策略游戏的问题。 强化学习之前的主要方法之一是**基于案例的在线规划**。 基于案例的在线计划涉及基于案例的实时推理。 在基于案例的推理中，使用了一组方法来学习计划。 基于案例的在线计划在实现计划获取和执行的同时也实时地实现了此属性。
-# 基于案例的在线计划
+# 基于案例的在线规划
 基于案例的推理包括四个步骤：

--- a/new/rl-tf/08.md
+++ b/new/rl-tf/08.md
@@ -78,7 +78,7 @@ DeepBlue 搜索国际象棋的游戏树到最低深度（因为不可能创建
 简而言之，为了解决国际象棋的复杂性，DeepBlue 对设计良好的评估功能的游戏树使用了蛮力方法。
-# 为什么游戏树方法对 Go 不利？
+# 为什么游戏树方法对围棋不利？
 不能以游戏树方式接近。 原因是所使用的更大的复杂性和蛮力方法无法进行任何学习。 它执行的唯一任务是将游戏状态映射到游戏树中的节点。 而且，DeepBlue 中使用的蛮力方法没有通用的评估功能，而是针对不同的游戏位置手工制作的。 因此，先前的方法过于特定于游戏，因此此类方法无法扩大规模以玩围棋。

--- a/new/rl-tf/09.md
+++ b/new/rl-tf/09.md
@@ -16,7 +16,7 @@
    *   不同类型的演习
    *   操作的复杂性
-# 机器学习自动驾驶
+# 自动驾驶中的机器学习
 首先，为了开发端到端的无人驾驶汽车，在深入研究整个过程中使用强化学习之前，我们必须从高水平了解开发过程。 下图描述了开发过程：
@@ -60,7 +60,7 @@
 合并为环岛的道路（环形路）
-# 自动驾驶的强化学习
+# 自动驾驶中的强化学习
 由于与环境的强大交互作用以及环境中的多个障碍和操作（如前所述），无法通过全面的有监督的学习方法来解决自动驾驶所带来的挑战。 强化学习的奖励机制必须非常有效，这样代理才能对内部个体的安全以及外部所有障碍（无论是人类，动物还是任何正在进行的构造）保持谨慎。
@@ -74,7 +74,7 @@
 整合**循环神经网络**（**RNN**）来整合时间序列信息将使汽车能够处理部分可观察的场景。 此外，使用注意力模型来关注相关信息还可以降低计算复杂度。 如前所述，AI 的下一个，当然是最大的里程碑之一是创建端到端自动驾驶汽车。
-# 创建自动驾驶代理
+# 创建自动驾驶智能体
 驾驶车辆需要良好的技能，专注力和经验。 因此，作为一项高技能的任务，创建自动驾驶代理所涉及的过程可以大致分为三类，如下图所示：
@@ -115,7 +115,7 @@
 让我们详细讨论前面的架构。 在这种情况下，输入是多个时间步长上环境状态的汇总。
-# 空间聚集
+# 空间聚合
 该架构的第一个单元是空间聚合网络。 它由两个网络组成，每个网络都用于以下子过程：
@@ -134,9 +134,9 @@
 运用注意力模型的最佳方法是使用动作和瞥见网络（说明超出了本书的范围，但有关动作和瞥见网络的更多详细信息，请转到此研究出版物[《视频中的帧错误的动作检测的端到端学习》](https://arxiv.org/pdf/1511.06984.pdf)，并避免使用注意过滤器，因为注意过滤器不会降低计算的维数 ，并将卷积应用于整个数据。 但是对于包含神经网络的动作和瞥见网络却不是这种情况，该网络学习学习数据的相关部分，从而引导卷积层专注于数据的这些相关部分。
-# 周期性时间聚集
+# 周期性时间聚合
-周期性时间聚集涉及跨不同时间步长聚集环境状态。 让我们详细讨论其背后的原因。 首先，获取环境状态并非易事，传感器读数可提供环境的最佳状态表示。 因此，当前时间步的状态信息不足以获取环境的完整信息。 因此，在多个时间步长上整合状态信息可捕获运动行为，这在环境状态在几秒钟内发生变化的自动驾驶中非常重要。
+周期性时间聚合涉及跨不同时间步长聚集环境状态。 让我们详细讨论其背后的原因。 首先，获取环境状态并非易事，传感器读数可提供环境的最佳状态表示。 因此，当前时间步的状态信息不足以获取环境的完整信息。 因此，在多个时间步长上整合状态信息可捕获运动行为，这在环境状态在几秒钟内发生变化的自动驾驶中非常重要。
 因此，通过增加重复性，可以处理 POMDP（部分可观察的马尔可夫决策过程）场景，这在驾驶中非常常见，因为无法完全观察到整个环境状态。 传统的算法（如贝叶斯过滤器）用于处理这种情况，方法是随着时间的推移集成信息，但它们是从 MDP 框架（环境状态完全可见）中派生的。

--- a/new/rl-tf/10.md
+++ b/new/rl-tf/10.md
@@ -129,7 +129,7 @@ EIIE 通过**在线随机批量学习**（**OSBL**）进行训练，其中强化
 *   **零市场影响**：交易代理商在市场上的投资金额微不足道，不会影响市场
-# 资料准备
+# 数据准备
 交易实验在名为 Poloniex 的加密货币交易所中进行了测试。 为了测试当前方法，预先选择了`m = 11`具有最高交易量的非现金资产作为投资组合。 由于第一基础资产是现金，即比特币，因此投资组合的大小为`m + 1 = 12`。 如果我们在交易量较大的市场（例如外汇市场）中进行了测试，则`m`将与市场中资产的总数一样大。