2021-01-17 21:05:43

991c7ded · wizardforcel · ec4be7d3 · 991c7ded
显示空白变更内容
内联并排

Showing with 9 addition and 9 deletion

new/rl-tf/09.md new/rl-tf/09.md +9 -9

未找到文件。
--- a/new/rl-tf/09.md
+++ b/new/rl-tf/09.md
@@ -30,7 +30,7 @@
 *   **环境理解**：图像处理，对象检测，对象分类和运动检测
 *   **轨迹规划**：运动规划和控制
 *   **控制策略**：强化和监督学习
-*   **驱动程序模型**：图像处理和模式识别
+*   **驱动模型**：图像处理和模式识别

 此外，使用强化学习背后的最大原因是，由于以下几种不同的类型，它是处理多种车辆操纵的最佳人选：

@@ -66,11 +66,11 @@

 奖励的方法之一可能是：

-*   **特工车辆与前方车辆相撞**：高负面奖励
-*   **代理车辆与前端和后端之间的距离都更安全**：积极的回报
-*   **代理车辆保持不安全的距离**：中等的负面奖励
-*   **特工车辆正在接近距离**：负面奖励
-*   **特工车辆加速**：随着速度增加，正奖励减少，超过速度限制则负奖励
+*   **智能体车辆与前方车辆相撞**：高负面奖励
+*   **智能体车辆与前端和后端之间的距离都更安全**：积极的回报
+*   **智能体车辆保持不安全的距离**：中等的负面奖励
+*   **智能体车辆正在接近距离**：负面奖励
+*   **智能体车辆加速**：随着速度增加，正奖励减少，超过速度限制则负奖励

 整合**循环神经网络**（**RNN**）来整合时间序列信息将使汽车能够处理部分可观察的场景。 此外，使用注意力模型来关注相关信息还可以降低计算复杂度。 如前所述，AI 的下一个，当然是最大的里程碑之一是创建端到端自动驾驶汽车。

@@ -81,7 +81,7 @@
 ![](img/a439e6b9-b14f-40fb-84e3-2d8ef4bf84ca.png)

 *   识别周围环境的组成部分，其中包括人行道，人，交通信号灯，任何建筑，道路边界，其他车辆等。 对于 AI，由于使用**卷积神经网络**（**CNN**）和**生成对抗网络**（**GAN**）。 CNN 和 GAN 的成功可用于自动驾驶环境要素的识别过程。
-*   **预测**环境的未来状态。 识别当前环境状态的环境的当前组成部分很重要，但是将其用作输入并预测未来环境状态对于计划下一步行动也很有必要。 解决此问题的基本方法之一是创建环境图。 此外，我们可以合并深度神经网络，例如循环神经网络的变体，例如**长短时记忆网络**（**LSTM**）或**门控循环单元**（[ **GRU**），以整合和整合过去时间步长以及当前时间步长和预测未来中的数据。 正如我们在第 1 章，“深度学习–架构和框架”中讨论的那样，由于长期依赖以及 LSTM 单元如何解决该问题，围绕梯度消失的问题仍然存在 RNN 的情况。 RNN 是集成时间序列数据的最新技术，它在 [DeepTracking](https://arxiv.org/pdf/1602.00991.pdf)中显示了对象跟踪方面的改进。
+*   **预测**环境的未来状态。 识别当前环境状态的环境的当前组成部分很重要，但是将其用作输入并预测未来环境状态对于计划下一步行动也很有必要。 解决此问题的基本方法之一是创建环境图。 此外，我们可以合并深度神经网络，例如循环神经网络的变体，例如**长短期记忆网络**（**LSTM**）或**门控循环单元**（**GRU**），以整合和整合过去时间步长以及当前时间步长和预测未来中的数据。 正如我们在第 1 章，“深度学习–架构和框架”中讨论的那样，由于长期依赖以及 LSTM 单元如何解决该问题，围绕梯度消失的问题仍然存在 RNN 的情况。 RNN 是集成时间序列数据的最新技术，它在 [DeepTracking](https://arxiv.org/pdf/1602.00991.pdf)中显示了对象跟踪方面的改进。

 *   **规划**是整个过程中最难的部分。 该任务包括将识别和预测的结果集成在一起，以计划将来的动作序列以及下一个驾驶动作集（向左或向右转向，加速等等），以使导航安全且成功。 这是一项艰巨的任务，因为整合和规划需要处理不可避免的情况才能安全到达目的地。 强化学习最适合此类控制计划任务。 我们已经了解了如何成功地部署强化学习来控制 50 场 Atari 游戏中的计划任务，以及 Google DeepMind 提供的最先进的 AlphaGo Zero。 在这些情况下，我们目睹了深度学习在进行表示学习的同时进行强化学习的规划。

@@ -132,7 +132,7 @@

 卷积神经网络用于查找隐藏的表示，然后应用注意力机制。 注意机制指导网络的卷积层专注于数据的相关部分。 使用注意力模型的优势在于，它减少了数据集的维数。 结果，还减少了对原始数据的大量计算，包括卷积等。

-运用注意力模型的最佳方法是使用动作和瞥见网络（说明超出了本书的范围，但有关动作和瞥见网络的更多详细信息，请转到此研究出版物“ *的端到端学习 视频中帧错误的动作检测[上的](https://arxiv.org/pdf/1511.06984.pdf)* https://arxiv.org/pdf/1511.06984.pdf ），并避免使用注意过滤器，因为注意过滤器不会降低计算的维数 ，并将卷积应用于整个数据。 但是对于包含神经网络的动作和瞥见网络却不是这种情况，该网络学习学习数据的相关部分，从而引导卷积层专注于数据的这些相关部分。
+运用注意力模型的最佳方法是使用动作和瞥见网络（说明超出了本书的范围，但有关动作和瞥见网络的更多详细信息，请转到此研究出版物[《视频中的帧错误的动作检测的端到端学习》](https://arxiv.org/pdf/1511.06984.pdf)，并避免使用注意过滤器，因为注意过滤器不会降低计算的维数 ，并将卷积应用于整个数据。 但是对于包含神经网络的动作和瞥见网络却不是这种情况，该网络学习学习数据的相关部分，从而引导卷积层专注于数据的这些相关部分。

 # 周期性时间聚集

@@ -157,7 +157,7 @@

 # DeepTraffic –用于自动驾驶的 MIT 模拟器

-[DeepTraffic](https://selfdrivingcars.mit.edu/deeptraffic/) 是为课程 *MIT 6.S094：MIT 的自动驾驶汽车深度学习*创建的，由 Lex Fridman 教授 。 课程内容和作业是公开的。 DeepTraffic 由于其排行榜而获得了很多欢迎。 迄今为止，DeepTraffic 拥有 13,000 多个提交文件，竞争非常激烈。 用户必须在`convnet.js`（由 Andrej Karpathy 创建的框架）中使用本节开头提到的链接中存在的编码依据来编写其神经网络。 平均速度最高的座席在排行榜上居首。
+[DeepTraffic](https://selfdrivingcars.mit.edu/deeptraffic/) 是为课程《MIT 6.S094：用于自动驾驶汽车的深度学习》创建的，由 Lex Fridman 教授 。 课程内容和作业是公开的。 DeepTraffic 由于其排行榜而获得了很多欢迎。 迄今为止，DeepTraffic 拥有 13,000 多个提交文件，竞争非常激烈。 用户必须在`convnet.js`（由 Andrej Karpathy 创建的框架）中使用本节开头提到的链接中存在的编码依据来编写其神经网络。 平均速度最高的座席在排行榜上居首。

 诸如 DeepTraffic 之类的模拟可帮助训练不同的方法，以使汽车代理迅速适应模拟环境。 此外，它的竞争性元素随着时间的推移增加了更好的提交，超过了过去的最高得分。 比赛很有趣，但在现实世界中，学生无法测试他们的深度强化学习脚本。 因此，DeepTraffic 为下一代 AI 开发人员提供了使用不同方法的最佳测试平台，这肯定会导致未来的 AI 开发人员在现实世界中创造出自动驾驶汽车，而这要得益于这些模拟的学习。