提交 eb508c5f 编写于 作者: W wizardforcel

2021-01-21 21:24:58

上级 d4cb7968
......@@ -116,7 +116,7 @@ Sigmoid得到广泛使用,但其缺点是该函数趋于 +3 和 -3 平坦。
由于 Sigmoid 函数输出的值从 0 到 1,即全为正,因此它在原点周围是非对称的,并且所有输出信号都是正的,即具有相同的符号。 为了解决这个问题,已将 Sigmoid 函数缩放为 tanh 函数,我们将在下面进行研究。 而且,由于梯度导致的值很小,因此很容易遇到梯度消失的问题(我们将在本章稍后讨论)。
# tanh 功能
# tanh 函数
Tanh 是围绕原点对称的连续函数。 它的范围是 -1 至 1。tanh 函数表示如下:
......@@ -595,7 +595,7 @@ VGG-Net 由牛津大学**视觉几何组**(**VGG**)的 Karen Simonyan 和 An
通过向模型添加更多非线性来设计更深层的神经网络的想法导致合并了较小的滤波器,以确保网络没有太多参数。 在训练时,很难收敛模型,因此首先使用预先训练的简单神经网络模型来初始化较深架构的权重。 但是,现在我们可以直接使用 xavier 初始化方法,而无需训练神经网络来初始化权重。 由于模型的深度,训练起来很慢。
# 初始模型
# Inception 模型
Inception 由 Google 团队于 2014 年创建。其主要思想是创建更广泛的网络,同时限制参数数量并避免过拟合。 下图显示了完整的 Inception 模块:
......
......@@ -308,7 +308,7 @@ Output : final
因此,我们可以看到参与者评论家既具有基于价值的优化又具有基于策略的优化。 因此,在采用蒙特卡洛策略梯度法的情况下,策略改进会贪婪地进行。 但是在演员批评家中,演员通过按照批评家的方向采取措施来更新策略参数,以便制定更好的策略。
# 使用基线减少差异
# 使用基线减少方差
除了我们最初使用行为准则的方法来减少方差之外,我们还可以通过从策略梯度中减去**基线函数** ![](img/57466ce5-670a-4989-9de6-c43208771e1b.png)来减少方差。 这将减少方差而不影响期望值,如下所示:
......
......@@ -11,7 +11,7 @@
* 蒙特卡罗树搜索算法
* SARSA 算法
# 为什么强化学习?
# 为什么强化学习?
2014 年,Google 以高达 5 亿美元的价格收购了伦敦一家名为 DeepMind 的创业公司。 在新闻中,我们了解到他们创建了一个 AI 代理来击败任何 Atari 游戏,但是 Google 付出如此高的价格收购它的主要原因是因为这一突破向**通用人工智能**靠近了一步。 通用人工智能被称为 AI 代理。 它能够完成各种任务并像人类一样泛化。 当它超过这一点时,该点称为人工超级智能。 目前,AI 社区所做的工作就是我们所说的人工智能,即人工智能,其中 AI 代理能够执行多个任务,但不能概括各种任务。
......@@ -690,7 +690,7 @@ Episode 10 with Reward : 38.7923903502 at epsilon 0.9002 in steps 126
接下来,在以下主题中,我们尝试实现一个深度 Q 网络来解决 OpenAI Gym 中的 Cartpole 问题。
# 用于 OpenAI Gym Cartpole 问题的深度 Q 网络
# 用于 OpenAI Gym Cartpole 问题的深度 Q 网络
**Cartpole** 是 MDP 环境中最简单的问题之一,如以下屏幕快照所示。 它由一个在水平轴上移动的推车组成,该推车的中心处固定有一根可旋转的杆。 目的是采取行动,使电杆保持接近垂直且不会向下旋转。
......
......@@ -77,7 +77,7 @@ Brett Sperry 首先使用术语**实时策略**(**RTS**)作为宣传其游
为了覆盖较大的状态操作空间,解决方案库中将需要大量规则。 此外,没有探索策略可以找到最佳解决方案。 因此,由于所有前面提到的与实时策略游戏相关的问题和复杂性,这些传统的 AI 方法很难实现。
# 为什么强化学习?
# 为什么强化学习?
强化学习相对于其他 AI 方法脱颖而出的原因如下:
......
......@@ -6,7 +6,7 @@
因此,在本章中,我们将介绍计算机视觉中最著名的领域,**对象检测**以及强化学习如何尝试做到这一点。
# 深度强化学习的分层对象检测
# 深度强化学习的分层对象检测
在本节中,我们将尝试理解如何根据 Bellver 等人(2016)在[《使用深度强化学习的分层对象检测》](https://arxiv.org/pdf/1611.03718.pdf)中建议的框架,将深度增强学习应用于分层对象检测。 该实验展示了一种使用深度强化学习在图像中执行分层对象检测的方法,该方法主要侧重于承载更丰富信息的图像重要部分。 此处的目的是训练一个深度增强学习代理,为其提供一个图像窗口,并将图像进一步分为五个较小的窗口,并且该代理成功地将注意力集中在较小的窗口之一上。
......
......@@ -119,7 +119,7 @@ Paulus 等人(2017)在[《用于抽象摘要的深度强化模型》](https:
在本节中,使用监督学习和强化学习的组合来训练编码器解码器网络上先前提出的神经内部注意模型的框架。
# 教师强迫下的监督学习
# 带有教师强迫的监督学习
教师强迫算法(由 Williams 等,1989)是训练解码器 RNN 用于序列生成的最广泛使用的方法。 在解码过程中的每个时间步,教师强制算法都将最大似然损失降至最低。 ![](img/f0236bfa-e144-4665-ba34-4b888571d537.png)定义为给定输入序列`x`的地面真值输出序列。 然后,使用教师强迫算法进行监督学习的最大似然目标将是最小化损失函数,如下所示:
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册