提交 3da9d67e 编写于 作者: W wizardforcel

2021-01-18 22:33:24

上级 1da26499
......@@ -75,7 +75,7 @@
机器人与现实世界互动。 因此,机器人强化学习的真正问题是应对这些现实问题。 这是因为在现实世界中机器人组件的定期磨损非常昂贵。 连续的维护和修理在劳力和维护和修理的时间损失方面付出了巨大的代价。 因此,安全探索是机器人强化学习过程中的关键问题。
Perkins 和 Barto(2002)提出了一种基于 Lyapunov 函数构造强化学习主体的方法([附录 A](../Text/15.html) ,“强化学习”中的其他主题)。 现实世界带来的挑战包括环境因素的变化,即气候,温度,光线等。 结果,由于温度和气候的极端影响,机器人的动力学将受到影响,并且将避免学习过程的收敛。 现实环境是不确定的。 结果,由于气候,温度,光线等外部因素,无法产生过去的学习时间。 因此,状态是不确定的,因此很难模拟真实的真实场景。 因此,大多数模拟器都没有考虑气候,温度和光的要素。 因此,这对要解决的算法提出了严峻的挑战。 除此之外,传感器噪声测量的不确定性导致无法直接用传感器观察所有状态。
Perkins 和 Barto(2002)提出了一种基于 Lyapunov 函数构造强化学习主体的方法(附录 A,“强化学习中的其他主题”)。 现实世界带来的挑战包括环境因素的变化,即气候,温度,光线等。 结果,由于温度和气候的极端影响,机器人的动力学将受到影响,并且将避免学习过程的收敛。 现实环境是不确定的。 结果,由于气候,温度,光线等外部因素,无法产生过去的学习时间。 因此,状态是不确定的,因此很难模拟真实的真实场景。 因此,大多数模拟器都没有考虑气候,温度和光的要素。 因此,这对要解决的算法提出了严峻的挑战。 除此之外,传感器噪声测量的不确定性导致无法直接用传感器观察所有状态。
现实世界中的大多数机器人学习任务都需要人工监督,而获取现实世界中的样本在时间,劳动力和金钱方面都非常昂贵。 在机器人强化学习中,无法使用诸如模拟器之类的情景设置,因为它们在时间,维修和金钱上都花费很多。 机器人需要在严格的约束下与现实世界互动,以免造成重大破坏。
......
# 广告技术中的深度强化学习
到目前为止,在讨论强化学习应用研究领域的单元中,我们看到了强化学习如何破坏机器人技术,自动驾驶,金融投资组合管理以及解决诸如 Go 之类的极其复杂的游戏领域。 强化学习可能会破坏的另一个重要领域是广告技术。
到目前为止,在讨论强化学习应用研究领域的单元中,我们看到了强化学习如何破坏机器人技术,自动驾驶,金融投资组合管理以及解决诸如围棋之类的极其复杂的游戏领域。 强化学习可能会破坏的另一个重要领域是广告技术。
在深入了解问题陈述及其基于强化学习的解决方案之前,让我们了解所涉及的挑战,业务模型和投标策略,这将成为理解我们将尝试使用强化解决问题的基本前提 学习框架。 我们将在本章中介绍的主题如下:
......@@ -86,15 +86,15 @@
![](img/6807396c-6fb5-4a47-8cd9-2ba802d62c72.png)
最初,预算 b 是​​提供给代理的,此处的目标是在随后的出价 t 中获得尽可能多的点击。 以下是代理考虑的重要信息:
最初,预算`b`是​​提供给代理的,此处的目标是在随后的出价`t`中获得尽可能多的点击。 以下是代理考虑的重要信息:
* 其余出价,即剩余出价编号`t ∈ {0, ···, T}`
* 初始分配预算中剩余的剩余金额,即未用预算`b ∈ {0, ..., B}`
* 特征向量 x,代表出价请求
* 特征向量`x`,代表出价请求
在每个情节中,每次出价都会按顺序发送给代理商,代理商针对每个代理商根据当前信息`t``b``x`。 因此,代理基于出价的剩余时间,初始分配预算中剩余的剩余量以及提出的投标请求的所有关键信息来决定适当的动作。
如上图所示,代理维护剩余的出价`t`和剩余的预算 b。 在每个时间步,代理都收到一个竞标请求以及出价`x ∈ X`(特征向量空间),并且它必须确定竞标价格 a
如上图所示,代理维护剩余的出价`t`和剩余的预算`b`。 在每个时间步,代理都收到一个竞标请求以及出价`x ∈ X`(特征向量空间),并且它必须确定竞标价格`a`
给定特征向量`x`的市场价格概率分布函数为`m(δ, x)`,其中`δ`是市场价格, `m`是其概率。 因此,如果代理商以`a ≥ δ`的价格出价,则它将赢得竞标并支付`δ`,剩余预算将变为`b-δ`。 万一失败,代理商从竞标中得不到任何东西。 在此,如果将赢得出价视为预期奖励,则将**预测 CTR****pCTR**)表示为`θ(x)`。 在每次出价之后,剩余的出价数量减少 1。当`t = 0`时,也就是说,没有剩余的出价,则情节结束。 随着当前情节的结束,剩余的出价编号和预算都将分别重置为`T``B`
......
......@@ -77,8 +77,8 @@ Ross Girshick 的 [Fast R-CNN](https://arxiv.org/pdf/1504.08083.pdf)
| **类型** | **每张图像的测试时间(以秒为单位)** | **加速** |
| --- | --- | --- |
| 神经网络 | 50 | 1 倍 |
| 快速 R-CNN | 2 | 25 倍 |
| 更快的 R-CNN | 0.2 | 250 倍 |
| Fast R-CNN | 2 | 25 倍 |
| Faster R-CNN | 0.2 | 250 倍 |
# 你只看一次
......@@ -90,7 +90,7 @@ YOLO 还可以预测训练中所有班级每个盒子的班级得分。 因此
# 单发探测器
**单发检测器****SSD**)以其在速度和准确率之间的平衡而著称。 就像 YOLO 一样,SSD 仅在输入图像上运行一次 CNN 即可学习表示形式。 在此表示形式上运行一个小的 3x3 卷积核,以预测边界框和类概率。 为了处理比例,SSD 会在多个卷积层之后预测边界框。 由于每个卷积层以不同的比例运行,因此它能够检测各种比例的对象。
**单发检测器****SSD**)以其在速度和准确率之间的平衡而著称。 就像 YOLO 一样,SSD 仅在输入图像上运行一次 CNN 即可学习表示形式。 在此表示形式上运行一个小的`3x3`卷积核,以预测边界框和类概率。 为了处理比例,SSD 会在多个卷积层之后预测边界框。 由于每个卷积层以不同的比例运行,因此它能够检测各种比例的对象。
下图显示了 Fast R-CNN,Faster R-CNN,YOLO 和 SSD 的性能指标:
......@@ -141,7 +141,7 @@ YOLO 还可以预测训练中所有班级每个盒子的班级得分。 因此
**交并比****IoU**)是对象检测中的一个指标,其中有两个重叠的边界框。 首先,计算盒子的交点,即重叠的面积。 其次,计算重叠框的并集,将整个框的面积之和减去重叠面积。 然后将相交除以并集得到 IoU。
对于移动动作,对于特定状态`s`,朝着区域`b'`移动的动作将获得更好的回报,该区域的地面实况 g 大于 IoU`g`与上一步中考虑的区域`b`的关系。 否则,行动将受到负面奖励。
对于移动动作,对于特定状态`s`,朝着区域`b'`移动的动作将获得更好的回报,该区域的地面实况`g`大于 IoU `g`与上一步中考虑的区域`b`的关系。 否则,行动将受到负面奖励。
对于终端动作,如果具有基本事实的当前区域`b`的 IoU 大于某个阈值`τ`,则奖励为正,否则为负。
......@@ -152,7 +152,7 @@ YOLO 还可以预测训练中所有班级每个盒子的班级得分。 因此
* ImageZooms 模型
* Pool45-作物模型
对于 Image-Zooms 模型,每个区域的大小调整为 224x224,并通过 Pool5 层馈入 VGG-16,以获得特征图。 对于 Pool45-Crops 模型,全分辨率的图像通过 Pool5 层输入到 VGG-16。 合并从整个图像中提取的所有**兴趣区域****ROI**)的特征图。
对于 Image-Zooms 模型,每个区域的大小调整为`224x224`,并通过 Pool5 层馈入 VGG-16,以获得特征图。 对于 Pool45-Crops 模型,全分辨率的图像通过 Pool5 层输入到 VGG-16。 合并从整个图像中提取的所有**兴趣区域****ROI**)的特征图。
这两个用于特征提取的模型输出`7x7`的特征图,该图被馈送到公共块中(如以下架构所示)。 这些特征图和存储向量(前面讨论过)被馈入由两个全连接层组成的深层 Q 网络,每个层各有 1024 个神经元。 每个全连接层都具有 ReLU 激活函数,并经过辍学训练:
......@@ -162,7 +162,7 @@ YOLO 还可以预测训练中所有班级每个盒子的班级得分。 因此
# 训练细节
通过![](img/ecd06177-5874-44de-8f0c-ad4445961487.png)-贪婪方法学习了一个深层 Q 网络,该网络以![](img/752a5ee5-41c4-479c-be21-15ce4c8a1575.png) = 1(完全 100% 探索)开始,并以 0.1 的步长直到= 0.1(仅 10% 探索,90% 开发)减少。 在探索过程中,选择随机动作是因为通过更好的探索,可以避免局部最小值,并且还可以揭示通往目标状态的未知优化路径。 而且,为了帮助代理学习终端动作,每当当前区域具有`IoU > τ`时,代理便被迫采取该动作,这反过来又加速了学习过程。
通过 ε 贪婪方法学习了一个深层 Q 网络,该网络以`ε = 1`(完全 100% 探索)开始,并以 0.1 的步长直到 0.1(仅 10% 探索,90% 开发)减少。 在探索过程中,选择随机动作是因为通过更好的探索,可以避免局部最小值,并且还可以揭示通往目标状态的未知优化路径。 而且,为了帮助代理学习终端动作,每当当前区域具有`IoU > τ`时,代理便被迫采取该动作,这反过来又加速了学习过程。
我们在训练时发现的一个事实是,我们不应强加要首先看图像的哪个对象。 在每个时间步长,代理都将专注于当前区域中与地面真实性重叠程度最高的对象。 这样,目标对象有可能在自顶向下的探索过程中发生变化。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册