提交 2a1313c2 编写于 作者: W wizardforcel

2020-12-25 17:37:28

上级 9571a7f0
......@@ -36,10 +36,12 @@
# 第 4 章:使用 TensorFlow 的关系和匹配网络
1. 关系网络由两个重要功能组成:嵌入函数(由![](img/748f92be-aee2-447d-99f6-90bd57bc6cfb.png)表示)和关系函数由![](img/319f1a9e-e84a-47cd-bc93-c18f9867309b.png)表示。
2. 有了支持集![](img/e4afbcbb-5a53-43a7-bece-4fdb2c656649.png)和查询集![](img/771b7204-1635-4c70-b8d9-ea3d2e097fb6.png)的特征向量后,就可以使用运算符![](img/a132daf5-6eeb-42e1-b72d-ec98df43e1ad.png)组合它们。 在这里,![](img/d88a7881-32a2-43bf-8ec1-d17cfea1110c.png)可以是任何组合运算符; 我们使用串联作为运算符来组合支持集和查询集的特征向量-![](img/5c9ca5d1-2ec0-451c-a1d9-3fbd7dacd2a6.png)
1. 关系网络由两个重要功能组成:嵌入函数(由`f[φ]`表示)和关系函数由`g[φ]`表示。
2. 有了支持集`f[φ](x[i])`和查询集`f[φ](x[j])`的特征向量后,就可以使用运算符`Z`组合它们。 在这里,`Z`可以是任何组合运算符; 我们使用串联作为运算符来组合支持集和查询集的特征向量:
3. 关系函数![](img/f484cff6-9f8e-4edb-8bd9-343585749bcf.png)将生成一个介于 0 到 1 之间的关系评分,代表支持集![](img/40e3ad0e-9d2c-42ab-9051-3daf8851ddce.png)中的样本与查询集中![](img/35435358-d2ca-4d7d-99ef-293f510e3610.png)中的样本之间的相似性。
![](img/5c9ca5d1-2ec0-451c-a1d9-3fbd7dacd2a6.png)。
3. 关系函数`g[φ]`将生成一个介于 0 到 1 之间的关系评分,代表支持集`x[i]`中的样本与查询集中`x[j]`中的样本之间的相似性。
4. 我们的损失函数可以表示为:
![](img/4cbb2cc6-469c-45d2-9788-6e16bcfa7e31.png)
......@@ -88,7 +90,7 @@
![](img/e0216ec9-6de3-4ca8-9354-e3a72f2b6679.png)
5. 归一化因子与![](img/f3ad4b73-bfa4-4b97-99ac-00fae808ac44.png)和![](img/2aed6c8f-51d5-4db7-acb5-071f3983a7af.png)的内积成比例。
5. 归一化因子与`g[i]``g_avg`的内积成比例。
6. 如果任务的梯度与采样的任务批次中所有任务的平均梯度方向相同,则我们可以增加其权重,以便在更新模型参数时做出更大的贡献。 同样,如果任务的梯度方向与采样的任务批次中所有任务的平均梯度方向大不相同,那么我们可以减小其权重,以便在更新模型参数时其贡献较小。
# 第 9 章:最新进展和后续步骤
......
......@@ -33,7 +33,7 @@ I2A 的架构如下:
![](img/00416.gif)
**想象核心****策略网络****环境模型**组成。 **环境模型**实际上是发生一切的地方。 **环境模型**从代理到目前为止执行的所有动作中学习。 它获取有关状态![](img/00417.jpeg)的信息,并根据经验来想象所有可能的期货,并选择给予较高奖励的操作![](img/00418.jpeg)
**想象核心****策略网络****环境模型**组成。 **环境模型**实际上是发生一切的地方。 **环境模型**从代理到目前为止执行的所有动作中学习。 它获取有关状态`o_hat[t]`的信息,并根据经验来想象所有可能的期货,并选择给予较高奖励的操作`a_hat[t]`
扩展了所有组件的 I2A 架构如下所示:
......@@ -60,7 +60,7 @@ I2A 的架构如下:
3. 人员将检查视频剪辑,并了解代理在哪个视频剪辑中表现更好。 他们会将结果发送给奖励预测器。
4. 现在,代理将从预测的奖励中接收这些信号,并根据人类的反馈设置其目标和奖励功能。
轨迹是一系列观察和动作。 我们可以将轨迹段表示为![](img/00422.jpeg),因此![](img/00423.jpeg),其中`o`是观察值,`a`是动作。 代理从环境接收观察并执行某些操作。 假设我们将交互序列存储在两个轨迹段中,即![](img/00424.jpeg)和![](img/00425.jpeg)。 现在,这两个轨迹已显示给人类。 如果人类更喜欢![](img/00426.jpeg)而不是![](img/00427.jpeg),那么代理的目标是产生人类所喜欢的轨迹,并相应地设置奖励功能。 这些轨迹段以![](img/00428.jpeg)的形式存储在数据库中; 如果人类更喜欢![](img/00429.jpeg)而不是![](img/00430.jpeg),则![](img/00431.jpeg)设置为更喜欢![](img/00432.jpeg)。 如果没有一条轨迹是可取的,则两条轨迹都将从数据库中删除。 如果两者均首选,则将![](img/00433.jpeg)设置为统一。
轨迹是一系列观察和动作。 我们可以将轨迹段表示为`σ`,因此`σ = (o0, a0), (o1, a1), ..., (o[k-1], a[k-1])`,其中`o`是观察值,`a`是动作。 代理从环境接收观察并执行某些操作。 假设我们将交互序列存储在两个轨迹段中,即`σ[1]``σ[2]`。 现在,这两个轨迹已显示给人类。 如果人类更喜欢`σ[2]`而不是`σ[1]`,那么代理的目标是产生人类所喜欢的轨迹,并相应地设置奖励功能。 这些轨迹段以`(σ[1], σ[2], μ)`的形式存储在数据库中; 如果人类更喜欢`σ[2]`而不是`σ[1]`,则`μ`设置为更喜欢`σ[2]`。 如果没有一条轨迹是可取的,则两条轨迹都将从数据库中删除。 如果两者均首选,则将`μ`设置为统一。
您可以在[这个页面](https://youtu.be/oC7Cw3fu3gU)上查看视频,以了解算法的工作原理。
......@@ -121,13 +121,13 @@ MAXQ 值函数分解是 HRL 中最常用的算法之一。 让我们看看 MAXQ
**导航**子任务具有四个原始动作:**东部****西部****北部****南部****获取**子任务具有**拾取**基本操作和导航子任务; 同样,**放置**子任务,具有**放置**(放置)原始动作并导航子任务。
在 MAXQ 分解中,MDP ![](img/00438.jpeg)将分为一组任务,例如![](img/00439.jpeg)
在 MAXQ 分解中,MDP ![](img/00438.jpeg)将分为一组任务,例如`(M[0], M[1], ,,, M[n])`
![](img/00440.jpeg)是根任务,![](img/00441.jpeg)是子任务。
`M[0]`是根任务,`M[1], M[2], M[n]`是子任务。
子任务![](img/00442.jpeg)使用状态![](img/00443.jpeg),操作![](img/00444.jpeg),概率转换函数![](img/00445.jpeg)和预期奖励函数![](img/00446.jpeg)定义半 MDP,其中![](img/00447.jpeg)是子任务![](img/00448.jpeg)的投影值函数 ]处于![](img/00449.jpeg)状态
子任务`M[i]`使用状态`S[i]`,操作`A[i]`,概率转换函数`P[i]^π(s', N | s, a)`和预期奖励函数`R_bar(s, a) = V^π(a, s)`定义半 MDP,其中`V^π(a, s)`是子任务`M[a]``s`状态下的投影值函数
如果动作`a`是原始动作,那么我们可以将![](img/00450.jpeg)定义为在`s`状态下执行动作`a`的预期立即回报:
如果动作`a`是原始动作,那么我们可以将`V^π(a, s)`定义为在`s`状态下执行动作`a`的预期立即回报:
![](img/00451.jpeg)
......@@ -139,7 +139,7 @@ MAXQ 值函数分解是 HRL 中最常用的算法之一。 让我们看看 MAXQ
![](img/00453.jpeg) ----(2)
现在,我们再定义一个称为完成功能的函数,它是完成子任务![](img/00454.jpeg)的预期折现累积奖励:
现在,我们再定义一个称为完成功能的函数,它是完成子任务`M[i]`的预期折现累积奖励:
![](img/00455.jpeg) ----(3)
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册