提交 1f195fc1 编写于 作者: W wizardforcel

2021-01-22 17:06:01

上级 2029f5b9
......@@ -68,15 +68,15 @@
![](img/e9fa7fd5-b836-4dc6-a320-74200df1183a.png)
* 第二阶段是基于位置的寻址,其重点是从特定存储位置读取/写入数据,而不是在阶段 1 中完成的位置值。其后,标量参数 <sub>![](img/5c82115d-bc8f-4d53-85ec-1a21cf21aed9.png)</sub> 称为插值 门,将内容权重向量 <sub>![](img/42c904e3-2ade-4f81-a5e0-ea2fefd1d85a.png)</sub> 与前一个时间步的权重向量`w[t-1]`混合,以产生门控权重[ <sub>![](img/73e22b6f-cf31-4b95-be7d-9e87c97b295f.png)</sub> 。 这使系统能够学习何时使用(或忽略)基于内容的寻址:
* 第二阶段是基于位置的寻址,其重点是从特定存储位置读取/写入数据,而不是在阶段 1 中完成的位置值。其后,标量参数`g[t] ∈ (0, 1)`称为插值 门,将内容权重向量`w[t]^c`与前一个时间步的权重向量`w[t-1]`混合,以产生门控权重`w[t]^g`。 这使系统能够学习何时使用(或忽略)基于内容的寻址:
![](img/906b96f2-1a9f-4b09-ad23-f551d40f82d5.png)
* 在第三阶段,插值后,头部发出归一化的移位加权![](img/4487b49a-4c0d-4a77-bd0e-275731a59028.png),以执行`R`模的移位运算(即,向上或向下移动行)。 这由以下操作定义:
* 在第三阶段,插值后,头部发出归一化的移位加权`s[t]`,以执行`R`模的移位运算(即,向上或向下移动行)。 这由以下操作定义:
![](img/8ad09342-cba4-4cfe-8b3e-3536756a491d.png)
* 第四个也是最后一个阶段,锐化,用于防止偏移的权重 <sub>![](img/41d9b97b-d903-4bce-86ef-228bd04ca095.png)</sub> 模糊。 这是使用标量 <sub>![](img/8072005d-fae1-4e87-b326-9f241a6d682e.png)</sub> 并应用以下操作完成的:
* 第四个也是最后一个阶段,锐化,用于防止偏移的权重`w_tilde[t]`模糊。 这是使用标量`γ >= 1`并应用以下操作完成的:
![](img/f6a0bbfd-bfe5-4d2d-8d0e-015fc55c1642.png)
......@@ -90,11 +90,11 @@ MANN 的目标是在一次学习任务中表现出色。 正如我们之前阅
# 读取
MANN 的读取操作与 NTM 的读取操作非常相似,唯一的区别是此处的权重向量仅使用基于内容的寻址(NMT 寻址的阶段 -1)。 更准确地说,控制器使用标准化的读取权重向量 <sub>![](img/e4dcb67f-bd46-4c65-acff-e7326482cfbd.png)</sub> ,将其与`M[t]`的行一起使用以生成读取向量,`r[t]`
MANN 的读取操作与 NTM 的读取操作非常相似,唯一的区别是此处的权重向量仅使用基于内容的寻址(NMT 寻址的阶段 -1)。 更准确地说,控制器使用标准化的读取权重向量`w[t]^r`,将其与`M[t]`的行一起使用以生成读取向量,`r[t]`
![](img/dc63f6b2-8a4b-4774-8ed6-0d720f31bb7b.png)
读取权重向量 <sub>![](img/f476876e-0173-4805-afb8-796768a877f5.png)</sub> 由控制器产生,该控制器由以下操作定义:
读取权重向量`w[t]^r`由控制器产生,该控制器由以下操作定义:
![](img/b947ff46-f23a-45ed-a252-2ceaa0ca82b6.png)
......@@ -131,21 +131,21 @@ MANN 的读取操作与 NTM 的读取操作非常相似,唯一的区别是此
* **支持集**:训练集中的采样输入数据点(`x``y`)。
* **测试集**:来自训练集的采样数据点(`x`*和*)。
* **嵌入函数** <sub>![](img/23c3a7fe-0fcf-4d10-956d-5bd9810c0232.png)</sub> ):作为元学习器的一部分,*嵌入函数*与连体网络非常相似。 经过训练可以预测两个输入是否属于同一类。
* **基本学习器模型** <sub>![](img/52001f20-110a-4f6c-a3da-8418744cb716.png)</sub> ):基本学习器模型尝试完成实际的学习任务(例如,分类模型)。
* <sub>![](img/24de8133-5c89-4516-aee1-7d67169fb126.png)</sub> :嵌入函数的快速权重,( <sub>* ![](img/23c3a7fe-0fcf-4d10-956d-5bd9810c0232.png) *</sub> )。
* <sub>![](img/85f7976d-7eba-4739-b527-e798652eabeb.png)</sub> :基本学习器模型的快速权重( <sub>* ![](img/52001f20-110a-4f6c-a3da-8418744cb716.png) *</sub> )。
* <sub>*![](img/86d121fb-e454-4b03-bb18-1224e2c5db40.png) *</sub> :一种 LSTM 架构,用于学习嵌入函数的快速权重 <sub>![](img/45de2f89-d9d7-48df-807e-474abf54ba2c.png)</sub> (( <sub>![](img/e2604082-7c04-461c-a490-d861af786a6d.png)</sub> )的慢速网络。
* <sub>*![](img/73662f56-4d4a-4173-8fda-cbc27fcddb1e.png) *</sub> :通过`v`学习快速权重 <sub>![](img/1473324d-1977-4883-a009-fd5653b452c9.png)</sub> 参数化的神经网络,用于基础学习器 <sub>![](img/5bbeac7c-31a0-4f2d-aeb2-f2d2eec0fe92.png)</sub> ,来自其损失梯度。
* **嵌入函数**`f[θ]`):作为元学习器的一部分,*嵌入函数*与连体网络非常相似。 经过训练可以预测两个输入是否属于同一类。
* **基本学习器模型**`g[φ]`):基本学习器模型尝试完成实际的学习任务(例如,分类模型)。
* `θ⁺`:嵌入函数的快速权重,(`f[θ]`)。
* `φ⁺`:基本学习器模型的快速权重(`g[φ]`)。
* `F[w]`:一种 LSTM 架构,用于学习嵌入函数的快速权重`θ``f[θ]`)的慢速网络。
* `G[v]`:通过`v`学习快速权重`φ`参数化的神经网络,用于基础学习器`g[φ]`,来自其损失梯度。
下图说明了元网络架构:
![](img/7ee8a46f-a88d-4310-a261-da0df68aa4f7.png)
如图所示,元学习器基础学习器由较慢的权重( <sub>![](img/117d9e24-b3c8-4b0e-b987-12a6b0d83cdc.png)</sub> )组成。 为了学习快速权重( <sub>![](img/ee20c334-f543-4422-aa0a-2a4978fec146.png)</sub> ),元网络使用两个不同的网络:
如图所示,元学习器基础学习器由较慢的权重(`θ, φ`)组成。 为了学习快速权重(`θ⁺, φ⁺`),元网络使用两个不同的网络:
* LSTM 网络( <sub>![](img/ec5b8bec-9208-4445-81ab-61ba0dfed94d.png)</sub> ),学习嵌入函数的(元学习器)快速权重-即 <sub>![](img/0c81d110-6d01-4cad-9801-a4af6d5d6bd4.png)</sub>
* 神经网络( <sub>![](img/e810d56f-4e6e-431c-8004-6d820808ca9a.png)</sub> ),以学习基本学习器的快速权重,即 <sub>![](img/776bf61b-01d6-468a-b4c5-d77740a4d7cc.png)</sub>
* LSTM 网络(`F[w]`),学习嵌入函数的(元学习器)快速权重-即`θ⁺`
* 神经网络(`G[v]`),以学习基本学习器的快速权重,即`φ⁺`
现在我们已经了解了快速权重和慢速权重的概念和架构,让我们尝试观察整个元网络架构:
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册