Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
d2l-zh
提交
1ae6b118
D
d2l-zh
项目概览
OpenDocCN
/
d2l-zh
通知
2
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
d2l-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
1ae6b118
编写于
7月 25, 2018
作者:
A
Aston Zhang
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
rnn and backprop fix
上级
e1b21f23
变更
6
隐藏空白更改
内联
并排
Showing
6 changed file
with
37 addition
and
34 deletion
+37
-34
chapter_deep-learning-basics/backprop.md
chapter_deep-learning-basics/backprop.md
+7
-7
chapter_recurrent-neural-networks/bi-rnn.md
chapter_recurrent-neural-networks/bi-rnn.md
+2
-2
chapter_recurrent-neural-networks/bptt.md
chapter_recurrent-neural-networks/bptt.md
+7
-7
chapter_recurrent-neural-networks/deep-rnn.md
chapter_recurrent-neural-networks/deep-rnn.md
+1
-1
chapter_recurrent-neural-networks/gru.md
chapter_recurrent-neural-networks/gru.md
+3
-3
chapter_recurrent-neural-networks/lstm.md
chapter_recurrent-neural-networks/lstm.md
+17
-14
未找到文件。
chapter_deep-learning-basics/backprop.md
浏览文件 @
1ae6b118
...
...
@@ -63,7 +63,7 @@ $$J = L + s.$$
为了表述方便,对输入输出$
\m
athsf{X},
\m
athsf{Y},
\m
athsf{Z}$为任意形状张量的函数$
\m
athsf{Y}=f(
\m
athsf{X})$和$
\m
athsf{Z}=g(
\m
athsf{Y})$,我们使用
$$
\f
rac{
\p
artial
\m
athsf{Z}}{
\p
artial
\m
athsf{X}} =
\t
ext{prod}
(
\f
rac{
\p
artial
\m
athsf{Z}}{
\p
artial
\m
athsf{Y}},
\f
rac{
\p
artial
\m
athsf{Y}}{
\p
artial
\m
athsf{X}}
)$$
$$
\f
rac{
\p
artial
\m
athsf{Z}}{
\p
artial
\m
athsf{X}} =
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial
\m
athsf{Z}}{
\p
artial
\m
athsf{Y}},
\f
rac{
\p
artial
\m
athsf{Y}}{
\p
artial
\m
athsf{X}}
\r
ight
)$$
来表达链式法则。
...
...
@@ -79,7 +79,7 @@ $$\frac{\partial J}{\partial s} = 1.$$
$$
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{o}}
=
\t
ext{prod}
(
\f
rac{
\p
artial J}{
\p
artial L},
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}}
)
=
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial J}{
\p
artial L},
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}}
\r
ight
)
=
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}}.
$$
...
...
@@ -95,7 +95,7 @@ $J$分别通过$\boldsymbol{o}$和$s$依赖$\boldsymbol{W}^{(2)}$。依据链式
$$
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{W}^{(2)}}
=
\t
ext{prod}
(
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{o}},
\f
rac{
\p
artial
\b
oldsymbol{o}}{
\p
artial
\b
oldsymbol{W}^{(2)}}) +
\t
ext{prod}(
\f
rac{
\p
artial J}{
\p
artial s},
\f
rac{
\p
artial s}{
\p
artial
\b
oldsymbol{W}^{(2)}}
)
=
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{o}},
\f
rac{
\p
artial
\b
oldsymbol{o}}{
\p
artial
\b
oldsymbol{W}^{(2)}}
\r
ight) +
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial J}{
\p
artial s},
\f
rac{
\p
artial s}{
\p
artial
\b
oldsymbol{W}^{(2)}}
\r
ight
)
=
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{o}}
\b
oldsymbol{h}^
\t
op +
\l
ambda
\b
oldsymbol{W}^{(2)}.
$$
...
...
@@ -104,7 +104,7 @@ $$
$$
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{h}}
=
\t
ext{prod}
(
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{o}},
\f
rac{
\p
artial
\b
oldsymbol{o}}{
\p
artial
\b
oldsymbol{h}}
)
=
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{o}},
\f
rac{
\p
artial
\b
oldsymbol{o}}{
\p
artial
\b
oldsymbol{h}}
\r
ight
)
= {
\b
oldsymbol{W}^{(2)}}^
\t
op
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{o}}.
$$
...
...
@@ -113,15 +113,15 @@ $$
$$
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{z}}
=
\t
ext{prod}
(
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{h}},
\f
rac{
\p
artial
\b
oldsymbol{h}}{
\p
artial
\b
oldsymbol{z}}
)
=
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{h}}
\o
dot
\p
hi'
(
\b
oldsymbol{z}
).
=
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{h}},
\f
rac{
\p
artial
\b
oldsymbol{h}}{
\p
artial
\b
oldsymbol{z}}
\r
ight
)
=
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{h}}
\o
dot
\p
hi'
\l
eft(
\b
oldsymbol{z}
\r
ight
).
$$
最终,我们可以得到最靠近输入层的模型参数的梯度$
\p
artial J/
\p
artial
\b
oldsymbol{W}^{(1)}
\i
n
\m
athbb{R}^{h
\t
imes d}$。在图3.6中,$J$分别通过$
\b
oldsymbol{z}$和$s$依赖$
\b
oldsymbol{W}^{(1)}$。依据链式法则,我们得到
$$
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{W}^{(1)}}
=
\t
ext{prod}
(
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{z}},
\f
rac{
\p
artial
\b
oldsymbol{z}}{
\p
artial
\b
oldsymbol{W}^{(1)}}) +
\t
ext{prod}(
\f
rac{
\p
artial J}{
\p
artial s},
\f
rac{
\p
artial s}{
\p
artial
\b
oldsymbol{W}^{(1)}}
)
=
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{z}},
\f
rac{
\p
artial
\b
oldsymbol{z}}{
\p
artial
\b
oldsymbol{W}^{(1)}}
\r
ight) +
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial J}{
\p
artial s},
\f
rac{
\p
artial s}{
\p
artial
\b
oldsymbol{W}^{(1)}}
\r
ight
)
=
\f
rac{
\p
artial J}{
\p
artial
\b
oldsymbol{z}}
\b
oldsymbol{x}^
\t
op +
\l
ambda
\b
oldsymbol{W}^{(1)}.
$$
...
...
chapter_recurrent-neural-networks/bi-rnn.md
浏览文件 @
1ae6b118
...
...
@@ -21,7 +21,7 @@ $$\boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hy} + \boldsymbol{b}_y,$$
其中权重$
\b
oldsymbol{W}_{hy}
\i
n
\m
athbb{R}^{2h
\t
imes q}$和偏差$
\b
oldsymbol{b}_y
\i
n
\m
athbb{R}^{1
\t
imes q}$为输出层的模型参数。
双向循环神经网络架构如图6.
5
所示。和前面介绍的单向循环神经网络不同,给定一段时间序列,双向循环神经网络在每个时间步的隐藏状态同时取决于该时间步之前和之后的子序列(包括当前时间步的输入),并编码了整个序列的信息。
双向循环神经网络架构如图6.
12
所示。和前面介绍的单向循环神经网络不同,给定一段时间序列,双向循环神经网络在每个时间步的隐藏状态同时取决于该时间步之前和之后的子序列(包括当前时间步的输入),并编码了整个序列的信息。
![
双向循环神经网络架构。
](
../img/birnn.svg
)
...
...
@@ -36,7 +36,7 @@ $$\boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hy} + \boldsymbol{b}_y,$$
## 练习
*
参考图6.
4和图6.5
,设计含多个隐藏层的双向循环神经网络。
*
参考图6.
11和图6.12
,设计含多个隐藏层的双向循环神经网络。
## 扫码直达[讨论区](https://discuss.gluon.ai/t/topic/6732)
...
...
chapter_recurrent-neural-networks/bptt.md
浏览文件 @
1ae6b118
...
...
@@ -46,7 +46,7 @@ $$\frac{\partial L}{\partial \boldsymbol{o}_t} = \frac{\partial \ell (\boldsymb
$$
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{W}_{yh}}
=
\s
um_{t=1}^T
\t
ext{prod}
(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_t},
\f
rac{
\p
artial
\b
oldsymbol{o}_t}{
\p
artial
\b
oldsymbol{W}_{yh}}
)
=
\s
um_{t=1}^T
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_t},
\f
rac{
\p
artial
\b
oldsymbol{o}_t}{
\p
artial
\b
oldsymbol{W}_{yh}}
\r
ight
)
=
\s
um_{t=1}^T
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_t}
\b
oldsymbol{h}_t^
\t
op
$$
...
...
@@ -55,7 +55,7 @@ $$
在图6.3中,$L$只通过$
\b
oldsymbol{o}_T$依赖最终时间步$T$的隐藏状态$
\b
oldsymbol{h}_T$。因此,我们先计算目标函数有关最终时间步隐藏状态的梯度$
\p
artial L/
\p
artial
\b
oldsymbol{h}_T
\i
n
\m
athbb{R}^h$。依据链式法则,我们得到
$$
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_T} =
\t
ext{prod}
(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_T},
\f
rac{
\p
artial
\b
oldsymbol{o}_T}{
\p
artial
\b
oldsymbol{h}_T}
) =
\b
oldsymbol{W}_{yh}^
\t
op
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_T}.
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_T} =
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_T},
\f
rac{
\p
artial
\b
oldsymbol{o}_T}{
\p
artial
\b
oldsymbol{h}_T}
\r
ight
) =
\b
oldsymbol{W}_{yh}^
\t
op
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_T}.
$$
...
...
@@ -67,8 +67,8 @@ $$
$$
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_t}
=
\t
ext{prod}
(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_{t+1}},
\f
rac{
\p
artial
\b
oldsymbol{h}_{t+1}}{
\p
artial
\b
oldsymbol{h}_t}
)
+
\t
ext{prod}
(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_t},
\f
rac{
\p
artial
\b
oldsymbol{o}_t}{
\p
artial
\b
oldsymbol{h}_t}
)
=
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_{t+1}},
\f
rac{
\p
artial
\b
oldsymbol{h}_{t+1}}{
\p
artial
\b
oldsymbol{h}_t}
\r
ight
)
+
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_t},
\f
rac{
\p
artial
\b
oldsymbol{o}_t}{
\p
artial
\b
oldsymbol{h}_t}
\r
ight
)
=
\b
oldsymbol{W}_{hh}^
\t
op
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_{t+1}} +
\b
oldsymbol{W}_{yh}^
\t
op
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_t}.
$$
...
...
@@ -76,7 +76,7 @@ $$
$$
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_t}
=
\s
um_{i=t}^T {
(
\b
oldsymbol{W}_{hh}^
\t
op
)}^{T-i}
\b
oldsymbol{W}_{yh}^
\t
op
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_{T+t-i}}.
=
\s
um_{i=t}^T {
\l
eft(
\b
oldsymbol{W}_{hh}^
\t
op
\r
ight
)}^{T-i}
\b
oldsymbol{W}_{yh}^
\t
op
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{o}_{T+t-i}}.
$$
由上式中的指数项可见,当时间步数$T$较大或者时间步$t$较小,目标函数有关隐藏状态的梯度较容易出现衰减和爆炸。这也会影响其他计算中包含$
\p
artial L /
\p
artial
\b
oldsymbol{h}_t$的梯度,例如隐藏层中模型参数的梯度$
\p
artial L /
\p
artial
\b
oldsymbol{W}_{hx}
\i
n
\m
athbb{R}^{h
\t
imes d}$和$
\p
artial L /
\p
artial
\b
oldsymbol{W}_{hh}
\i
n
\m
athbb{R}^{h
\t
imes h}$。
...
...
@@ -86,10 +86,10 @@ $$
$$
\b
egin{aligned}
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{W}_{hx}}
&=
\s
um_{t=1}^T
\t
ext{prod}
(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_t},
\f
rac{
\p
artial
\b
oldsymbol{h}_t}{
\p
artial
\b
oldsymbol{W}_{hx}}
)
&=
\s
um_{t=1}^T
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_t},
\f
rac{
\p
artial
\b
oldsymbol{h}_t}{
\p
artial
\b
oldsymbol{W}_{hx}}
\r
ight
)
=
\s
um_{t=1}^T
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_t}
\b
oldsymbol{x}_t^
\t
op,
\\
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{W}_{hh}}
&=
\s
um_{t=1}^T
\t
ext{prod}
(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_t},
\f
rac{
\p
artial
\b
oldsymbol{h}_t}{
\p
artial
\b
oldsymbol{W}_{hh}}
)
&=
\s
um_{t=1}^T
\t
ext{prod}
\l
eft(
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_t},
\f
rac{
\p
artial
\b
oldsymbol{h}_t}{
\p
artial
\b
oldsymbol{W}_{hh}}
\r
ight
)
=
\s
um_{t=1}^T
\f
rac{
\p
artial L}{
\p
artial
\b
oldsymbol{h}_t}
\b
oldsymbol{h}_{t-1}^
\t
op.
\e
nd{aligned}
$$
...
...
chapter_recurrent-neural-networks/deep-rnn.md
浏览文件 @
1ae6b118
...
...
@@ -25,7 +25,7 @@ $$\boldsymbol{O}_t = \boldsymbol{H}_t^{(L)} \boldsymbol{W}_{hy} + \boldsymbol{b}
其中权重$
\b
oldsymbol{W}_{hy}
\i
n
\m
athbb{R}^{h
\t
imes q}$和偏差$
\b
oldsymbol{b}_y
\i
n
\m
athbb{R}^{1
\t
imes q}$为输出层的模型参数。
深度循环神经网络的架构如图6.
4
所示。隐藏状态的信息不断传递至当前层的下一时间步和当前时间步的下一层。
深度循环神经网络的架构如图6.
11
所示。隐藏状态的信息不断传递至当前层的下一时间步和当前时间步的下一层。
![
深度循环神经网络的架构。
](
../img/deep-rnn.svg
)
...
...
chapter_recurrent-neural-networks/gru.md
浏览文件 @
1ae6b118
...
...
@@ -12,7 +12,7 @@
### 重置门和更新门
门控循环单元引入了重置门(reset gate)和更新门(update gate)。如图6.4所示,重置门和更新门均由输入为当前时间步输入$
\b
oldsymbol{X}_t$与上一时间步隐藏状态$
\b
oldsymbol{H}_{t-1}$
、激活函数为sigmoid函数的全连接层分别
计算得出。
门控循环单元引入了重置门(reset gate)和更新门(update gate)。如图6.4所示,重置门和更新门均由输入为当前时间步输入$
\b
oldsymbol{X}_t$与上一时间步隐藏状态$
\b
oldsymbol{H}_{t-1}$
,且激活函数为sigmoid函数的全连接层
计算得出。
![
门控循环单元中重置门和更新门的计算。
](
../img/gru_1.svg
)
...
...
@@ -23,7 +23,7 @@
$$
\b
egin{aligned}
\b
oldsymbol{R}_t =
\s
igma(
\b
oldsymbol{X}_t
\b
oldsymbol{W}_{xr} +
\b
oldsymbol{H}_{t-1}
\b
oldsymbol{W}_{hr} +
\b
oldsymbol{b}_r),
\\
\b
oldsymbol{Z}_t =
\s
igma(
\b
oldsymbol{X}_t
\b
oldsymbol{W}_{xz} +
\b
oldsymbol{H}_{t-1}
\b
oldsymbol{W}_{hz} +
\b
oldsymbol{b}_z)
.
\b
oldsymbol{Z}_t =
\s
igma(
\b
oldsymbol{X}_t
\b
oldsymbol{W}_{xz} +
\b
oldsymbol{H}_{t-1}
\b
oldsymbol{W}_{hz} +
\b
oldsymbol{b}_z)
,
\e
nd{aligned}
$$
...
...
@@ -46,7 +46,7 @@ $$\tilde{\boldsymbol{H}}_t = \text{tanh}(\boldsymbol{X}_t \boldsymbol{W}_{xh} +
### 隐藏状态
最后,
隐藏状态$
\b
oldsymbol{H}_t
\i
n
\m
athbb{R}^{n
\t
imes h}$的计算使用
更新门$
\b
oldsymbol{Z}_t$来对上一时间步的隐藏状态$
\b
oldsymbol{H}_{t-1}$和当前时间步的候选隐藏状态$
\t
ilde{
\b
oldsymbol{H}}_t$做组合:
最后,
时间步$t$的隐藏状态$
\b
oldsymbol{H}_t
\i
n
\m
athbb{R}^{n
\t
imes h}$的计算使用当前时间步的
更新门$
\b
oldsymbol{Z}_t$来对上一时间步的隐藏状态$
\b
oldsymbol{H}_{t-1}$和当前时间步的候选隐藏状态$
\t
ilde{
\b
oldsymbol{H}}_t$做组合:
$$
\b
oldsymbol{H}_t =
\b
oldsymbol{Z}_t
\o
dot
\b
oldsymbol{H}_{t-1} + (1 -
\b
oldsymbol{Z}_t)
\o
dot
\t
ilde{
\b
oldsymbol{H}}_t.$$
...
...
chapter_recurrent-neural-networks/lstm.md
浏览文件 @
1ae6b118
...
...
@@ -6,23 +6,24 @@
## 长短期记忆
我们先介绍长短期记忆的设计。它修改了循环神经网络隐藏状态的计算方式,并引入了与隐藏状态形状相同的记忆细胞(某些文献把记忆细胞当成一种特殊的隐藏状态),
其可以用来
记录额外的历史信息。
我们先介绍长短期记忆的设计。它修改了循环神经网络隐藏状态的计算方式,并引入了与隐藏状态形状相同的记忆细胞(某些文献把记忆细胞当成一种特殊的隐藏状态),
从而
记录额外的历史信息。
### 输入门、遗忘门和输出门
同门控循环单元
一样,输入门(input gate)、遗忘门(forget gate)和输出门(output gate)的计算,入下图所示,均是通过合并输入和上一时间步的隐藏状态后进入激活函数为sigmoid的全连接层而来,这样它们
元素的值域均为$[0,1]$。
同门控循环单元
中的重置门和更新门一样,如图6.7所示,长短期记忆的输入门(input gate)、遗忘门(forget gate)和输出门(output gate)均由输入为当前时间步输入$
\b
oldsymbol{X}_t$与上一时间步隐藏状态$
\b
oldsymbol{H}_{t-1}$,且激活函数为sigmoid函数的全连接层计算得出。如此一来,这三个门
元素的值域均为$[0,1]$。
![
LSTM中的输入门、遗忘门和输出门的计算。
](
../img/lstm_0.svg
)
假设隐藏单元个数为$h$,给定时间步$t$的小批量输入$
\b
oldsymbol{X}_t
\i
n
\m
athbb{R}^{n
\t
imes d}$(样本数为$n$,输入个数为$d$)和上一时间步隐藏状态$
\b
oldsymbol{H}_{t-1}
\i
n
\m
athbb{R}^{n
\t
imes h}$。
![
长短期记忆中输入门、遗忘门和输出门的计算。
](
../img/lstm_0.svg
)
具体来说,假设隐藏单元个数为$h$,给定时间步$t$的小批量输入$
\b
oldsymbol{X}_t
\i
n
\m
athbb{R}^{n
\t
imes d}$(样本数为$n$,输入个数为$d$)和上一时间步隐藏状态$
\b
oldsymbol{H}_{t-1}
\i
n
\m
athbb{R}^{n
\t
imes h}$。
时间步$t$的输入门$
\b
oldsymbol{I}_t
\i
n
\m
athbb{R}^{n
\t
imes h}$、遗忘门$
\b
oldsymbol{F}_t
\i
n
\m
athbb{R}^{n
\t
imes h}$和输出门$
\b
oldsymbol{O}_t
\i
n
\m
athbb{R}^{n
\t
imes h}$分别计算如下:
$$
\b
egin{aligned}
\b
oldsymbol{I}_t &=
\s
igma(
\b
oldsymbol{X}_t
\b
oldsymbol{W}_{xi} +
\b
oldsymbol{H}_{t-1}
\b
oldsymbol{W}_{hi} +
\b
oldsymbol{b}_i),
\\
\b
oldsymbol{F}_t &=
\s
igma(
\b
oldsymbol{X}_t
\b
oldsymbol{W}_{xf} +
\b
oldsymbol{H}_{t-1}
\b
oldsymbol{W}_{hf} +
\b
oldsymbol{b}_f),
\\
\b
oldsymbol{O}_t &=
\s
igma(
\b
oldsymbol{X}_t
\b
oldsymbol{W}_{xo} +
\b
oldsymbol{H}_{t-1}
\b
oldsymbol{W}_{ho} +
\b
oldsymbol{b}_o)
.
\b
oldsymbol{O}_t &=
\s
igma(
\b
oldsymbol{X}_t
\b
oldsymbol{W}_{xo} +
\b
oldsymbol{H}_{t-1}
\b
oldsymbol{W}_{ho} +
\b
oldsymbol{b}_o)
,
\e
nd{aligned}
$$
...
...
@@ -31,27 +32,29 @@ $$
### 候选记忆细胞
和门控循环单元中的隐藏状态前需要计算候选隐藏状态一样,LSTM首先计算候选记忆细胞$
\t
ilde{
\b
oldsymbol{C}}_t$。它的计算同其他门一样,但使用了值域在$[-1, 1]$的tanh函数做激活函数,其入下图
所示。
接下来,长短期记忆需要计算候选记忆细胞$
\t
ilde{
\b
oldsymbol{C}}_t$。它的计算同上面介绍的三个门类似,但使用了值域在$[-1, 1]$的tanh函数做激活函数,如图6.8
所示。
![
LSTM中的候选记忆细胞
计算。
](
../img/lstm_1.svg
)
![
长短期记忆中候选记忆细胞的
计算。
](
../img/lstm_1.svg
)
具体来说,
候选记忆细胞$
\t
ilde{
\b
oldsymbol{C}}_t
\i
n
\m
athbb{R}^{n
\t
imes h}$的计算为:
具体来说,
时间步$t$的候选记忆细胞$
\t
ilde{
\b
oldsymbol{C}}_t
\i
n
\m
athbb{R}^{n
\t
imes h}$的计算为
$$
\t
ilde{
\b
oldsymbol{C}}_t =
\t
ext{tanh}(
\b
oldsymbol{X}_t
\b
oldsymbol{W}_{xc} +
\b
oldsymbol{H}_{t-1}
\b
oldsymbol{W}_{hc} +
\b
oldsymbol{b}_c)
.
$$
$$
\t
ilde{
\b
oldsymbol{C}}_t =
\t
ext{tanh}(
\b
oldsymbol{X}_t
\b
oldsymbol{W}_{xc} +
\b
oldsymbol{H}_{t-1}
\b
oldsymbol{W}_{hc} +
\b
oldsymbol{b}_c)
,
$$
其中的$
\b
oldsymbol{W}_{xc}
\i
n
\m
athbb{R}^{d
\t
imes h}$和$
\b
oldsymbol{W}_{hc}
\i
n
\m
athbb{R}^{h
\t
imes h}$是权重参数,$
\b
oldsymbol{b}_c
\i
n
\m
athbb{R}^{1
\t
imes h}$是偏移参数。
### 记忆细胞
当前时间步记忆细胞$
\b
oldsymbol{C}_t
\i
n
\m
athbb{R}^{n
\t
imes h}$的计算组合了上一时间步记忆细胞和当前时间步候选记忆细胞的信息,并通过遗忘门和输入门来控制信息的流动:
我们可以通过元素值域在$[0, 1]$的输入门、遗忘门和输出门来控制隐藏状态中信息的流动:这通常可以应用按元素乘法符$
\o
dot$。
当前时间步记忆细胞$
\b
oldsymbol{C}_t
\i
n
\m
athbb{R}^{n
\t
imes h}$的计算组合了上一时间步记忆细胞和当前时间步候选记忆细胞的信息,并通过遗忘门和输入门来控制信息的流动:
$$
\b
oldsymbol{C}_t =
\b
oldsymbol{F}_t
\o
dot
\b
oldsymbol{C}_{t-1} +
\b
oldsymbol{I}_t
\o
dot
\t
ilde{
\b
oldsymbol{C}}_t.$$
![
LSTM中的记忆细胞计算。
](
../img/lstm_2.svg
)
这里遗忘门控制上一步的记忆信息是否传递到这一步,输入门则控制记录多少当前信息。如果遗忘门一直近似1且输入门一直近似0,过去的记忆细胞将一直通过时间保存并传递至当前时间步。这个设计可以应对循环神经网络中的梯度衰减问题,并更好地捕捉时序数据中间隔较大的依赖关系。
如图6.9所示,遗忘门控制上一时间步的记忆细胞信息是否传递到当前时间步,而输入门则可以控制当前时间步的输入通过候选记忆细胞流入当前时间步。如果遗忘门一直近似1且输入门一直近似0,过去的记忆细胞将一直通过时间保存并传递至当前时间步。这个设计可以应对循环神经网络中的梯度衰减问题,并更好地捕捉时序数据中间隔较大的依赖关系。
![
长短期记忆中记忆细胞的计算。这里的乘号是按元素乘法。
](
../img/lstm_2.svg
)
### 隐藏状态
...
...
@@ -59,9 +62,9 @@ $$\boldsymbol{C}_t = \boldsymbol{F}_t \odot \boldsymbol{C}_{t-1} + \boldsymbol{I
$$
\b
oldsymbol{H}_t =
\b
oldsymbol{O}_t
\o
dot
\t
ext{tanh}(
\b
oldsymbol{C}_t).$$
![
LSTM中的隐藏状态计算。
](
../img/lstm_3.svg
)
这里的tanh函数确保隐藏状态元素值在-1到1之间。需要注意的是,当输出门近似1,记忆细胞信息将传递到隐藏状态供输出层使用;当输出门近似0,记忆细胞信息只自己保留。图6.10展示了长短期记忆中隐藏状态的计算。
这里的tanh函数确保隐藏状态元素值在-1到1之间。需要注意的是,当输出门近似1,记忆细胞信息将传递到隐藏状态供输出层使用;当输出门近似0,记忆细胞信息只自己保留。
![
长短期记忆中隐藏状态的计算。这里的乘号是按元素乘法。
](
../img/lstm_3.svg
)
### 输出层
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录