Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
d2l-zh
提交
3ea122ce
D
d2l-zh
项目概览
OpenDocCN
/
d2l-zh
通知
2
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
d2l-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
3ea122ce
编写于
8月 26, 2018
作者:
A
Aston Zhang
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
universal h for deep rnn
上级
377e09e3
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
5 addition
and
5 deletion
+5
-5
chapter_recurrent-neural-networks/deep-rnn.md
chapter_recurrent-neural-networks/deep-rnn.md
+5
-5
未找到文件。
chapter_recurrent-neural-networks/deep-rnn.md
浏览文件 @
3ea122ce
...
@@ -5,27 +5,27 @@
...
@@ -5,27 +5,27 @@
![
深度循环神经网络的架构。
](
../img/deep-rnn.svg
)
![
深度循环神经网络的架构。
](
../img/deep-rnn.svg
)
具体来说,在时间步$t$里,设小批量输入$
\b
oldsymbol{X}_t
\i
n
\m
athbb{R}^{n
\t
imes d}$(样本数为$n$,输入个数为$d$),第$l$隐藏层($l=1,
\l
dots,T$)的隐藏状态为$
\b
oldsymbol{H}_t^{(l)}
\i
n
\m
athbb{R}^{n
\t
imes h
^{(l)}}$(隐藏单元个数为$h^{(l)}
$),输出层变量为$
\b
oldsymbol{O}_t
\i
n
\m
athbb{R}^{n
\t
imes q}$(输出个数为$q$),且隐藏层的激活函数为$
\p
hi$。第一隐藏层的隐藏状态和之前的计算一样:
具体来说,在时间步$t$里,设小批量输入$
\b
oldsymbol{X}_t
\i
n
\m
athbb{R}^{n
\t
imes d}$(样本数为$n$,输入个数为$d$),第$l$隐藏层($l=1,
\l
dots,T$)的隐藏状态为$
\b
oldsymbol{H}_t^{(l)}
\i
n
\m
athbb{R}^{n
\t
imes h
}$(隐藏单元个数为$h
$),输出层变量为$
\b
oldsymbol{O}_t
\i
n
\m
athbb{R}^{n
\t
imes q}$(输出个数为$q$),且隐藏层的激活函数为$
\p
hi$。第一隐藏层的隐藏状态和之前的计算一样:
$$
\b
oldsymbol{H}_t^{(1)} =
\p
hi(
\b
oldsymbol{X}_t
\b
oldsymbol{W}_{xh}^{(1)} +
\b
oldsymbol{H}_{t-1}^{(1)}
\b
oldsymbol{W}_{hh}^{(1)} +
\b
oldsymbol{b}_h^{(1)}),$$
$$
\b
oldsymbol{H}_t^{(1)} =
\p
hi(
\b
oldsymbol{X}_t
\b
oldsymbol{W}_{xh}^{(1)} +
\b
oldsymbol{H}_{t-1}^{(1)}
\b
oldsymbol{W}_{hh}^{(1)} +
\b
oldsymbol{b}_h^{(1)}),$$
其中权重$
\b
oldsymbol{W}_{xh}^{(1)}
\i
n
\m
athbb{R}^{d
\t
imes h
^{(1)}},
\b
oldsymbol{W}_{hh}^{(1)}
\i
n
\m
athbb{R}^{h^{(1)}
\t
imes h^{(1)}}$和偏差 $
\b
oldsymbol{b}_h^{(1)}
\i
n
\m
athbb{R}^{1
\t
imes h^{(1)}
}$分别为第一隐藏层的模型参数。
其中权重$
\b
oldsymbol{W}_{xh}^{(1)}
\i
n
\m
athbb{R}^{d
\t
imes h
},
\b
oldsymbol{W}_{hh}^{(1)}
\i
n
\m
athbb{R}^{h
\t
imes h}$和偏差 $
\b
oldsymbol{b}_h^{(1)}
\i
n
\m
athbb{R}^{1
\t
imes h
}$分别为第一隐藏层的模型参数。
当$1 < l
\l
eq L$时,第$l$隐藏层的隐藏状态的表达式为
当$1 < l
\l
eq L$时,第$l$隐藏层的隐藏状态的表达式为
$$
\b
oldsymbol{H}_t^{(l)} =
\p
hi(
\b
oldsymbol{H}_t^{(l-1)}
\b
oldsymbol{W}_{xh}^{(l)} +
\b
oldsymbol{H}_{t-1}^{(1)}
\b
oldsymbol{W}_{hh}^{(l)} +
\b
oldsymbol{b}_h^{(l)}),$$
$$
\b
oldsymbol{H}_t^{(l)} =
\p
hi(
\b
oldsymbol{H}_t^{(l-1)}
\b
oldsymbol{W}_{xh}^{(l)} +
\b
oldsymbol{H}_{t-1}^{(1)}
\b
oldsymbol{W}_{hh}^{(l)} +
\b
oldsymbol{b}_h^{(l)}),$$
其中权重$
\b
oldsymbol{W}_{xh}^{(l)}
\i
n
\m
athbb{R}^{h
^{(l-1)}
\t
imes h^{(l)}},
\b
oldsymbol{W}_{hh}^{(l)}
\i
n
\m
athbb{R}^{h^{(l-1)}
\t
imes h^{(l)}}$和偏差 $
\b
oldsymbol{b}_h^{(l)}
\i
n
\m
athbb{R}^{1
\t
imes h^{(l)}
}$分别为第$l$隐藏层的模型参数。
其中权重$
\b
oldsymbol{W}_{xh}^{(l)}
\i
n
\m
athbb{R}^{h
\t
imes h},
\b
oldsymbol{W}_{hh}^{(l)}
\i
n
\m
athbb{R}^{h
\t
imes h}$和偏差 $
\b
oldsymbol{b}_h^{(l)}
\i
n
\m
athbb{R}^{1
\t
imes h
}$分别为第$l$隐藏层的模型参数。
最终,输出层的输出只需基于第$L$隐藏层的隐藏状态:
最终,输出层的输出只需基于第$L$隐藏层的隐藏状态:
$$
\b
oldsymbol{O}_t =
\b
oldsymbol{H}_t^{(L)}
\b
oldsymbol{W}_{hy} +
\b
oldsymbol{b}_y,$$
$$
\b
oldsymbol{O}_t =
\b
oldsymbol{H}_t^{(L)}
\b
oldsymbol{W}_{hy} +
\b
oldsymbol{b}_y,$$
其中权重$
\b
oldsymbol{W}_{hy}
\i
n
\m
athbb{R}^{h
^{(L)}
\t
imes q}$和偏差$
\b
oldsymbol{b}_y
\i
n
\m
athbb{R}^{1
\t
imes q}$为输出层的模型参数。
其中权重$
\b
oldsymbol{W}_{hy}
\i
n
\m
athbb{R}^{h
\t
imes q}$和偏差$
\b
oldsymbol{b}_y
\i
n
\m
athbb{R}^{1
\t
imes q}$为输出层的模型参数。
同多层感知机一样,隐藏层个数$L$和第$l$层的隐藏单元数$h
^{(l)}
$都是超参数。此外,如果将隐藏状态的计算换成GRU或者LSTM的计算,我们可以得到深度门控循环神经网络。
同多层感知机一样,隐藏层个数$L$和第$l$层的隐藏单元数$h$都是超参数。此外,如果将隐藏状态的计算换成GRU或者LSTM的计算,我们可以得到深度门控循环神经网络。
## 小结
## 小结
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录