hidden state

d6ecff20 · Aston Zhang · 7144793d · d6ecff20 · d6ecff20 · d6ecff20
5 changed file
--- a/chapter_recurrent-neural-networks/hidden-state.md
+++ b/chapter_recurrent-neural-networks/hidden-state.md
+# 隐藏状态
+
+上一节介绍的$n$元语法中，时刻$t$的词$w_t$基于文本序列最近$n-1$个词的条件概率为
+
+$$\mathbb{P}(w_t \mid w_{t-(n-1)}, \ldots, w_{t-1}).$$
+
+显然，以上概率并没有考虑到比$t-(n-1)$更早时刻的词对当前时刻词可能的影响。然而，考虑这些影响将很容易造成$n$元语法的计算和存储开销过高。为了解决$n$元语法的局限性，我们将在神经网络中引入隐藏状态来记录时间序列的历史信息。
+
+
+
+
+## 不含隐藏状态的神经网络
+
+
+首先让我们回顾一下不含隐藏状态的神经网络，例如只有一个隐藏层的多层感知机。
+
+假设隐藏层的激活函数是$\phi$，对于一个样本数为$n$特征向量维度为$x$的批量数据$\boldsymbol{X} \in \mathbb{R}^{n \times x}$（$\boldsymbol{X}$是一个$n$行$x$列的实数矩阵）来说，那么这个隐含层的输出就是
+
+$$\boldsymbol{H} = \phi(\boldsymbol{X} \boldsymbol{W}_{xh} + \boldsymbol{b}_h)$$
+
+假定隐含层长度为$h$，其中的$\boldsymbol{W}_{xh} \in \mathbb{R}^{x \times h}$是权重参数。偏移参数 $\boldsymbol{b}_h \in \mathbb{R}^{1 \times h}$在与前一项$\boldsymbol{X} \boldsymbol{W}_{xh} \in \mathbb{R}^{n \times h}$ 相加时使用了[广播](../chapter_crashcourse/ndarray.md)。这个隐含层的输出的形状为$\boldsymbol{H} \in \mathbb{R}^{n \times h}$。
+
+把隐含层的输出$\boldsymbol{H}$作为输出层的输入，最终的输出
+
+$$\hat{\boldsymbol{Y}} = \text{softmax}(\boldsymbol{H} \boldsymbol{W}_{hy} + \boldsymbol{b}_y)$$
+
+假定每个样本对应的输出向量维度为$y$，其中 $\hat{\boldsymbol{Y}} \in \mathbb{R}^{n \times y}, \boldsymbol{W}_{hy} \in \mathbb{R}^{h \times y}, \boldsymbol{b}_y \in \mathbb{R}^{1 \times y}$且两项相加使用了[广播](../chapter_crashcourse/ndarray.md)。
+
+
+
+## 含隐藏状态的循环神经网络
+
+
+将上面网络改成循环神经网络，我们首先对输入输出加上时间戳$t$。假设$\boldsymbol{X}_t \in \mathbb{R}^{n \times x}$是序列中的第$t$个批量输入（样本数为$n$，每个样本的特征向量维度为$x$），对应的隐含层输出是隐含状态$\boldsymbol{H}_t  \in \mathbb{R}^{n \times h}$（隐含层长度为$h$），而对应的最终输出是$\hat{\boldsymbol{Y}}_t \in \mathbb{R}^{n \times y}$（每个样本对应的输出向量维度为$y$）。在计算隐含层的输出的时候，循环神经网络只需要在前馈神经网络基础上加上跟前一时间$t-1$输入隐含层$\boldsymbol{H}_{t-1} \in \mathbb{R}^{n \times h}$的加权和。为此，我们引入一个新的可学习的权重$\boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}$：
+
+$$\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh}  + \boldsymbol{b}_h)$$
+
+输出的计算跟前面一致：
+
+$$\hat{\boldsymbol{Y}}_t = \text{softmax}(\boldsymbol{H}_t \boldsymbol{W}_{hy}  + \boldsymbol{b}_y)$$
+
+一开始我们提到过，隐含状态可以认为是这个网络的记忆。该网络中，时刻$t$的隐含状态就是该时刻的隐含层变量$\boldsymbol{H}_t$。它存储前面时间里面的信息。我们的输出是只基于这个状态。最开始的隐含状态里的元素通常会被初始化为0。
+
+
+## 小结
+
+* 语言模型是自然语言处理的重要技术。
+* $N$元语法是基于$n-1$阶马尔可夫链的概率语言模型。但它有一定的局限性。
+
+
+## 练习
+
+* 假设训练数据集中有十万个词，四元语法需要存储多少词频和多词相邻频率？
+* 你还能想到哪些语言模型的应用？
+
+
+## 扫码直达[讨论区](https://discuss.gluon.ai/t/topic/6650)
+
+![](../img/qr_lm.svg)
--- a/chapter_recurrent-neural-networks/index.md
+++ b/chapter_recurrent-neural-networks/index.md
@@ -12,6 +12,7 @@
   :maxdepth: 2

   lm
+   hidden-state
   rnn-scratch
   bptt
   gru-scratch

--- a/chapter_recurrent-neural-networks/lm.md
+++ b/chapter_recurrent-neural-networks/lm.md
 # 语言模型

-语言模型（language model）是自然语言处理的重要技术。给定一个长度为$T$的词的序列：$w_1, w_2, \ldots, w_T$，语言模型计算该序列的概率：
+语言模型（language model）是自然语言处理的重要技术。自然语言处理中最常见的数据是文本数据。实际上，我们可以把一段自然语言文本看作是一段时间序列。假设一段长度为$T$的文本中的词依次为$w_1, w_2, \ldots, w_T$，那么在时间序列中，$w_t$（$1 \leq t \leq T$）可看作是在时刻$t$的输出或标签。给定一个长度为$T$的词的序列：$w_1, w_2, \ldots, w_T$，语言模型将计算该序列的概率：

 $$\mathbb{P}(w_1, w_2, \ldots, w_T).$$

@@ -39,7 +39,9 @@ $$
 \end{aligned}
 $$

-当$n$较小时，$n$元语法往往并不准确。例如，在一元语法中，由三个词组成的句子“你走先”和“你先走”的概率是一样的。然而，当$n$较大时，$n$元语法需要计算并存储大量的词频和多词相邻频率。实际上，循环神经网络可以在语言模型中更好地平衡这两点。我们将在下一节介绍循环神经网络的设计、实现与应用。
+当$n$较小时，$n$元语法往往并不准确。例如，在一元语法中，由三个词组成的句子“你走先”和“你先走”的概率是一样的。然而，当$n$较大时，$n$元语法需要计算并存储大量的词频和多词相邻频率。
+
+那么，有没有方法在语言模型中更好地平衡以上这两点呢？我们将在本章探究这样的方法。


 ## 小结

--- a/chapter_recurrent-neural-networks/rnn-scratch.md
+++ b/chapter_recurrent-neural-networks/rnn-scratch.md
 # 循环神经网络——从零开始

-前面的教程里我们使用的网络都属于**前馈神经网络**。之所以叫前馈，是因为整个网络是一条链（回想下`gluon.nn.Sequential`），每一层的结果都是反馈给下一层。这一节我们介绍**循环神经网络**，这里每一层不仅输出给下一层，同时还输出一个**隐含状态**，给当前层在处理下一个样本时使用。下图展示这两种网络的区别。
+本节将介绍循环神经网络的设计和实现。有了上一节的知识做铺垫，我们还会把循环神经网络应用在语言模型中。实验中，我们将使用基于循环神经网络的

-![](../img/rnn_1.png)
-
-循环神经网络的这种结构使得它适合处理前后有依赖关系数据样本。我们拿语言模型举个例子来解释这个是怎么工作的。语言模型的任务是给定句子的前*t*个字符，然后预测第*t+1*个字符。假设我们的句子是“你好世界”，使用前馈神经网络来预测的一个做法是，在时间1输入“你”，预测”好“，时间2向同一个网络输入“好”预测“世”。下图左边展示了这个过程。
-
-![](../img/rnn_2.png)
-
-注意到一个问题是，当我们预测“世”的时候只给了“好”这个输入，而完全忽略了“你”。直觉上“你”这个词应该对这次的预测比较重要。虽然这个问题通常可以通过**n-gram**来缓解，就是说预测第*t+1*个字符的时候，我们输入前*n*个字符。如果*n=1*，那就是我们这里用的。我们可以增大*n*来使得输入含有更多信息。但我们不能任意增大*n*，因为这样通常带来模型复杂度的增加从而导致需要大量数据和计算来训练模型。
-
-循环神经网络使用一个隐含状态来记录前面看到的数据来帮助当前预测。上图右边展示了这个过程。在预测“好”的时候，我们输出一个隐含状态。我们用这个状态和新的输入“好”来一起预测“世”，然后同时输出一个更新过的隐含状态。我们希望前面的信息能够保存在这个隐含状态里，从而提升预测效果。

 ## 循环神经网络

-在对输入输出数据有了解后，我们来正式介绍循环神经网络。
-
-首先回忆一下单隐含层的前馈神经网络的定义，例如[多层感知机](../chapter_supervised-learning/mlp-scratch.md)。假设隐含层的激活函数是$\phi$，对于一个样本数为$n$特征向量维度为$x$的批量数据$\boldsymbol{X} \in \mathbb{R}^{n \times x}$（$\boldsymbol{X}$是一个$n$行$x$列的实数矩阵）来说，那么这个隐含层的输出就是
+首先回忆一下单隐含层的前馈神经网络的定义，例如[多层感知机](../chapter_supervised-learning/mlp-scratch.md)。假设隐含层的激活函数是$\phi$，对于一个样本数为$n$、特征向量维度为$x$的批量数据$\boldsymbol{X} \in \mathbb{R}^{n \times x}$（$\boldsymbol{X}$是一个$n$行$x$列的实数矩阵）来说，那么这个隐含层的输出就是

 $$\boldsymbol{H} = \phi(\boldsymbol{X} \boldsymbol{W}_{xh} + \boldsymbol{b}_h)$$


--- a/img/rnn-bptt.pdf
+++ b/img/rnn-bptt.pdf