提交 cec7d27d 编写于 作者: R Rui Liu | 刘睿 提交者: Aston Zhang

Minor typo fixes. (#355)

* Minor typos fixes.

* Dup character.

* Remove extra character.

* Fix one character.
上级 fc17f5d2
......@@ -155,7 +155,7 @@ def grad_clipping(params, theta, ctx):
* 最坏情况下,模型总是把标签类别的概率预测为0。此时困惑度为正无穷。
* 基线情况下,模型总是预测所有类别的概率都相同。此时困惑度为类别数。
显然,任何一个有效模型的困惑度必须小于类别数。在本例中,困惑度必须小于词典中不同的字符数`vocab_size`。相对于交叉熵损失,困惑度的值更大,使得模型比较时更加清楚。例如“模型一比模型二的困惑度小1”比“模型一比模型二的交叉熵损失小0.01”感官上更加清楚一
显然,任何一个有效模型的困惑度必须小于类别数。在本例中,困惑度必须小于词典中不同的字符数`vocab_size`。相对于交叉熵损失,困惑度的值更大,使得模型比较时更加清楚。例如“模型一比模型二的困惑度小1”比“模型一比模型二的交叉熵损失小0.01”感官上更加清楚一
## 定义模型训练函数
......
......@@ -31,7 +31,7 @@ $$\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_
$$\boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hy} + \boldsymbol{b}_y.$$
如果输入序列有$T$个时间步,我们会在计算开始前先将隐藏状态全部元素初始化为0,然后依次计算$\boldsymbol{H}_t$和$\boldsymbol{O}_t$,$t=1,\ldots,T$。因为神经网络下一时间步的隐藏状态的输出既取决于下一时间步的输入,又取决于当前时间步的隐藏状态。我们将此类神经网络称作循环神经网络。
如果输入序列有$T$个时间步,我们会在计算开始前先将隐藏状态全部元素初始化为0,然后依次计算$\boldsymbol{H}_t$和$\boldsymbol{O}_t$,$t=1,\ldots,T$。因为神经网络下一时间步的隐藏状态的输出既取决于下一时间步的输入,又取决于当前时间步的隐藏状态。我们将此类神经网络称作循环神经网络。
循环神经网络的参数包括隐藏层的权重$\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}, \boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}$和偏差 $\boldsymbol{b}_h \in \mathbb{R}^{1 \times h}$,以及输出层的权重$\boldsymbol{W}_{hy} \in \mathbb{R}^{h \times q}$和偏差$\boldsymbol{b}_y \in \mathbb{R}^{1 \times q}$。值得一提的是,即便在不同时间步,循环神经网络始终使用这些模型参数。因此,循环神经网络模型参数的数量不随历史增长而增长。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册