Minor typo fixes. (#355)

* Minor typos fixes. * Dup character. * Remove extra character. * Fix one character.

Minor typo fixes. (#355)
* Minor typos fixes. * Dup character. * Remove extra character. * Fix one character.
cec7d27d · Rui Liu | 刘睿 · Aston Zhang · fc17f5d2 · cec7d27d · cec7d27d
Showing with 2 addition and 2 deletion

chapter_recurrent-neural-networks/rnn-scratch.md chapter_recurrent-neural-networks/rnn-scratch.md +1 -1

chapter_recurrent-neural-networks/rnn.md chapter_recurrent-neural-networks/rnn.md +1 -1

未找到文件。
--- a/chapter_recurrent-neural-networks/rnn-scratch.md
+++ b/chapter_recurrent-neural-networks/rnn-scratch.md
@@ -155,7 +155,7 @@ def grad_clipping(params, theta, ctx):
 * 最坏情况下，模型总是把标签类别的概率预测为0。此时困惑度为正无穷。
 * 基线情况下，模型总是预测所有类别的概率都相同。此时困惑度为类别数。

-显然，任何一个有效模型的困惑度必须小于类别数。在本例中，困惑度必须小于词典中不同的字符数`vocab_size`。相对于交叉熵损失，困惑度的值更大，使得模型比较时更加清楚。例如“模型一比模型二的困惑度小1”比“模型一比模型二的交叉熵损失小0.01”感官上更加清楚一下。
+显然，任何一个有效模型的困惑度必须小于类别数。在本例中，困惑度必须小于词典中不同的字符数`vocab_size`。相对于交叉熵损失，困惑度的值更大，使得模型比较时更加清楚。例如“模型一比模型二的困惑度小1”比“模型一比模型二的交叉熵损失小0.01”感官上更加清楚一些。

 ## 定义模型训练函数


--- a/chapter_recurrent-neural-networks/rnn.md
+++ b/chapter_recurrent-neural-networks/rnn.md
@@ -31,7 +31,7 @@ $$\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_

 $$\boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hy} + \boldsymbol{b}_y.$$

-如果输入序列有$T$个时间步，我们会在计算开始前先将隐藏状态全部元素初始化为0，然后依次计算$\boldsymbol{H}_t$和$\boldsymbol{O}_t$，$t=1,\ldots,T$。因为神经网络下一时间步的隐藏状态的输出既取决于下一时间步的输入，又取决于当前时间步的隐藏状态我。我们将此类神经网络称作循环神经网络。
+如果输入序列有$T$个时间步，我们会在计算开始前先将隐藏状态全部元素初始化为0，然后依次计算$\boldsymbol{H}_t$和$\boldsymbol{O}_t$，$t=1,\ldots,T$。因为神经网络下一时间步的隐藏状态的输出既取决于下一时间步的输入，又取决于当前时间步的隐藏状态。我们将此类神经网络称作循环神经网络。

 循环神经网络的参数包括隐藏层的权重$\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}, \boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}$和偏差 $\boldsymbol{b}_h \in \mathbb{R}^{1 \times h}$，以及输出层的权重$\boldsymbol{W}_{hy} \in \mathbb{R}^{h \times q}$和偏差$\boldsymbol{b}_y \in \mathbb{R}^{1 \times q}$。值得一提的是，即便在不同时间步，循环神经网络始终使用这些模型参数。因此，循环神经网络模型参数的数量不随历史增长而增长。