在上一章[循环神经网络](rnn-scratch.md)的示例代码中,如果不使用梯度裁剪,模型将无法正常训练。为了深刻理解这一现象,并激发改进循环神经网络的灵感,本节我们将介绍循环神经网络中模型梯度的计算和存储,也即**通过时间反向传播**(back-propagation through time)。
如果你做了上一节的练习,你会发现,如果不裁剪梯度,模型将无法正常训练。为了深刻理解这一现象,本节将介绍循环神经网络中梯度的计算和存储方法,即通过时间反向传播(back-propagation through time)。