梯度下降中每次更新使用所有样本来计算梯度,而随机梯度下降则随机选取一个样本来计算梯度。深度学习中真正常用的是小批量(mini-batch)随机梯度下降,其每次随机均匀采样一个由训练数据样本索引所组成的小批量(mini-batch)$\mathcal{B}$来计算梯度。我们可以通过重复采样(sampling with replacement)或者不重复采样(sampling without replacement)得到同一个小批量中的各个样本。前者允许同一个小批量中出现重复的样本,后者则不允许如此,且更常见。对于这两者间的任一种方式,我们可以使用
梯度下降中每次更新使用所有样本来计算梯度,而随机梯度下降则随机选取一个样本来计算梯度。深度学习中真正常用的是小批量随机梯度下降。它每次随机均匀采样一个由训练数据样本索引所组成的小批量(mini-batch)$\mathcal{B}$来计算梯度。我们可以通过重复采样(sampling with replacement)或者不重复采样(sampling without replacement)得到同一个小批量中的各个样本。前者允许同一个小批量中出现重复的样本,后者则不允许如此,且更常见。对于这两者间的任一种方式,我们可以使用