提交 362725c0 编写于 作者: P PEGASUS

Update

上级 ff092e9a
...@@ -65,7 +65,7 @@ ...@@ -65,7 +65,7 @@
* 例如记忆网络 [6]和神经编码器—解释器 [7]这样的多阶设计使得针对推理过程的迭代建模方法变得可能。这些模型允许重复修改深度网络的内部状态,这样就能模拟出推理链条上的各个步骤,就好像处理器在计算过程中修改内存一样。 * 例如记忆网络 [6]和神经编码器—解释器 [7]这样的多阶设计使得针对推理过程的迭代建模方法变得可能。这些模型允许重复修改深度网络的内部状态,这样就能模拟出推理链条上的各个步骤,就好像处理器在计算过程中修改内存一样。
* 另一个重大发展是对抗生成网络的发明 [8]。传统上,用在概率分布估计和生成模型上的统计方法更多地关注于找寻正确的概率分布,以及正确的采样算法。对抗生成网络的关键创新在于将采样部分替换成了任意的含有可微分参数的算法。这些参数将被训练到使得辨别器不能再分辨真实的和生成的样本。对抗生成网络可使用任意算法来生成输出的特性为许多技巧打开了新的大门。例如生成奔跑的斑马 [9]和生成名流的照片 [10] 都是对抗生成网络发展的见证。 * 另一个重大发展是生成对抗式网络的发明 [8]。传统上,用在概率分布估计和生成模型上的统计方法更多地关注于找寻正确的概率分布,以及正确的采样算法。对抗生成网络的关键创新在于将采样部分替换成了任意的含有可微分参数的算法。这些参数将被训练到使得辨别器不能再分辨真实的和生成的样本。对抗生成网络可使用任意算法来生成输出的特性为许多技巧打开了新的大门。例如生成奔跑的斑马 [9]和生成名流的照片 [10] 都是对抗生成网络发展的见证。
* 许多情况下单个GPU已经不能满足在大型数据集上训练的需要。过去十年内我们构建分布式并行训练算法的能力已经有了极大的提升。设计可扩展算法的最大瓶颈在于深度学习优化算法的核心:随机梯度下降需要相对更小的批量。与此同时,更小的批量也会降低GPU的效率。如果我们使用1024个GPU,每个GPU的批量大小为32个样本,那么单步训练的批量大小将是32000个以上。近年来李沐 [11]、Yang You等人 [12]以及Xianyan Jia等人 [13]的工作将批量大小推向多达64000个样例,并将在ImageNet数据集上训练ResNet-50模型的时间降到了7分钟。与之对比,最初的训练时间需要以天来计算。 * 许多情况下单个GPU已经不能满足在大型数据集上训练的需要。过去十年内我们构建分布式并行训练算法的能力已经有了极大的提升。设计可扩展算法的最大瓶颈在于深度学习优化算法的核心:随机梯度下降需要相对更小的批量。与此同时,更小的批量也会降低GPU的效率。如果我们使用1024个GPU,每个GPU的批量大小为32个样本,那么单步训练的批量大小将是32000个以上。近年来李沐 [11]、Yang You等人 [12]以及Xianyan Jia等人 [13]的工作将批量大小推向多达64000个样例,并将在ImageNet数据集上训练ResNet-50模型的时间降到了7分钟。与之对比,最初的训练时间需要以天来计算。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册