未验证 提交 1db4c85c 编写于 作者: L lilong12 提交者: GitHub

add a pic to show how plsc works (#54)

* add a pic to show how plsc works

* modify image size
上级 bd3f00ce
......@@ -7,6 +7,12 @@
2. 参数量较大,同步训练方式下通信开销较大:数据并行训练方式下,所有GPU卡之间需要同步参数的梯度信息,以完成参数值的同步更新。当参数数量较大时,参数的梯度信息数据量同样较大,从而导致参数梯度信息的通信开销较大,影响训练速度。
考虑到全接连层的线性可分性,可以将全连接层参数切分到多张GPU卡,减少每张GPU卡的参数存储量。
以下图为例,全连接层参数按行切分到不同的GPU卡上。每次训练迭代过程中,各张GPU卡分别以各自的训练数据计算隐层的输出特征,并通过集合通信操作AllGather得到汇聚后的特征。接着,各张GPU卡以汇聚后的特征和部分全连接层参数计算部分logit值(partial logit),并基于此计算神经网络的损失值。
![overview](./images/plsc_overview.png)
飞桨大规模分类(PLSC: **P**addlePaddle **L**arge **S**cale **C**lassification)库是基于[飞桨平台](https://github.com/PaddlePaddle/Paddle)构建的超大规模分类库,为用户提供从训练到部署的大规模分类问题全流程解决方案。
## PLSC特性
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册