Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
机器未来
Paddle
提交
f65f1caa
P
Paddle
项目概览
机器未来
/
Paddle
与 Fork 源项目一致
Fork自
PaddlePaddle / Paddle
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
f65f1caa
编写于
12月 22, 2020
作者:
S
ShenLiang
提交者:
GitHub
12月 22, 2020
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
opt sparse allreduce using ncclgather (#29819)
上级
82aa01c3
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
15 addition
and
0 deletion
+15
-0
paddle/fluid/imperative/all_reduce.cc
paddle/fluid/imperative/all_reduce.cc
+15
-0
未找到文件。
paddle/fluid/imperative/all_reduce.cc
浏览文件 @
f65f1caa
...
...
@@ -119,6 +119,21 @@ static void AllReduce(const framework::SelectedRows &src,
if
(
!
use_calc_stream
)
{
dev_ctx
->
Wait
();
}
if
(
std
::
all_of
(
cpu_rows_num_ptr
,
cpu_rows_num_ptr
+
strategy
.
nranks_
,
[
&
](
int64_t
row
)
{
return
row
==
cpu_rows_num_ptr
[
0
];
}))
{
// During sparse communication, the number of each card is same.
// allgather is used to speed up the allreduce by replacing broadcast.
auto
row_sendcount
=
cpu_rows_num_ptr
[
0
];
VLOG
(
3
)
<<
"allgather replaces broadcast to speed up in sparse allreduce"
;
PADDLE_ENFORCE_CUDA_SUCCESS
(
platform
::
dynload
::
ncclAllGather
(
src_rows_ptr
,
dst_rows_ptr
,
row_sendcount
,
ncclInt64
,
comm
->
comm
(),
stream
));
auto
value_sendcount
=
cpu_rows_num_ptr
[
0
]
*
feature_size
;
PADDLE_ENFORCE_CUDA_SUCCESS
(
platform
::
dynload
::
ncclAllGather
(
src_tensor_ptr
,
dst_tensor_ptr
,
value_sendcount
,
nccl_dtype
,
comm
->
comm
(),
stream
));
return
;
}
for
(
int
i
=
0
;
i
<
strategy
.
nranks_
;
++
i
)
{
if
(
cpu_rows_num_ptr
[
i
]
>
0
)
{
// 2. Broadcast the rows of SelectedRows
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录