Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
BaiXuePrincess
Paddle
提交
87197f8c
P
Paddle
项目概览
BaiXuePrincess
/
Paddle
与 Fork 源项目一致
Fork自
PaddlePaddle / Paddle
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
87197f8c
编写于
2月 08, 2021
作者:
L
liuyuhui
提交者:
GitHub
2月 08, 2021
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
[kunlun]fix sync in multi kunlun xpu dygraph training. (#30943)
上级
99bf6228
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
14 addition
and
2 deletion
+14
-2
paddle/fluid/imperative/reducer.cc
paddle/fluid/imperative/reducer.cc
+12
-0
python/paddle/fluid/tests/unittests/test_parallel_dygraph_mnist.py
...ddle/fluid/tests/unittests/test_parallel_dygraph_mnist.py
+2
-2
未找到文件。
paddle/fluid/imperative/reducer.cc
浏览文件 @
87197f8c
...
...
@@ -626,6 +626,18 @@ void Reducer::MarkGroupReady(size_t group_index) {
// group.dense_tensors ---> group.dense_contents_
group
.
ConcatTensors
(
*
parallel_ctx_
->
GetDeviceContext
(
run_order
));
// NOTE(liuyuhui): ConcatTensors use communication stream, but BKCL only support
// default stream for communicating,
// so there exist some problems in synchronization. And need to add a WaitComm
// there.
// TODO(liuyuhui): If BKCL support events, it should be fixed as non-blocking
// communication.
#ifdef PADDLE_WITH_XPU_BKCL
if
(
platform
::
is_xpu_place
(
group
.
dense_tensors_
[
0
].
place
()))
{
parallel_ctx_
->
WaitComm
(
run_order
);
}
#endif
// Start allreduce
parallel_ctx_
->
AllReduceByStream
(
group
.
dense_contents_
,
&
(
group
.
dense_contents_
),
run_order
,
false
);
...
...
python/paddle/fluid/tests/unittests/test_parallel_dygraph_mnist.py
浏览文件 @
87197f8c
...
...
@@ -55,7 +55,7 @@ class TestParallelDygraphMnistXPU(TestDistBase):
if
fluid
.
core
.
is_compiled_with_xpu
():
self
.
check_with_place
(
"parallel_dygraph_mnist.py"
,
delta
=
1e-
1
,
delta
=
1e-
4
,
check_error_log
=
True
,
log_name
=
flag_name
)
...
...
@@ -94,7 +94,7 @@ class TestFleetDygraphMnistXPU(TestDistBase):
if
fluid
.
core
.
is_compiled_with_xpu
():
self
.
check_with_place
(
"parallel_dygraph_mnist.py"
,
delta
=
1e-
1
,
delta
=
1e-
4
,
check_error_log
=
True
,
log_name
=
flag_name
)
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录