Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
机器未来
Paddle
提交
3e47eee9
P
Paddle
项目概览
机器未来
/
Paddle
与 Fork 源项目一致
Fork自
PaddlePaddle / Paddle
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
3e47eee9
编写于
5月 13, 2021
作者:
J
Jiawei Wang
提交者:
GitHub
5月 13, 2021
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
fix stack grad gpu (#32781) (#32877)
上级
b60ab6b6
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
12 addition
and
5 deletion
+12
-5
paddle/fluid/operators/stack_op.cu
paddle/fluid/operators/stack_op.cu
+12
-5
未找到文件。
paddle/fluid/operators/stack_op.cu
浏览文件 @
3e47eee9
...
@@ -96,9 +96,10 @@ class StackGPUKernel : public framework::OpKernel<T> {
...
@@ -96,9 +96,10 @@ class StackGPUKernel : public framework::OpKernel<T> {
};
};
template
<
typename
T
,
typename
IntType
>
template
<
typename
T
,
typename
IntType
>
__global__
void
UnStackCUDAKernel
(
const
T
*
__restrict__
input
,
int
pre_dim_size
,
__global__
void
UnStackHelperCUDAKernel
(
const
T
*
__restrict__
input
,
int
split_dim_size
,
int
suf_dim_size
,
int
pre_dim_size
,
int
split_dim_size
,
int
num_split
,
T
**
output_ptrs
)
{
int
suf_dim_size
,
int
num_split
,
T
**
output_ptrs
)
{
assert
(
blockDim
.
y
==
1
);
assert
(
blockDim
.
y
==
1
);
assert
(
blockDim
.
z
==
1
);
assert
(
blockDim
.
z
==
1
);
// In this case they are equal
// In this case they are equal
...
@@ -114,6 +115,9 @@ __global__ void UnStackCUDAKernel(const T* __restrict__ input, int pre_dim_size,
...
@@ -114,6 +115,9 @@ __global__ void UnStackCUDAKernel(const T* __restrict__ input, int pre_dim_size,
IntType
k
=
offset
%
suf_dim_size
;
IntType
k
=
offset
%
suf_dim_size
;
T
*
output
=
output_ptrs
[
j
/
each_dim_size
];
T
*
output
=
output_ptrs
[
j
/
each_dim_size
];
if
(
output
==
nullptr
)
{
return
;
}
IntType
output_ind
=
i
*
each_dim_size
*
suf_dim_size
+
IntType
output_ind
=
i
*
each_dim_size
*
suf_dim_size
+
(
j
%
each_dim_size
)
*
suf_dim_size
+
k
;
(
j
%
each_dim_size
)
*
suf_dim_size
+
k
;
*
(
output
+
output_ind
)
=
input
[
offset
];
*
(
output
+
output_ind
)
=
input
[
offset
];
...
@@ -142,6 +146,9 @@ class StackGradGPUKernel : public framework::OpKernel<T> {
...
@@ -142,6 +146,9 @@ class StackGradGPUKernel : public framework::OpKernel<T> {
std
::
vector
<
T
*>
outputs
(
n
);
std
::
vector
<
T
*>
outputs
(
n
);
auto
out_var_names
=
ctx
.
OutputNames
(
framework
::
GradVarName
(
"X"
));
auto
out_var_names
=
ctx
.
OutputNames
(
framework
::
GradVarName
(
"X"
));
for
(
size_t
j
=
0
;
j
<
dx
.
size
();
++
j
)
{
for
(
size_t
j
=
0
;
j
<
dx
.
size
();
++
j
)
{
if
(
dx
[
j
]
==
nullptr
)
{
outputs
[
j
]
=
nullptr
;
}
if
(
out_var_names
[
j
]
!=
framework
::
kEmptyVarName
&&
if
(
out_var_names
[
j
]
!=
framework
::
kEmptyVarName
&&
dx
[
j
]
->
numel
()
!=
0UL
)
{
dx
[
j
]
->
numel
()
!=
0UL
)
{
T
*
ptr
=
dx
[
j
]
->
mutable_data
<
T
>
(
ctx
.
GetPlace
());
T
*
ptr
=
dx
[
j
]
->
mutable_data
<
T
>
(
ctx
.
GetPlace
());
...
@@ -170,13 +177,13 @@ class StackGradGPUKernel : public framework::OpKernel<T> {
...
@@ -170,13 +177,13 @@ class StackGradGPUKernel : public framework::OpKernel<T> {
auto
config
=
GetGpuLaunchConfig1D
(
dev_ctx
,
dy_pre
*
split_dim
*
dy_suf
);
auto
config
=
GetGpuLaunchConfig1D
(
dev_ctx
,
dy_pre
*
split_dim
*
dy_suf
);
if
(
dy
->
numel
()
<
std
::
numeric_limits
<
int32_t
>::
max
())
{
if
(
dy
->
numel
()
<
std
::
numeric_limits
<
int32_t
>::
max
())
{
UnStackCUDAKernel
<
UnStack
Helper
CUDAKernel
<
T
,
int32_t
><<<
config
.
block_per_grid
.
x
,
config
.
thread_per_block
.
x
,
0
,
T
,
int32_t
><<<
config
.
block_per_grid
.
x
,
config
.
thread_per_block
.
x
,
0
,
dev_ctx
.
stream
()
>>>
(
dev_ctx
.
stream
()
>>>
(
dy_data
,
dy_pre
,
split_dim
,
dy_suf
,
split_dim
,
dy_data
,
dy_pre
,
split_dim
,
dy_suf
,
split_dim
,
reinterpret_cast
<
T
**>
(
tmp_out_data
->
ptr
()));
reinterpret_cast
<
T
**>
(
tmp_out_data
->
ptr
()));
}
else
{
}
else
{
UnStackCUDAKernel
<
UnStack
Helper
CUDAKernel
<
T
,
int64_t
><<<
config
.
block_per_grid
.
x
,
config
.
thread_per_block
.
x
,
0
,
T
,
int64_t
><<<
config
.
block_per_grid
.
x
,
config
.
thread_per_block
.
x
,
0
,
dev_ctx
.
stream
()
>>>
(
dev_ctx
.
stream
()
>>>
(
dy_data
,
dy_pre
,
split_dim
,
dy_suf
,
split_dim
,
dy_data
,
dy_pre
,
split_dim
,
dy_suf
,
split_dim
,
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录