Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
机器未来
Paddle
提交
380bc4e6
P
Paddle
项目概览
机器未来
/
Paddle
与 Fork 源项目一致
Fork自
PaddlePaddle / Paddle
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
380bc4e6
编写于
7月 15, 2021
作者:
H
Haohongxiang
提交者:
GitHub
7月 16, 2021
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Fix gather_op to avoid cudaErrorLaunchFailure for solov2, test=develop (#34200)
上级
661f4094
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
3 addition
and
12 deletion
+3
-12
paddle/fluid/operators/gather.cu.h
paddle/fluid/operators/gather.cu.h
+3
-12
未找到文件。
paddle/fluid/operators/gather.cu.h
浏览文件 @
380bc4e6
...
...
@@ -30,20 +30,13 @@ using platform::DeviceContext;
template
<
typename
T
,
typename
IndexT
=
int
>
__global__
void
GatherCUDAKernel
(
const
T
*
params
,
const
IndexT
*
indices
,
T
*
output
,
size_t
in
put
_size
,
size_t
index_size
,
size_t
slice_size
)
{
T
*
output
,
size_t
in
dex
_size
,
size_t
slice_size
)
{
CUDA_KERNEL_LOOP
(
i
,
index_size
*
slice_size
)
{
int
indices_i
=
i
/
slice_size
;
int
slice_i
=
i
-
indices_i
*
slice_size
;
// offset inside the slice
IndexT
gather_i
=
indices
[
indices_i
];
IndexT
params_i
=
gather_i
*
slice_size
+
slice_i
;
PADDLE_ENFORCE
(
gather_i
>=
0
&&
gather_i
<
input_size
,
"The index is out of bounds, "
"please check whether the dimensions of index and "
"input meet the requirements. It should "
"be less than [%d] and greater than or equal to 0, but received [%d]"
,
input_size
,
gather_i
);
*
(
output
+
i
)
=
*
(
params
+
params_i
);
}
}
...
...
@@ -108,8 +101,6 @@ void GPUGather(const platform::DeviceContext& ctx, const Tensor& src,
// slice size
int
slice_size
=
1
;
for
(
int
i
=
1
;
i
<
src_dims
.
size
();
++
i
)
slice_size
*=
src_dims
[
i
];
// input size
int
input_size
=
src_dims
[
0
]
*
slice_size
;
const
T
*
p_src
=
src
.
data
<
T
>
();
const
IndexT
*
p_index
=
index
.
data
<
IndexT
>
();
...
...
@@ -122,7 +113,7 @@ void GPUGather(const platform::DeviceContext& ctx, const Tensor& src,
GatherCUDAKernel
<
T
,
IndexT
><<<
grid
,
block
,
0
,
reinterpret_cast
<
const
platform
::
CUDADeviceContext
&>
(
ctx
).
stream
()
>>>
(
p_src
,
p_index
,
p_output
,
in
put_size
,
in
dex_size
,
slice_size
);
p_src
,
p_index
,
p_output
,
index_size
,
slice_size
);
}
template
<
typename
DeviceContext
,
typename
T
,
typename
IndexT
=
int
>
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录