Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
BaiXuePrincess
Paddle
提交
2fe896df
P
Paddle
项目概览
BaiXuePrincess
/
Paddle
与 Fork 源项目一致
Fork自
PaddlePaddle / Paddle
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
2fe896df
编写于
1月 11, 2023
作者:
W
wenbin
提交者:
GitHub
1月 11, 2023
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Compile fix (#49690)
* compile fix * fix compile * compile fix
上级
6578da51
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
14 addition
and
0 deletion
+14
-0
paddle/fluid/inference/tensorrt/plugin/preln_groupnorm_act_op_plugin.cu
...nference/tensorrt/plugin/preln_groupnorm_act_op_plugin.cu
+7
-0
paddle/fluid/inference/tensorrt/plugin/skip_groupnorm_act_op_plugin.cu
...inference/tensorrt/plugin/skip_groupnorm_act_op_plugin.cu
+7
-0
未找到文件。
paddle/fluid/inference/tensorrt/plugin/preln_groupnorm_act_op_plugin.cu
浏览文件 @
2fe896df
...
...
@@ -155,7 +155,14 @@ __global__ void prelnGroupNormNHWCSumKernel(GroupNormNHWCParams params) {
// int64_t offsetY = static_cast<int64_t>(ni) * params.c + ci;
__half2
y
=
*
reinterpret_cast
<
__half2
const
*>
(
&
params
.
srcY
[
offset
]);
h2
=
*
reinterpret_cast
<
__half2
const
*>
(
&
params
.
srcX
[
offset
]);
#if __CUDA_ARCH__ >= 530
h2
=
__hadd2
(
h2
,
y
);
#else
float2
out
{};
out
.
x
=
__half2float
(
h2
.
x
)
+
__half2float
(
y
.
x
);
out
.
y
=
__half2float
(
h2
.
y
)
+
__half2float
(
y
.
y
);
h2
=
__float22half2_rn
(
out
);
#endif
// elementwise_add
*
reinterpret_cast
<
__half2
*>
(
&
params
.
eleOut
[
offset
])
=
h2
;
}
...
...
paddle/fluid/inference/tensorrt/plugin/skip_groupnorm_act_op_plugin.cu
浏览文件 @
2fe896df
...
...
@@ -167,7 +167,14 @@ __global__ void skipGroupNormNHWCSumKernel(GroupNormNHWCParams params) {
int64_t
offsetY
=
static_cast
<
int64_t
>
(
ni
)
*
params
.
c
+
ci
;
__half2
y
=
*
reinterpret_cast
<
__half2
const
*>
(
&
params
.
srcY
[
offsetY
]);
h2
=
*
reinterpret_cast
<
__half2
const
*>
(
&
params
.
srcX
[
offset
]);
#if __CUDA_ARCH__ >= 530
h2
=
__hadd2
(
h2
,
y
);
#else
float2
out
{};
out
.
x
=
__half2float
(
h2
.
x
)
+
__half2float
(
y
.
x
);
out
.
y
=
__half2float
(
h2
.
y
)
+
__half2float
(
y
.
y
);
h2
=
__float22half2_rn
(
out
);
#endif
// elementwise_add
*
reinterpret_cast
<
__half2
*>
(
&
params
.
dst
[
offset
])
=
h2
;
}
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录