Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
Paddle-Lite
提交
34c620b5
P
Paddle-Lite
项目概览
PaddlePaddle
/
Paddle-Lite
通知
331
Star
4
Fork
1
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
271
列表
看板
标记
里程碑
合并请求
78
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle-Lite
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
271
Issue
271
列表
看板
标记
里程碑
合并请求
78
合并请求
78
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
34c620b5
编写于
6月 18, 2020
作者:
Y
yongqiang
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
study log
上级
97948bbd
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
17 addition
and
14 deletion
+17
-14
lite/backends/arm/math/packed_sgemm.cc
lite/backends/arm/math/packed_sgemm.cc
+17
-14
未找到文件。
lite/backends/arm/math/packed_sgemm.cc
浏览文件 @
34c620b5
...
...
@@ -323,7 +323,7 @@ void sgemm_prepack(bool is_transB,
(
has_act
==
true
&&
act_type
==
lite_api
::
ActivationType
::
kRelu
);
bool
has_beta
=
fabsf
(
beta
)
>
1e-8
f
?
true
:
false
;
bool
a53_sgemm
=
act_flag
&&
!
has_beta
;
if
(
a53_sgemm
)
{
if
(
a53_sgemm
)
{
//无act 无 beta
sgemm_prepacked_6x8_a53
(
is_transB
,
M
,
N
,
...
...
@@ -2368,16 +2368,19 @@ void sgemm_prepacked_8x12(bool is_transB,
//! MBLOCK * x (result) + MBLOCK * k (A) + x * k (B) = l2
int
x_block
=
(
l2_cache
-
(
MBLOCK
*
K
))
/
(
sizeof
(
float
)
*
(
K
+
MBLOCK
));
x_block
/=
NBLOCK
;
x_block
*=
NBLOCK
;
int
x_num
=
(
N
+
(
x_block
-
1
))
/
x_block
;
x_block
=
(
N
+
x_num
-
1
)
/
x_num
;
x_block
=
(
x_block
+
NBLOCK
-
1
)
/
NBLOCK
;
x_block
*=
NBLOCK
;
x_block
=
x_block
<
NBLOCK
?
NBLOCK
:
x_block
;
x_block
*=
NBLOCK
;
//一次可以放多少个B的列 为NBLOCK的整数倍
int
x_num
=
(
N
+
(
x_block
-
1
))
/
x_block
;
//可以分x_num 进行计算, 一次放x_block列,可以分x_num计算完成。
LOG
(
INFO
)
<<
"x_block:"
<<
x_block
<<
" "
<<
"x_num"
<<
x_num
;
x_block
=
(
N
+
x_num
-
1
)
/
x_num
;
//分x_num次计算完成的话,每次需要计算多少个列 (N方向),算一个平均值,因为最后一次可能会非常少,
//计算出x_num次之后,再求一下x_num次读取情况下,每次读取次数的平均值
//这样如果MP的时候,如果包含x_block个数比较少的情况下,可以使各线程耗时更加平均
x_block
=
(
x_block
+
NBLOCK
-
1
)
/
NBLOCK
;
//算出每次NBLOCK的个数
x_block
*=
NBLOCK
;
//计算 一次做loadb 总的列数
x_block
=
x_block
<
NBLOCK
?
NBLOCK
:
x_block
;
//如果不够NBLOCK,按NBLOCK来计算。
LOG
(
INFO
)
<<
"x_block:"
<<
x_block
;
// unroll 2 loop
int
tail_pre
=
(
K
&
(
KBLOCK
-
1
));
int
k_pre
=
((
K
+
KBLOCK
-
1
)
/
KBLOCK
)
-
1
;
int
tail_pre
=
(
K
&
(
KBLOCK
-
1
));
//K方向 KBLOCK的余数
int
k_pre
=
((
K
+
KBLOCK
-
1
)
/
KBLOCK
)
-
1
;
//K方向 整数倍KBLOCK的个数
bool
flag_p_remain
=
false
;
int
remain
=
0
;
...
...
@@ -2390,8 +2393,8 @@ void sgemm_prepacked_8x12(bool is_transB,
if
(
xmax
>
N
)
{
xmax
=
N
;
}
int
bblocks
=
(
xmax
-
x0
+
NBLOCK
-
1
)
/
NBLOCK
;
remain
=
xmax
-
x0
-
(
bblocks
-
1
)
*
NBLOCK
;
int
bblocks
=
(
xmax
-
x0
+
NBLOCK
-
1
)
/
NBLOCK
;
//B 有多少个NBLOCK
remain
=
xmax
-
x0
-
(
bblocks
-
1
)
*
NBLOCK
;
//不够NBLOCK,的余数
if
(
remain
>
0
)
{
flag_p_remain
=
true
;
}
...
...
@@ -2402,7 +2405,7 @@ void sgemm_prepacked_8x12(bool is_transB,
}
else
{
loadb
(
b_pannel
,
B
,
ldb
,
0
,
K
,
x0
,
xmax
);
}
#pragma omp parallel for num_threads(threads)
#pragma omp parallel for num_threads(threads)
//在A的M方向,按照MBLOCK进行MP
for
(
unsigned
int
y
=
0
;
y
<
M
;
y
+=
MBLOCK
)
{
unsigned
int
ymax
=
y
+
MBLOCK
;
if
(
ymax
>
M
)
{
...
...
@@ -2421,7 +2424,7 @@ void sgemm_prepacked_8x12(bool is_transB,
bias_local
[
7
]
=
bias
[
y
+
7
];
}
float
cout0
[
NBLOCK
];
float
cout0
[
NBLOCK
];
//C 输出 8*12
float
cout1
[
NBLOCK
];
float
cout2
[
NBLOCK
];
float
cout3
[
NBLOCK
];
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录