Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
Crayon鑫
Paddle
提交
a91efdde
P
Paddle
项目概览
Crayon鑫
/
Paddle
与 Fork 源项目一致
Fork自
PaddlePaddle / Paddle
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
a91efdde
编写于
12月 12, 2017
作者:
Z
Zhaolong Xing
提交者:
GitHub
12月 12, 2017
浏览文件
操作
浏览文件
下载
差异文件
Merge pull request #6177 from NHZlX/add_prelu_neon
add prelu neon impl
上级
8f7d0b18
0ff4ff34
变更
3
显示空白变更内容
内联
并排
Showing
3 changed file
with
63 addition
and
1 deletion
+63
-1
paddle/math/Matrix.cpp
paddle/math/Matrix.cpp
+22
-1
paddle/math/NEONFunctions.cpp
paddle/math/NEONFunctions.cpp
+40
-0
paddle/math/NEONFunctions.h
paddle/math/NEONFunctions.h
+1
-0
未找到文件。
paddle/math/Matrix.cpp
浏览文件 @
a91efdde
...
@@ -28,6 +28,7 @@ limitations under the License. */
...
@@ -28,6 +28,7 @@ limitations under the License. */
#include "hl_top_k.h"
#include "hl_top_k.h"
#include "paddle/utils/Logging.h"
#include "paddle/utils/Logging.h"
#include "NEONFunctions.h"
#include "paddle/function/GemmFunctor.h"
#include "paddle/function/GemmFunctor.h"
#include "paddle/utils/ThreadLocal.h"
#include "paddle/utils/ThreadLocal.h"
...
@@ -4165,16 +4166,36 @@ void CpuMatrix::print(std::ostream& os) const {
...
@@ -4165,16 +4166,36 @@ void CpuMatrix::print(std::ostream& os) const {
void
CpuMatrix
::
paramReluForward
(
Matrix
&
data
,
Matrix
&
W
)
{
void
CpuMatrix
::
paramReluForward
(
Matrix
&
data
,
Matrix
&
W
)
{
real
*
input
=
data
.
getData
();
real
*
input
=
data
.
getData
();
real
*
w
=
W
.
getData
();
real
*
w
=
W
.
getData
();
real
*
output
=
data_
;
size_t
numElements
=
data
.
getWidth
();
size_t
numElements
=
data
.
getWidth
();
size_t
numSamples
=
data
.
getHeight
();
size_t
numSamples
=
data
.
getHeight
();
size_t
paraSize
=
W
.
getHeight
()
*
W
.
getWidth
();
size_t
paraSize
=
W
.
getHeight
()
*
W
.
getWidth
();
CHECK
(
!
(
numElements
%
paraSize
));
// this check from ParameterReluLayer::init
CHECK
(
!
(
numElements
%
paraSize
));
// this check from ParameterReluLayer::init
size_t
partial_sum
=
numElements
/
paraSize
;
size_t
partial_sum
=
numElements
/
paraSize
;
if
(
paraSize
==
numElements
)
{
for
(
size_t
n
=
0
;
n
<
numSamples
*
numElements
;
++
n
)
{
output
[
n
]
=
input
[
n
]
>
0
?
input
[
n
]
:
input
[
n
]
*
w
[
n
%
numElements
];
}
return
;
}
#if defined(__ARM_NEON__) || defined(__ARM_NEON)
for
(
size_t
n
=
0
;
n
<
numSamples
;
++
n
)
{
for
(
size_t
i
=
0
;
i
<
paraSize
;
i
++
)
{
neon
::
prelu
(
input
+
i
*
partial_sum
,
w
[
i
],
output
+
i
*
partial_sum
,
partial_sum
);
}
input
=
input
+
numElements
;
output
=
output
+
numElements
;
}
#else
for
(
size_t
n
=
0
,
k
=
0
;
n
<
numSamples
;
++
n
)
{
for
(
size_t
n
=
0
,
k
=
0
;
n
<
numSamples
;
++
n
)
{
for
(
size_t
i
=
0
;
i
<
numElements
;
++
i
,
++
k
)
{
for
(
size_t
i
=
0
;
i
<
numElements
;
++
i
,
++
k
)
{
data_
[
k
]
=
input
[
k
]
>
0
?
input
[
k
]
:
input
[
k
]
*
w
[
i
/
partial_sum
];
output
[
k
]
=
input
[
k
]
>
0
?
input
[
k
]
:
input
[
k
]
*
w
[
i
/
partial_sum
];
}
}
}
}
#endif
}
}
void
CpuMatrix
::
paramReluBackwardW
(
Matrix
&
oGrad
,
Matrix
&
data
)
{
void
CpuMatrix
::
paramReluBackwardW
(
Matrix
&
oGrad
,
Matrix
&
data
)
{
...
...
paddle/math/NEONFunctions.cpp
浏览文件 @
a91efdde
...
@@ -49,6 +49,46 @@ void relu(const float* a, float* b, int len) {
...
@@ -49,6 +49,46 @@ void relu(const float* a, float* b, int len) {
}
}
}
}
// b[i] = a[i] > 0.0f ? a[i] : a[i] * w
void
prelu
(
const
float
*
a
,
float
w
,
float
*
b
,
int
len
)
{
int
offset
=
len
%
16
;
float32x4_t
ma0
,
ma1
,
ma2
,
ma3
;
float32x4_t
zero
=
vdupq_n_f32
(
0.
f
);
float32x4_t
vw
=
vdupq_n_f32
(
w
);
for
(
int
k
=
0
;
k
<
len
/
16
;
k
++
,
a
+=
16
,
b
+=
16
)
{
ma0
=
vld1q_f32
(
a
);
ma1
=
vld1q_f32
(
a
+
4
);
ma2
=
vld1q_f32
(
a
+
8
);
ma3
=
vld1q_f32
(
a
+
12
);
uint32x4_t
flag0
=
vcgtq_f32
(
ma0
,
zero
);
uint32x4_t
flag1
=
vcgtq_f32
(
ma1
,
zero
);
uint32x4_t
flag2
=
vcgtq_f32
(
ma2
,
zero
);
uint32x4_t
flag3
=
vcgtq_f32
(
ma3
,
zero
);
float32x4_t
mul0
=
vmulq_f32
(
ma0
,
vw
);
float32x4_t
mul1
=
vmulq_f32
(
ma1
,
vw
);
float32x4_t
mul2
=
vmulq_f32
(
ma2
,
vw
);
float32x4_t
mul3
=
vmulq_f32
(
ma3
,
vw
);
ma0
=
vbslq_f32
(
flag0
,
ma0
,
mul0
);
ma1
=
vbslq_f32
(
flag1
,
ma1
,
mul1
);
ma2
=
vbslq_f32
(
flag2
,
ma2
,
mul2
);
ma3
=
vbslq_f32
(
flag3
,
ma3
,
mul3
);
vst1q_f32
(
b
,
ma0
);
vst1q_f32
(
b
+
4
,
ma1
);
vst1q_f32
(
b
+
8
,
ma2
);
vst1q_f32
(
b
+
12
,
ma3
);
}
for
(
int
i
=
0
;
i
<
offset
;
i
++
)
{
b
[
i
]
=
a
[
i
]
>
0.0
f
?
a
[
i
]
:
a
[
i
]
*
w
;
}
}
}
// namespace neon
}
// namespace neon
}
// namespace paddle
}
// namespace paddle
...
...
paddle/math/NEONFunctions.h
浏览文件 @
a91efdde
...
@@ -18,6 +18,7 @@ namespace paddle {
...
@@ -18,6 +18,7 @@ namespace paddle {
namespace
neon
{
namespace
neon
{
void
relu
(
const
float
*
a
,
float
*
b
,
int
len
);
void
relu
(
const
float
*
a
,
float
*
b
,
int
len
);
void
prelu
(
const
float
*
a
,
float
w
,
float
*
b
,
int
len
);
}
// namespace neon
}
// namespace neon
}
// namespace paddle
}
// namespace paddle
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录