Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
Greenplum
Opencv
提交
f792fdc3
O
Opencv
项目概览
Greenplum
/
Opencv
大约 1 年 前同步成功
通知
7
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
O
Opencv
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
f792fdc3
编写于
12月 31, 2014
作者:
V
Vadim Pisarevsky
浏览文件
操作
浏览文件
下载
差异文件
Merge pull request #3559 from ilya-lavrenov:sse_dot_s8
上级
2bddbd2c
f57136fd
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
46 addition
and
1 deletion
+46
-1
modules/core/src/matmul.cpp
modules/core/src/matmul.cpp
+46
-1
未找到文件。
modules/core/src/matmul.cpp
浏览文件 @
f792fdc3
...
...
@@ -3012,7 +3012,52 @@ static double dotProd_8s(const schar* src1, const schar* src2, int len)
int
i
=
0
;
double
r
=
0.0
;
#if CV_NEON
#if CV_SSE2
if
(
USE_SSE2
)
{
int
j
,
len0
=
len
&
-
4
,
blockSize0
=
(
1
<<
13
),
blockSize
;
__m128i
z
=
_mm_setzero_si128
();
CV_DECL_ALIGNED
(
16
)
int
buf
[
4
];
while
(
i
<
len0
)
{
blockSize
=
std
::
min
(
len0
-
i
,
blockSize0
);
__m128i
s
=
z
;
j
=
0
;
for
(
;
j
<=
blockSize
-
16
;
j
+=
16
)
{
__m128i
b0
=
_mm_loadu_si128
((
const
__m128i
*
)(
src1
+
j
));
__m128i
b1
=
_mm_loadu_si128
((
const
__m128i
*
)(
src2
+
j
));
__m128i
s0
,
s1
,
s2
,
s3
;
s0
=
_mm_srai_epi16
(
_mm_unpacklo_epi8
(
b0
,
b0
),
8
);
s2
=
_mm_srai_epi16
(
_mm_unpackhi_epi8
(
b0
,
b0
),
8
);
s1
=
_mm_srai_epi16
(
_mm_unpacklo_epi8
(
b1
,
b1
),
8
);
s3
=
_mm_srai_epi16
(
_mm_unpackhi_epi8
(
b1
,
b1
),
8
);
s0
=
_mm_madd_epi16
(
s0
,
s1
);
s2
=
_mm_madd_epi16
(
s2
,
s3
);
s
=
_mm_add_epi32
(
s
,
s0
);
s
=
_mm_add_epi32
(
s
,
s2
);
}
for
(
;
j
<
blockSize
;
j
+=
4
)
{
__m128i
s0
=
_mm_cvtsi32_si128
(
*
(
const
int
*
)(
src1
+
j
));
__m128i
s1
=
_mm_cvtsi32_si128
(
*
(
const
int
*
)(
src2
+
j
));
s0
=
_mm_srai_epi16
(
_mm_unpacklo_epi8
(
s0
,
s0
),
8
);
s1
=
_mm_srai_epi16
(
_mm_unpacklo_epi8
(
s1
,
s1
),
8
);
s0
=
_mm_madd_epi16
(
s0
,
s1
);
s
=
_mm_add_epi32
(
s
,
s0
);
}
_mm_store_si128
((
__m128i
*
)
buf
,
s
);
r
+=
buf
[
0
]
+
buf
[
1
]
+
buf
[
2
]
+
buf
[
3
];
src1
+=
blockSize
;
src2
+=
blockSize
;
i
+=
blockSize
;
}
}
#elif CV_NEON
int
len0
=
len
&
-
8
,
blockSize0
=
(
1
<<
14
),
blockSize
;
int32x4_t
v_zero
=
vdupq_n_s32
(
0
);
CV_DECL_ALIGNED
(
16
)
int
buf
[
4
];
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录