Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
Paddle-Lite
提交
1f21a82e
P
Paddle-Lite
项目概览
PaddlePaddle
/
Paddle-Lite
通知
332
Star
4
Fork
1
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
271
列表
看板
标记
里程碑
合并请求
78
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle-Lite
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
271
Issue
271
列表
看板
标记
里程碑
合并请求
78
合并请求
78
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
1f21a82e
编写于
12月 25, 2019
作者:
H
hong19860320
提交者:
GitHub
12月 25, 2019
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
[LITE][Doc] Add NPU support in model_optimize_tool and refine NPU doc (#2680)
上级
28437ce4
变更
4
隐藏空白更改
内联
并排
Showing
4 changed file
with
188 addition
and
208 deletion
+188
-208
_all_pages/develop/model_optimize_tool.md
_all_pages/develop/model_optimize_tool.md
+2
-2
_all_pages/develop/npu.md
_all_pages/develop/npu.md
+92
-102
_all_pages/v2.2.0/model_optimize_tool.md
_all_pages/v2.2.0/model_optimize_tool.md
+2
-2
_all_pages/v2.2.0/npu.md
_all_pages/v2.2.0/npu.md
+92
-102
未找到文件。
_all_pages/develop/model_optimize_tool.md
浏览文件 @
1f21a82e
...
...
@@ -49,7 +49,7 @@ fluid模型有两种形式,combined形式(权重保存为一个param文件
--param_file
=
<param_path>
\
--optimize_out_type
=(
protobuf|naive_buffer
)
\
--optimize_out
=
<output_optimize_model_dir>
\
--valid_targets
=(
arm|opencl|x86
)
\
--valid_targets
=(
arm|opencl|x86
|npu
)
\
--prefer_int8_kernel
=(
true
|false
)
\
--record_tailoring_info
=(
true
|false
)
```
...
...
@@ -61,7 +61,7 @@ fluid模型有两种形式,combined形式(权重保存为一个param文件
| --param_file | 待优化的fluid模型(combined形式)的权重文件路径。 |
| --optimize_out_type | 输出模型类型,目前支持两种类型:protobuf和naive_buffer,其中naive_buffer是一种更轻量级的序列化/反序列化实现。若您需要在mobile端执行模型预测,请将此选项设置为naive_buffer。默认为protobuf。 |
| --optimize_out | 优化模型的输出路径。 |
| --valid_targets | 指定模型可执行的backend,目前可支持x86、arm、opencl
,您可以同时指定多个backend(以空格分隔),Model Optimize Tool将会自动选择最佳方式。默认为
arm。 |
| --valid_targets | 指定模型可执行的backend,目前可支持x86、arm、opencl
、npu,您可以同时指定多个backend(以空格分隔),Model Optimize Tool将会自动选择最佳方式。默认为arm。如果需要支持华为NPU(Kirin 810/990 Soc搭载的达芬奇架构NPU),应当设置为npu,
arm。 |
| --prefer_int8_kernel | 若待优化模型为int8量化模型(如量化训练得到的量化模型),则设置该选项为true以使用int8内核函数进行推理加速,默认为false。 |
| --record_tailoring_info | 当使用
**根据模型裁剪库文件**
功能时,则设置该选项为true,以记录优化后模型含有的kernel和OP信息,默认为false。 |
...
...
_all_pages/develop/npu.md
浏览文件 @
1f21a82e
...
...
@@ -3,125 +3,115 @@ layout: post
title
:
Lite支持NPU在线编译
---
Paddle Lite可以在线分析模型特点,在线编译并生成NPU所需要的IR并实时运行。
是首个支持NPU在线模型的预测框架。
也可以离线分析并调优模型后,保存离线模型,直接线上部署使用。
# 编译
只需要提前准备华为DKK库和Lite 代码。
我们也提供了编译NPU的
[
脚本
](
https://github.com/PaddlePaddle/Paddle-Lite/blob/develop/lite/tools/build_npu.sh
)
可以直接使用。
例如:
Paddle Lite是首款支持华为自研达芬奇架构NPU(Kirin 810/990 SoC搭载的NPU)的预测框架。
原理是在线分析Paddle模型,将Paddle算子转成HiAI IR后,调用HiAI IR/Builder/Runtime APIs生成并执行HiAI模型。
# 已支持的设备
-
华为nova5、nova5i pro、mate30、mate30 pro、mate30 5G、荣耀v30,以及即将推出的mate40、p40。据华为透露,今后上市的大部分手机都会搭载其自研达芬奇架构NPU。
# 已支持的模型
-
MobileNetV1
-
MobileNetV2
-
ResNet-18/50
-
ShuffleNetV2
-
百度内部业务模型(由于涉密,不方便透露具体细节)
# 已支持(或部分支持)的Paddle算子
-
sigmoid
-
relu
-
tanh
-
relu_clipped
-
leaky_relu
-
softsign
-
hard_sigmoid
-
batch_norm
-
concat
-
conv2d
-
depthwise_conv2d
-
conv2d_transpose
-
elementwise_add
-
elementwise_sub
-
elementwise_mul
-
elementwise_div
-
fc
-
bilinear_interp
-
nearest_interp
-
mul
-
pad2d
-
pool2d
-
reduce_mean
-
reshape
-
reshape2
-
scale
-
shuffle_channel
-
softmax
-
split
-
sqrt
-
square
-
transpose
-
transpose2
# 编译支持NPU的Paddle Lite库
-
从https://developer.huawei.com/consumer/cn/hiai/下载华为HiAI DDK后解压到任意路径(注意:华为提供了多个版本的DDK,我们需要下载针对麒麟810/990芯片HiAI Foundation开发套件,例如最新的
[
DDK V310版本
](
https://obs.cn-north-2.myhwclouds.com/hms-ds-wf/sdk/hwhiai-ddk-100.310.011.010.zip
)
)。
-
在Paddle Lite源码目录下使用
[
NPU编译脚本
](
https://github.com/PaddlePaddle/Paddle-Lite/blob/develop/lite/tools/build_npu.sh
)
编译full_publish和tiny_publish。
注意:必须将--ddk_root参数设置为HiAI DDK根目录,以下是HiAI DDK V310版解压后的目录结构,--ddk_root应当设置为ai_ddk_lib目录。
```
shell
$
./lite/tools/build_npu.sh
--arm_os
=
android
--arm_abi
=
armv8
--arm_lang
=
gcc
--ddk_root
=
/to/your/ddk_path build
- app_sample
- ddk
- ai_ddk_lib
- include
- lib
# for armv7
- lib64
# for armv8
- document
- tools
```
## 细节说明
CMAKE编译选项:
-
设置
`LITE_WITH_NPU=ON`
和
`LITE_WITH_ARM=ON`
-
设置DDK根目录路径
`NPU_DDK_ROOT`
其他编译选项与ARM编译相同,可以参考
[
“Paddle Lite在Docker下的ARM编译”
](
../source_compile
)
。
示例如下:
-
full_publish and tiny_publish for armv8,由于HiAI DDK的armv7和armv8的so库均基于c++_shared构建,因此,建议使用c++_shared编译Paddle Lite。
```
shell
cmake ..
\
-DWITH_GPU
=
OFF
\
-DWITH_MKL
=
OFF
\
-DWITH_LITE
=
ON
\
-DLITE_WITH_CUDA
=
OFF
\
-DLITE_WITH_X86
=
OFF
\
-DLITE_WITH_ARM
=
ON
\
-DWITH_ARM_DOTPROD
=
ON
\
-DLITE_WITH_LIGHT_WEIGHT_FRAMEWORK
=
ON
\
-DWITH_TESTING
=
ON
\
-DLITE_WITH_NPU
=
ON
\
-DANDROID_API_LEVEL
=
24
\
-DNPU_DDK_ROOT
=
"/path/to/ai_ddk_lib/"
\
-DARM_TARGET_OS
=
android
-DARM_TARGET_ARCH_ABI
=
armv8
-DARM_TARGET_LANG
=
gcc
make test_mobilenetv1
-j
$
./lite/tools/build_npu.sh
--arm_os
=
android
--arm_abi
=
armv8
--arm_lang
=
gcc
--android_stl
=
c++_shared
--ddk_root
=
/to/your/ai_ddk_lib full_publish
$
./lite/tools/build_npu.sh
--arm_os
=
android
--arm_abi
=
armv8
--arm_lang
=
gcc
--android_stl
=
c++_shared
--ddk_root
=
/to/your/ai_ddk_lib tiny_publish
```
Note: 当前仅支持armv8和gcc编译。
# 运行示例
把MobilenetV1的模型和参数push到指定的
`working_dir`
.
-
full_publish and tiny_publish for armv7
```
shell
working_dir
=
/data/local/tmp
test_bin
=
test_npu_pass
model_dir
=
mobilenet_v1
# as example
repeats
=
10
batch_size
=
1
im_channel
=
3
im_height
=
224
im_width
=
224
optimized_model
=
"
${
model_dir
}
_opt"
adb shell
"mkdir -p
${
working_dir
}
"
adb push
$test_bin
$working_dir
/
adb push
$model_dir
$working_dir
adb push ai_ddk_lib/lib64/
*
$working_dir
adb shell
chmod
+x
"
${
working_dir
}
/
${
test_bin
}
"
adb shell
"rm -rf
${
working_dir
}
/
${
optimized_model
}
"
adb shell
"cd
${
working_dir
}
; export LD_LIBRARY_PATH=./; ./
${
test_bin
}
--model_dir=
${
model_dir
}
--optimized_model=
${
optimized_model
}
--repeats=
${
repeats
}
--batch_size=
${
batch_size
}
--im_channel=
${
im_channel
}
--im_height=
${
im_height
}
--im_width=
${
im_width
}
"
$
./lite/tools/build_npu.sh
--arm_os
=
android
--arm_abi
=
armv7
--arm_lang
=
gcc
--android_stl
=
c++_shared
--ddk_root
=
/to/your/ai_ddk_lib full_publish
$
./lite/tools/build_npu.sh
--arm_os
=
android
--arm_abi
=
armv7
--arm_lang
=
gcc
--android_stl
=
c++_shared
--ddk_root
=
/to/your/ai_ddk_lib tiny_publish
```
在华为810的机器上,由运行结果可知单侧通过并且预测速度为6ms左右。
一般第一次的运行时间略长,可以重复多次得到稳定结果。
# 如何在Code中使用
在Lite中使用NPU非常简单,不需要添加太多额外代码
。
注意:为了保证编译环境一致,建议参考
[
源码编译指南
](
../source_compile
)
中的Docker开发环境进行配置,然后再执行上述命令
。
-
只需要在添加有效place的时候包括
`Place{TARGET(kNPU), PRECISION(kFloat)}`
即可。
后续的运行和使用没有任何变化。
# 优化生成NPU模型
Note:
唯一需要注意的是,因为构建NPU子图需要提前知晓各个op输入的具体大小,所以生成NPU的
`RuntimeProgram`
时需要提前初始化输入的大小,主要包括batchsize大小。
如果不提前设置好大小,生成NPU模型时会报错退出。
代码示例:
```
cpp
// if want to use NPU
std
::
vector
<
Place
>
valid_places
({
Place
{
TARGET
(
kNPU
),
PRECISION
(
kFloat
)},
Place
{
TARGET
(
kARM
),
PRECISION
(
kFloat
)}});
DeviceInfo
::
Init
();
DeviceInfo
::
Global
().
SetRunMode
(
LITE_POWER_HIGH
,
FLAGS_threads
);
lite
::
Predictor
predictor
;
predictor
.
Build
(
model_dir
,
""
,
""
,
valid_places
);
auto
*
input_tensor
=
predictor
.
GetInput
(
0
);
input_tensor
->
Resize
(
DDim
(
std
::
vector
<
DDim
::
value_type
>
({
1
,
3
,
224
,
224
})));
auto
*
data
=
input_tensor
->
mutable_data
<
float
>
();
auto
item_size
=
input_tensor
->
dims
().
production
();
for
(
int
i
=
0
;
i
<
item_size
;
i
++
)
{
data
[
i
]
=
1
;
}
predictor
.
Run
();
-
model_optimize_tool工具已经支持生成NPU模型,仅需要将valid_targets设置为npu,arm即可,具体参考
[
模型转化方法
](
../model_optimize_tool
)
。
```
shell
./model_optimize_tool
--model_dir
=
<model_param_dir>
\
--model_file
=
<model_path>
\
--param_file
=
<param_path>
\
--optimize_out_type
=(
protobuf|naive_buffer
)
\
--optimize_out
=
<output_optimize_model_dir>
\
--valid_targets
=
npu,arm
\
--prefer_int8_kernel
=(
true
|false
)
\
--record_tailoring_info
=(
true
|false
)
```
-
model_optimize_tool生成的模型只是标记了NPU支持的Paddle算子,并没有真正生成了NPU HiAI模型,只有在执行时才会将标记的Paddle算子转成HiAI IR,最终生成并执行HiAI模型,具体实现参考PR
[
2576
](
https://github.com/PaddlePaddle/Paddle-Lite/pull/2576
)
。
-
不同模型,不同型号(ROM版本)的华为手机,在执行阶段,由于某些Paddle算子无法完全转成HiAI IR,或目标手机的HiAI版本过低等原因,可能导致HiAI模型无法成功生成,在这种情况下,Paddle Lite会调用CPU版算子进行运算完成整个预测任务。
# 通过JAVA接口加载并执行NPU模型
# FAQ
-
使用方法和
[
Java实例
](
../java_demo
)
一致,无需额外设置任何参数,只需将模型换成NPU模型即可。
[
Paddle-Lite-Demo
](
https://github.com/PaddlePaddle/Paddle-Lite-Demo
)
中的Image Classification Demo for Android是同时支持CPU和NPU两种模型的图像分类Demo。
## 关于开发板
注意:在拷贝libpaddle_lite_jni.so的时候,由于依赖HiAI DDK so和libc++_shared.so库,需要将HiAI DDK中ai_ddk_lib/lib或ai_ddk_lib/lib64目录下的所有so和libc++_shared.so,拷到libpaddle_lite_jni.so同级目录下。
由于该框架针对的是华为HiAI最新的NPU架构,应该还没有现成的开发板集成了该架构的NPU,所以通常看到的比如海思2359A上的NPU不一样的。
# 通过C++接口加载并执行NPU模型
-
使用方法和
[
C++实例
](
../cpp_demo
)
一致,同样无需额外设置任何参数,只需将模型换成NPU模型即可。
## 关于手机
注意:1)不能使用安卓模拟器,需要使用真实设备,且必须是支持NPU的华为手机。2)在使用adb push命令向手机推送目标程序时,需要将HiAI DDK中ai_ddk_lib/lib或ai_ddk_lib/lib64目录下的所有so和libc++_shared.so,推送到目标程序同级目录下。
支持目前最新的是华为810,以及未来要发布的NPU系列手机。
# Note
注意:由于我们的开发是基于华为内部的最新DDK版本编译,如果您的DDK不是最新的,有可能会遇到编译时某个op找不到定义的情况,此时您可以联系我们尝试一起解决。
-
华为达芬奇架构的NPU内部大量采用float16进行运算,因此,预测结果会存在偏差,但大部分情况下精度不会有较大损失,可参考
[
Paddle-Lite-Demo
](
https://github.com/PaddlePaddle/Paddle-Lite-Demo
)
中Image Classification Demo for Android对同一张图片CPU与NPU的预测结果。
-
华为Kirin 810/990 Soc搭载的自研达芬奇架构的NPU,与Kirin 970/980 Soc搭载的寒武纪NPU不一样,同样的,与Hi3559A、Hi3519A使用的NNIE也不一样,Paddle Lite只支持华为自研达芬奇架构NPU。
-
我们正在持续增加能够适配HiAI IR的Paddle算子bridge/converter,以便适配更多Paddle模型,同时华为研发同学也在持续对HiAI IR性能进行优化。
_all_pages/v2.2.0/model_optimize_tool.md
浏览文件 @
1f21a82e
...
...
@@ -49,7 +49,7 @@ fluid模型有两种形式,combined形式(权重保存为一个param文件
--param_file
=
<param_path>
\
--optimize_out_type
=(
protobuf|naive_buffer
)
\
--optimize_out
=
<output_optimize_model_dir>
\
--valid_targets
=(
arm|opencl|x86
)
\
--valid_targets
=(
arm|opencl|x86
|npu
)
\
--prefer_int8_kernel
=(
true
|false
)
\
--record_tailoring_info
=(
true
|false
)
```
...
...
@@ -61,7 +61,7 @@ fluid模型有两种形式,combined形式(权重保存为一个param文件
| --param_file | 待优化的fluid模型(combined形式)的权重文件路径。 |
| --optimize_out_type | 输出模型类型,目前支持两种类型:protobuf和naive_buffer,其中naive_buffer是一种更轻量级的序列化/反序列化实现。若您需要在mobile端执行模型预测,请将此选项设置为naive_buffer。默认为protobuf。 |
| --optimize_out | 优化模型的输出路径。 |
| --valid_targets | 指定模型可执行的backend,目前可支持x86、arm、opencl
,您可以同时指定多个backend(以空格分隔),Model Optimize Tool将会自动选择最佳方式。默认为
arm。 |
| --valid_targets | 指定模型可执行的backend,目前可支持x86、arm、opencl
、npu,您可以同时指定多个backend(以空格分隔),Model Optimize Tool将会自动选择最佳方式。默认为arm。如果需要支持华为NPU(Kirin 810/990 Soc搭载的达芬奇架构NPU),应当设置为npu,
arm。 |
| --prefer_int8_kernel | 若待优化模型为int8量化模型(如量化训练得到的量化模型),则设置该选项为true以使用int8内核函数进行推理加速,默认为false。 |
| --record_tailoring_info | 当使用
**根据模型裁剪库文件**
功能时,则设置该选项为true,以记录优化后模型含有的kernel和OP信息,默认为false。 |
...
...
_all_pages/v2.2.0/npu.md
浏览文件 @
1f21a82e
...
...
@@ -3,125 +3,115 @@ layout: post
title
:
Lite支持NPU在线编译
---
Paddle Lite可以在线分析模型特点,在线编译并生成NPU所需要的IR并实时运行。
是首个支持NPU在线模型的预测框架。
也可以离线分析并调优模型后,保存离线模型,直接线上部署使用。
# 编译
只需要提前准备华为DKK库和Lite 代码。
我们也提供了编译NPU的
[
脚本
](
https://github.com/PaddlePaddle/Paddle-Lite/blob/develop/lite/tools/build_npu.sh
)
可以直接使用。
例如:
Paddle Lite是首款支持华为自研达芬奇架构NPU(Kirin 810/990 SoC搭载的NPU)的预测框架。
原理是在线分析Paddle模型,将Paddle算子转成HiAI IR后,调用HiAI IR/Builder/Runtime APIs生成并执行HiAI模型。
# 已支持的设备
-
华为nova5、nova5i pro、mate30、mate30 pro、mate30 5G、荣耀v30,以及即将推出的mate40、p40。据华为透露,今后上市的大部分手机都会搭载其自研达芬奇架构NPU。
# 已支持的模型
-
MobileNetV1
-
MobileNetV2
-
ResNet-18/50
-
ShuffleNetV2
-
百度内部业务模型(由于涉密,不方便透露具体细节)
# 已支持(或部分支持)的Paddle算子
-
sigmoid
-
relu
-
tanh
-
relu_clipped
-
leaky_relu
-
softsign
-
hard_sigmoid
-
batch_norm
-
concat
-
conv2d
-
depthwise_conv2d
-
conv2d_transpose
-
elementwise_add
-
elementwise_sub
-
elementwise_mul
-
elementwise_div
-
fc
-
bilinear_interp
-
nearest_interp
-
mul
-
pad2d
-
pool2d
-
reduce_mean
-
reshape
-
reshape2
-
scale
-
shuffle_channel
-
softmax
-
split
-
sqrt
-
square
-
transpose
-
transpose2
# 编译支持NPU的Paddle Lite库
-
从https://developer.huawei.com/consumer/cn/hiai/下载华为HiAI DDK后解压到任意路径(注意:华为提供了多个版本的DDK,我们需要下载针对麒麟810/990芯片HiAI Foundation开发套件,例如最新的
[
DDK V310版本
](
https://obs.cn-north-2.myhwclouds.com/hms-ds-wf/sdk/hwhiai-ddk-100.310.011.010.zip
)
)。
-
在Paddle Lite源码目录下使用
[
NPU编译脚本
](
https://github.com/PaddlePaddle/Paddle-Lite/blob/develop/lite/tools/build_npu.sh
)
编译full_publish和tiny_publish。
注意:必须将--ddk_root参数设置为HiAI DDK根目录,以下是HiAI DDK V310版解压后的目录结构,--ddk_root应当设置为ai_ddk_lib目录。
```
shell
$
./lite/tools/build_npu.sh
--arm_os
=
android
--arm_abi
=
armv8
--arm_lang
=
gcc
--ddk_root
=
/to/your/ddk_path build
- app_sample
- ddk
- ai_ddk_lib
- include
- lib
# for armv7
- lib64
# for armv8
- document
- tools
```
## 细节说明
CMAKE编译选项:
-
设置
`LITE_WITH_NPU=ON`
和
`LITE_WITH_ARM=ON`
-
设置DDK根目录路径
`NPU_DDK_ROOT`
其他编译选项与ARM编译相同,可以参考
[
“Paddle Lite在Docker下的ARM编译”
](
../source_compile
)
。
示例如下:
-
full_publish and tiny_publish for armv8,由于HiAI DDK的armv7和armv8的so库均基于c++_shared构建,因此,建议使用c++_shared编译Paddle Lite。
```
shell
cmake ..
\
-DWITH_GPU
=
OFF
\
-DWITH_MKL
=
OFF
\
-DWITH_LITE
=
ON
\
-DLITE_WITH_CUDA
=
OFF
\
-DLITE_WITH_X86
=
OFF
\
-DLITE_WITH_ARM
=
ON
\
-DWITH_ARM_DOTPROD
=
ON
\
-DLITE_WITH_LIGHT_WEIGHT_FRAMEWORK
=
ON
\
-DWITH_TESTING
=
ON
\
-DLITE_WITH_NPU
=
ON
\
-DANDROID_API_LEVEL
=
24
\
-DNPU_DDK_ROOT
=
"/path/to/ai_ddk_lib/"
\
-DARM_TARGET_OS
=
android
-DARM_TARGET_ARCH_ABI
=
armv8
-DARM_TARGET_LANG
=
gcc
make test_mobilenetv1
-j
$
./lite/tools/build_npu.sh
--arm_os
=
android
--arm_abi
=
armv8
--arm_lang
=
gcc
--android_stl
=
c++_shared
--ddk_root
=
/to/your/ai_ddk_lib full_publish
$
./lite/tools/build_npu.sh
--arm_os
=
android
--arm_abi
=
armv8
--arm_lang
=
gcc
--android_stl
=
c++_shared
--ddk_root
=
/to/your/ai_ddk_lib tiny_publish
```
Note: 当前仅支持armv8和gcc编译。
# 运行示例
把MobilenetV1的模型和参数push到指定的
`working_dir`
.
-
full_publish and tiny_publish for armv7
```
shell
working_dir
=
/data/local/tmp
test_bin
=
test_npu_pass
model_dir
=
mobilenet_v1
# as example
repeats
=
10
batch_size
=
1
im_channel
=
3
im_height
=
224
im_width
=
224
optimized_model
=
"
${
model_dir
}
_opt"
adb shell
"mkdir -p
${
working_dir
}
"
adb push
$test_bin
$working_dir
/
adb push
$model_dir
$working_dir
adb push ai_ddk_lib/lib64/
*
$working_dir
adb shell
chmod
+x
"
${
working_dir
}
/
${
test_bin
}
"
adb shell
"rm -rf
${
working_dir
}
/
${
optimized_model
}
"
adb shell
"cd
${
working_dir
}
; export LD_LIBRARY_PATH=./; ./
${
test_bin
}
--model_dir=
${
model_dir
}
--optimized_model=
${
optimized_model
}
--repeats=
${
repeats
}
--batch_size=
${
batch_size
}
--im_channel=
${
im_channel
}
--im_height=
${
im_height
}
--im_width=
${
im_width
}
"
$
./lite/tools/build_npu.sh
--arm_os
=
android
--arm_abi
=
armv7
--arm_lang
=
gcc
--android_stl
=
c++_shared
--ddk_root
=
/to/your/ai_ddk_lib full_publish
$
./lite/tools/build_npu.sh
--arm_os
=
android
--arm_abi
=
armv7
--arm_lang
=
gcc
--android_stl
=
c++_shared
--ddk_root
=
/to/your/ai_ddk_lib tiny_publish
```
在华为810的机器上,由运行结果可知单侧通过并且预测速度为6ms左右。
一般第一次的运行时间略长,可以重复多次得到稳定结果。
# 如何在Code中使用
在Lite中使用NPU非常简单,不需要添加太多额外代码
。
注意:为了保证编译环境一致,建议参考
[
源码编译指南
](
../source_compile
)
中的Docker开发环境进行配置,然后再执行上述命令
。
-
只需要在添加有效place的时候包括
`Place{TARGET(kNPU), PRECISION(kFloat)}`
即可。
后续的运行和使用没有任何变化。
# 优化生成NPU模型
Note:
唯一需要注意的是,因为构建NPU子图需要提前知晓各个op输入的具体大小,所以生成NPU的
`RuntimeProgram`
时需要提前初始化输入的大小,主要包括batchsize大小。
如果不提前设置好大小,生成NPU模型时会报错退出。
代码示例:
```
cpp
// if want to use NPU
std
::
vector
<
Place
>
valid_places
({
Place
{
TARGET
(
kNPU
),
PRECISION
(
kFloat
)},
Place
{
TARGET
(
kARM
),
PRECISION
(
kFloat
)}});
DeviceInfo
::
Init
();
DeviceInfo
::
Global
().
SetRunMode
(
LITE_POWER_HIGH
,
FLAGS_threads
);
lite
::
Predictor
predictor
;
predictor
.
Build
(
model_dir
,
""
,
""
,
valid_places
);
auto
*
input_tensor
=
predictor
.
GetInput
(
0
);
input_tensor
->
Resize
(
DDim
(
std
::
vector
<
DDim
::
value_type
>
({
1
,
3
,
224
,
224
})));
auto
*
data
=
input_tensor
->
mutable_data
<
float
>
();
auto
item_size
=
input_tensor
->
dims
().
production
();
for
(
int
i
=
0
;
i
<
item_size
;
i
++
)
{
data
[
i
]
=
1
;
}
predictor
.
Run
();
-
model_optimize_tool工具已经支持生成NPU模型,仅需要将valid_targets设置为npu,arm即可,具体参考
[
模型转化方法
](
../model_optimize_tool
)
。
```
shell
./model_optimize_tool
--model_dir
=
<model_param_dir>
\
--model_file
=
<model_path>
\
--param_file
=
<param_path>
\
--optimize_out_type
=(
protobuf|naive_buffer
)
\
--optimize_out
=
<output_optimize_model_dir>
\
--valid_targets
=
npu,arm
\
--prefer_int8_kernel
=(
true
|false
)
\
--record_tailoring_info
=(
true
|false
)
```
-
model_optimize_tool生成的模型只是标记了NPU支持的Paddle算子,并没有真正生成了NPU HiAI模型,只有在执行时才会将标记的Paddle算子转成HiAI IR,最终生成并执行HiAI模型,具体实现参考PR
[
2576
](
https://github.com/PaddlePaddle/Paddle-Lite/pull/2576
)
。
-
不同模型,不同型号(ROM版本)的华为手机,在执行阶段,由于某些Paddle算子无法完全转成HiAI IR,或目标手机的HiAI版本过低等原因,可能导致HiAI模型无法成功生成,在这种情况下,Paddle Lite会调用CPU版算子进行运算完成整个预测任务。
# 通过JAVA接口加载并执行NPU模型
# FAQ
-
使用方法和
[
Java实例
](
../java_demo
)
一致,无需额外设置任何参数,只需将模型换成NPU模型即可。
[
Paddle-Lite-Demo
](
https://github.com/PaddlePaddle/Paddle-Lite-Demo
)
中的Image Classification Demo for Android是同时支持CPU和NPU两种模型的图像分类Demo。
## 关于开发板
注意:在拷贝libpaddle_lite_jni.so的时候,由于依赖HiAI DDK so和libc++_shared.so库,需要将HiAI DDK中ai_ddk_lib/lib或ai_ddk_lib/lib64目录下的所有so和libc++_shared.so,拷到libpaddle_lite_jni.so同级目录下。
由于该框架针对的是华为HiAI最新的NPU架构,应该还没有现成的开发板集成了该架构的NPU,所以通常看到的比如海思2359A上的NPU不一样的。
# 通过C++接口加载并执行NPU模型
-
使用方法和
[
C++实例
](
../cpp_demo
)
一致,同样无需额外设置任何参数,只需将模型换成NPU模型即可。
## 关于手机
注意:1)不能使用安卓模拟器,需要使用真实设备,且必须是支持NPU的华为手机。2)在使用adb push命令向手机推送目标程序时,需要将HiAI DDK中ai_ddk_lib/lib或ai_ddk_lib/lib64目录下的所有so和libc++_shared.so,推送到目标程序同级目录下。
支持目前最新的是华为810,以及未来要发布的NPU系列手机。
# Note
注意:由于我们的开发是基于华为内部的最新DDK版本编译,如果您的DDK不是最新的,有可能会遇到编译时某个op找不到定义的情况,此时您可以联系我们尝试一起解决。
-
华为达芬奇架构的NPU内部大量采用float16进行运算,因此,预测结果会存在偏差,但大部分情况下精度不会有较大损失,可参考
[
Paddle-Lite-Demo
](
https://github.com/PaddlePaddle/Paddle-Lite-Demo
)
中Image Classification Demo for Android对同一张图片CPU与NPU的预测结果。
-
华为Kirin 810/990 Soc搭载的自研达芬奇架构的NPU,与Kirin 970/980 Soc搭载的寒武纪NPU不一样,同样的,与Hi3559A、Hi3519A使用的NNIE也不一样,Paddle Lite只支持华为自研达芬奇架构NPU。
-
我们正在持续增加能够适配HiAI IR的Paddle算子bridge/converter,以便适配更多Paddle模型,同时华为研发同学也在持续对HiAI IR性能进行优化。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录