From b3c83d94176818cac29861e40ad660a12f42b391 Mon Sep 17 00:00:00 2001 From: juncaipeng <52520497+juncaipeng@users.noreply.github.com> Date: Wed, 4 Dec 2019 11:01:53 +0800 Subject: [PATCH] change to v2.1.0 doc, test=develo (#2558) * change to v2.1.0 doc, test=develop --- _all_pages/develop/add_new_pass.md | 1 + _all_pages/develop/benchmark.md | 213 +++++++++++------------- _all_pages/develop/fpga.md | 43 +++-- _all_pages/develop/library_tailoring.md | 7 +- _all_pages/develop/source_compile.md | 8 +- _all_pages/develop/support_hardware.md | 5 +- index.md | 68 ++++---- 7 files changed, 169 insertions(+), 176 deletions(-) diff --git a/_all_pages/develop/add_new_pass.md b/_all_pages/develop/add_new_pass.md index eba46d704a..a46e979d50 100644 --- a/_all_pages/develop/add_new_pass.md +++ b/_all_pages/develop/add_new_pass.md @@ -22,6 +22,7 @@ title: 新增Pass的方法 + ## Pass的实现与接口 :Pass基类、PassManager和Pass注册 ### 1、Pass基类:`paddle::lite::mir::Pass` diff --git a/_all_pages/develop/benchmark.md b/_all_pages/develop/benchmark.md index ea142c731d..25c3a9f31c 100644 --- a/_all_pages/develop/benchmark.md +++ b/_all_pages/develop/benchmark.md @@ -5,7 +5,7 @@ title: Benchmark 数据 可以参考[benchmark_tools](../benchmark_tools),推荐**一键benchmark**。 -## 测试环境 +# 测试环境 * 测试模型 * fp32模型 @@ -46,120 +46,105 @@ title: Benchmark 数据 * HUAWEI Mate10 * 测试说明 - * commit id: 12c129affaacd476e27a0a82b235a9d547d33f0f + * branch: release/2.0.0 * warmup=10, repeats=30,统计平均时间,单位是ms * 当线程数为1时,```DeviceInfo::Global().SetRunMode```设置LITE_POWER_HIGH,否者设置LITE_POWER_NO_BIND * 模型的输入图像的维度是{1, 3, 224, 224},输入图像的每一位数值是1 -## 测试数据 - -### fp32 模型测试数据 - -## 测试数据 - -### fp32 模型测试数据 - -骁龙855 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1 | 31.64 | 18.98 | 10.67 | 33.17 | 19.55 | 11.43 - mobilenet_v2 | 25.54 | 13.80 | 8.75 | 29.25 | 15.19 | 9.65 - squeezenet_v1.1 | 26.81 | 14.39 | 8.92 | 28.63 | 15.37 | 9.53 - mnasnet | 25.39 | 13.89 | 9.63 | 28.97 | 15.54 | 10.10 - shufflenet_v2 | 13.85 | 7.81 | 5.87 | 14.64 | 8.35 | 6.14 - - - 骁龙845 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1 | 62.04 | 33.63 | 18.63 | 66.23 | 35.78 | 20.14 - mobilenet_v2 | 40.41 | 22.94 | 13.33 | 44.22 | 24.58 | 14.50 - squeezenet_v1.1 | 49.92 | 23.78 | 13.86 | 52.00 | 24.85 | 15.87 - mnasnet | 40.14 | 23.36 | 14.46 | 43.77 | 24.78 | 14.76 - shufflenet_v2 | 22.27 | 13.69 | 8.96 | 26.11 | 14.95 | 9.02 - - - 骁龙835 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1 | 89.57 | 50.88 | 27.62 | 96.11 | 53.18 | 31.99 - mobilenet_v2 | 59.92 | 33.93 | 20.91 | 64.04 | 36.85 | 23.10 - squeezenet_v1.1 | 65.25 | 37.92 | 23.40 | 74.87 | 40.96 | 23.69 - mnasnet | 60.97 | 35.04 | 22.40 | 64.88 | 37.90 | 24.53 - shufflenet_v2 | 30.87 | 19.33 | 12.78 | 31.71 | 19.52 | 13.25 - - - 骁龙625 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1 | 180.98 | 92.27 | 51.51 | 216.12 | 110.33 | 61.68 - mobilenet_v2 | 132.46 | 68.38 | 43.54 | 146.18 | 76.62 | 46.21 - squeezenet_v1.1 | 124.49 | 66.84 | 41.53 | 153.28 | 82.42 | 47.14 - mnasnet | 122.50 | 67.46 | 43.04 | 146.20 | 79.64 | 48.56 - shufflenet_v2 | 68.70 | 40.77 | 26.53 | 75.38 | 42.40 | 28.36 - - - 骁龙653 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1 | 121.27 | 59.36 | 34.06 | 126.55 | 64.96 | 39.23 - mobilenet_v2 | 79.48 | 46.17 | 27.81 | 87.93 | 48.28 | 31.87 - squeezenet_v1.1 | 81.10 | 42.66 | 42.07 | 82.29 | 45.88 | 28.84 - mnasnet | 75.60 | 44.22 | 30.16 | 82.99 | 49.07 | 32.34 - shufflenet_v2 | 39.18 | 23.54 | 16.73 | 40.12 | 24.76 | 17.68 - - - - 麒麟970 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1 | 99.58 | 56.91 | 29.02 | 102.42 | 57.81 | 35.36 - mobilenet_v2 | 69.22 | 42.41 | 23.55 | 69.49 | 43.38 | 25.26 - squeezenet_v1.1 | 67.48 | 41.06 | 24.47 | 75.03 | 43.57 | 26.35 - mnasnet | 74.55 | 43.06 | 24.22 | 75.48 | 44.43 | 26.69 - shufflenet_v2 | 39.20 | 24.54 | 16.34 | 37.40 | 24.32 | 16.66 - -### int8 模型测试数据 - -骁龙855 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1_int8 | 16.77 | 8.38 | 4.59 | 43.42 | 20.80 | 10.89 - mobilenet_v2_int8 | 22.81 | 13.71 | 10.43 | 29.65 | 20.09 | 13.99 - resnet50_int8 | 258.83 | 157.22 | 85.83 | 424.99 | 209.37 | 112.32 - - 骁龙845 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1_int8 | 44.08 | 23.75 | 12.52 | 49.19 | 26.77 | 13.82 - mobilenet_v2_int8 | 36.61 | 22.70 | 15.29 | 40.51 | 25.84 | 17.89 - resnet50_int8 | 399.64 | 217.74 | 112.86 | 408.80 | 224.72 | 122.15 - - 骁龙835 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1_int8 | 59.99 | 31.59 | 16.55 | 62.92 | 33.33 | 17.38 - mobilenet_v2_int8 | 50.68 | 31.25 | 21.62 | 52.56 | 33.88 | 24.31 - resnet50_int8 | 498.85 | 267.65 | 146.03 | 510.54 | 278.77 | 155.05 - - 骁龙625 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1_int8 | 122.86 | 63.52 | 33.91 | 125.77 | 64.78 | 34.25 - mobilenet_v2_int8 | 110.71 | 67.76 | 49.85 | 114.63 | 71.74 | 51.73 - resnet50_int8 | 954.67 | 505.78 | 286.64 | 1016.64 | 532.84 | 305.20 - - 骁龙653 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1_int8 | 81.46 | 42.99 | 31.69 | 81.20 | 42.46 | 23.47 - mobilenet_v2_int8 | 68.39 | 43.47 | 32.03 | 69.40 | 44.47 | 33.46 - resnet50_int8 | 687.59 | 369.70 | 208.99 | 684.55 | 369.04 | 208.42 - - 麒麟970 | armv8 | | |armv7 ||| ----- | ---- | ---- | ---- |---- |----| ----| -num_threads | 1 | 2 | 4 |1 |2| 4 - mobilenet_v1_int8 | 64.27 | 35.48 | 18.76 | 64.63 | 37.67 | 20.70 - mobilenet_v2_int8 | 64.54 | 36.76 | 22.17 | 68.80 | 38.85 | 24.30 - resnet50_int8 | 509.94 | 268.95 | 276.13 | 520.57 | 281.92 | 157.82 - +# 测试数据 + + +## fp32模型测试数据 + +### paddlepaddle model + +骁龙855|armv7 | | |armv8 | | | +----| ---- | ---- | ---- | ---- |---- |---- +threads num|1 |2 |4 |1 |2 |4 +mobilenet_v1 |32.19 |18.81 |10.90 |30.92 |18.31 |10.15 +mobilenet_v2 |22.91 |13.75 |8.64 |21.15 |12.79 |7.84 +shufflenet_v2 |4.67 |3.37 |2.65 |4.43 |3.15 |2.66 +squeezenet_v1.1 |25.10 |15.93 |9.68 |23.28 |14.61 |8.71 +mnasnet |21.84 |13.14 |7.96 |19.61 |11.88 |7.55 + +骁龙835|armv7 | | |armv8 | | | +----| ---- | ---- | ---- | ---- |---- |---- +threads num|1 |2 |4 |1 |2 |4 +mobilenet_v1 |94.13 |52.17 |30.68 |88.28 |47.58 |26.64 +mobilenet_v2 |61.24 |34.64 |22.36 |56.66 |32.19 |19.63 +shufflenet_v2 |10.87 |6.92 |5.12 |10.41 |6.76 |4.97 +squeezenet_v1.1 |73.61 |42.25 |24.44 |64.87 |38.43 |23.06 +mnasnet |58.22 |33.43 |20.44 |53.43 |30.20 |18.09 + + +麒麟980|armv7 | | |armv8 | | | +----| ---- | ---- | ---- | ---- |---- |---- +threads num|1 |2 |4 |1 |2 |4 +mobilenet_v1 |55.11 |28.24 |13.27 |34.24 |17.74 |12.41 +mobilenet_v2 |37.03 |19.80 |51.94 |23.64 |12.98 |9.38 +shufflenet_v2 |7.26 |4.94 |15.06 |5.32 |3.33 |2.82 +squeezenet_v1.1 |42.73 |23.66 |57.39 |26.03 |14.53 |13.66 +mnasnet |36.87 |20.15 |46.04 |21.85 |12.06 |8.68 + +麒麟970|armv7 | | |armv8 | | | +----| ---- | ---- | ---- | ---- |---- |---- +threads num|1 |2 |4 |1 |2 |4 +mobilenet_v1 |97.80 |52.64 |34.46 |94.51 |49.36 |28.43 +mobilenet_v2 |66.55 |38.52 |23.19 |62.89 |34.93 |21.53 +shufflenet_v2 |13.78 |8.11 |5.93 |11.95 |7.90 |5.91 +squeezenet_v1.1 |77.64 |43.67 |25.72 |69.91 |40.66 |24.62 +mnasnet |61.86 |34.62 |22.68 |59.61 |32.79 |19.56 + +## caffe model + +骁龙855|armv7 | | |armv8 | | | +----| ---- | ---- | ---- | ---- |---- |----| +threads num|1 |2 |4 |1 |2 |4 | +mobilenet_v1 |32.42 |18.68 |10.86 |30.92 |18.35 |10.07 | +mobilenet_v2 |29.53 |17.76 |10.89 |27.19 |16.53 |9.75 | +shufflenet_v2 |4.61 |3.29 |2.61 |4.36 |3.11 |2.51 | + + +骁龙835|armv7 | | |armv8 | | | +----| ---- | ---- | ---- | ---- |---- |----| +threads num|1 |2 |4 |1 |2 |4 | +mobilenet_v1 |92.52 |52.34 |30.37 |88.31 |49.75 |27.29 | +mobilenet_v2 |79.50 |45.67 |28.79 |76.13 |44.01 |26.13 | +shufflenet_v2 |10.94 |7.08 |5.16 |10.64 |6.83 |5.01 | + + +麒麟980|armv7 | | |armv8 | | | +----| ---- | ---- | ---- | ---- |---- |----| +threads num|1 |2 |4 |1 |2 |4 | +mobilenet_v1 |55.36 |28.18 |13.31 |34.42 |17.93 |12.52 | +mobilenet_v2 |49.17 |26.10 |65.49 |30.50 |16.66 |11.72 | +shufflenet_v2 |8.45 |5.00 |15.65 |4.58 |3.14 |2.83 | + + +麒麟970|armv7 | | |armv8 | | | +----| ---- | ---- | ---- | ---- |---- |----| +threads num|1 |2 |4 |1 |2 |4 | +mobilenet_v1 |97.85 |53.38 |33.85 |94.29 |49.42 |28.29 | +mobilenet_v2 |87.40 |50.25 |31.85 |85.55 |48.11 |28.24 | +shufflenet_v2 |12.16 |8.39 |6.21 |12.21 |8.33 |6.32 | + +## int8量化模型测试数据 + +骁龙855|armv7 | | |armv8 | | | +----| ---- | ---- | ---- | ---- |---- |----| +threads num|1 |2 |4 |1 |2 |4 | +mobilenet_v1 |36.80 |21.58 |11.12 | 14.01 |8.13 |4.32 | +mobilenet_v2 |28.72 |19.08 |12.49 | 17.24 |11.55 |7.82 | + +骁龙835|armv7 | | |armv8 | | | +----| ---- | ---- | ---- | ---- |---- |----| +threads num|1 |2 |4 |1 |2 |4 | +mobilenet_v1 |60.76 |32.25 |16.66 |56.57 |29.84 |15.24 | +mobilenet_v2 |49.38 |31.10 |22.07 |47.52 |28.18 |19.24 | + + +麒麟970|armv7 | | |armv8 | | | +----| ---- | ---- | ---- | ---- |---- |----| +threads num|1 |2 |4 |1 |2 |4 | +mobilenet_v1 |65.95 |34.39 |18.68 |60.86 |30.98 |16.31 | +mobilenet_v2 |68.87 |39.39 |24.43 |65.57 |37.31 |20.87 | diff --git a/_all_pages/develop/fpga.md b/_all_pages/develop/fpga.md index a7cd107bb9..f8eb53c613 100644 --- a/_all_pages/develop/fpga.md +++ b/_all_pages/develop/fpga.md @@ -1,25 +1,24 @@ --- layout: post -title: Lite基于FPGA的模型预测 +title: Lite基于fpga的模型预测 --- -Paddle Lite支持基于arm的FPGA zu3/zu5/zu9的模型预测,提供armv8的交叉编译 +Paddle Lite支持基于arm的fpga zu3/zu5/zu9的模型预测,提供armv8的交叉编译 -Lite基于FPGA运行模型需要相应的FPGA驱动,目前只支持百度[Edgeboard开发板](https://ai.baidu.com/tech/hardware/deepkit) +Lite基于fpga运行模型需要相应的fpga驱动,目前只支持百度edgeboard开发板 -# Lite实现FPGA简介 +**Lite实现fpga简介** -Lite支持FPGA作为后端硬件进行模型推理,其主要特性如下: +Lite支持fpga作为后端硬件进行模型推理,其主要特性如下: -- Lite中FPGA的kernel(feed、fetch除外)均以FP16、NHWC的格式作为输入输出格式,所有的weights和bias仍为FP32、NCHW的格式,feed的输入和fetch的输出均为FP32、NCHW格式的数据,在提升计算速度的同时能做到用户对数据格式无感知 +- Lite中fpga的kernel(feed、fetch除外)均以FP16、NHWC的格式作为输入输出格式,所有的weights和bias仍为FP32、NCHW的格式,feed的输入和fetch的输出均为FP32、NCHW格式的数据,在提升计算速度的同时能做到用户对数据格式无感知 -- 对于FPGA暂不支持的kernel,均会切回arm端运行,实现arm+FPGA混合布署运行 - -- 目前FPGA成本功耗都较低,Lite基于FPGA的模型性能远远好于arm端,可作为边缘设备首选硬件 +- 对于fpga暂不支持的kernel,均会切回arm端运行,实现arm+fpga混合布署运行 +- 目前fpga成本功耗都较低,Lite基于fpga的模型性能远远好于arm端,可作为边缘设备首选硬件 # 编译 -需要提前准备带有FPGAdrv.ko的FPGA开发板(如edgeboard开发板)和Lite代码 +需要提前准备带有fpgadrv.ko的fpga开发板(如edgeboard开发板)和Lite代码 CMAKE编译选项: @@ -42,7 +41,7 @@ CMAKE编译选项: -DARM_TARGET_OS=armlinux make publish_inference -j2 ``` -Lite提供FPGA编译脚本,位于lite/tools/build_FPGA.sh,在Lite根目录执行该脚本即可编译 +Lite提供fpga编译脚本,位于lite/tools/build_fpga.sh,在Lite根目录执行该脚本即可编译 # 运行示例 @@ -56,33 +55,33 @@ screen /dev/cu.SLAB_USBtoUART 115200 #查看开发板ip并ssh登录到开发板,假设开发板ip为192.0.1.1 [本机执行] ssh root@192.0.1.1 -#在开发板上建立目录workspace,拷贝FPGA驱动FPGAdrv.ko到workspace目录 [开发板执行] -mkdir workspace && scp $DRIVER_PATH/FPGAdrv.ko workspace +#在开发板上建立目录workspace,拷贝fpga驱动fpgadrv.ko到workspace目录 [开发板执行] +mkdir workspace && scp $DRIVER_PATH/fpgadrv.ko workspace #将Lite中编译好的测试程序拷贝到开发板workspace目录 [本机执行] -scp $LITE_ROOT/build_FPGA/lite/api/test_resnet50_FPGA root@$EDGEBOARD_IP:workspace/ +scp $LITE_ROOT/build_fpga/lite/api/test_resnet50_fpga root@$EDGEBOARD_IP:workspace/ #把Resnet50的模型和参数scp到开发板workspace目录 [本机执行] -scp -r $LITE_ROOT/build_FPGA/lite/third_party/install/resnet50/ root@$EDGEBOARD_IP:workspace/ +scp -r $LITE_ROOT/build_fpga/lite/third_party/install/resnet50/ root@$EDGEBOARD_IP:workspace/ -#在运行模型前需要加载FPGA驱动 [开发板执行] -insmod FPGAdrv.ko +#在运行模型前需要加载fpga驱动 [开发板执行] +insmod fpgadrv.ko #给测试程序添加可运行权限 [开发板执行] -chmod +x test_resnet50_FPGA +chmod +x test_resnet50_fpga ``` -- **使用FPGA进行模型预测** +- **使用fpga进行模型预测** ```bash #以下命令均在开发板上运行 #直接运行单测程序 -./test_resnet50_FPGA --model_dir=resnet50 +./test_resnet50_fpga --model_dir=resnet50 #如果需要测试性能,可以用repeats参数设置模型运行次数(如1000),同时可以设置预热次数(如10)来让硬件事先运行到稳定水平 -./test_resnet50_FPGA --model_dir=resnet50 --repeats=1000 --warmup=10 +./test_resnet50_fpga --model_dir=resnet50 --repeats=1000 --warmup=10 ``` # 如何在Code中使用 -在Lite中使用FPGA与ARM相似,具体的区别如下: +在Lite中使用fpga与ARM相似,具体的区别如下: - 由于fpga运行模式为fp16精度、nhwc布局,所以需要修改相应的`valid_place` - fpga不需要device的初始化和运行模式设置 diff --git a/_all_pages/develop/library_tailoring.md b/_all_pages/develop/library_tailoring.md index 98420c09a9..c4024e8d66 100644 --- a/_all_pages/develop/library_tailoring.md +++ b/_all_pages/develop/library_tailoring.md @@ -9,7 +9,7 @@ title: 裁剪预测库方法 Paddle-Lite支持**根据模型裁剪预测库**功能。Paddle-Lite的一般编译会将所有已注册的operator打包到预测库中,造成库文件体积膨胀;**裁剪预测库**能针对具体的模型,只打包优化后该模型需要的operator,有效降低预测库文件大小。 -## 效果展示 +## 效果展示(Tiny_publish Android动态预测库体积) | 测试模型 | 裁剪开关 | **libpaddle_lite_jni.so** |转化后模型中的OP| | ------------------ | ---------------------------- | -------- |------------------| @@ -22,6 +22,11 @@ Paddle-Lite支持**根据模型裁剪预测库**功能。Paddle-Lite的一般编 | yolov3(armv7) | 裁剪前--build_tailor=OFF | 938K |feed,fetch,concat,conv2d,depthwise_conv2d,multiclass_nms,nearest_interp,transpose2,yolo_box| | yolov3(armv7) | 裁剪后--build_tailor=ON |516K |feed,fetch,concat,conv2d,depthwise_conv2d,multiclass_nms,nearest_interp,transpose2,yolo_box| + + + + + ## 实现过程: diff --git a/_all_pages/develop/source_compile.md b/_all_pages/develop/source_compile.md index 118d39ddc5..ad8ae4c5ca 100644 --- a/_all_pages/develop/source_compile.md +++ b/_all_pages/develop/source_compile.md @@ -168,8 +168,8 @@ wget -c https://mms-res.cdn.bcebos.com/cmake-3.10.3-Linux-x86_64.tar.gz && \ ```shell # 1. Install basic software apt update -apt-get install -y --no-install-recommends \ - gcc g++ git make wget python unzip +apt-get install -y --no-install-recomends \ + gcc g++ make wget python unzip # 2. install cmake 3.10 or above wget https://www.cmake.org/files/v3.10/cmake-3.10.3.tar.gz @@ -259,7 +259,7 @@ git checkout ### 编译代码 -**注意**:非开发者建议在编译前使用[**“加速第三方依赖库的下载”**](#加速第三方依赖库的下载)的方法,加速工程中第三方依赖库的下载与编译。 +**注意**:非开发者建议在编译前使用[**“加速第三方依赖库的下载”**](#加速第三方依赖库的下载)的方法,加速工程中第三方依赖库的下载与编译。 #### 编译`tiny publish`动态库 @@ -290,7 +290,6 @@ ios tiny publish支持的编译选项: sudo xcode-select -s /Applications/Xcode.app/Contents/Developer ``` ##### ARMLinux - ```shell ./lite/tools/build.sh \ --arm_os=armlinux \ @@ -311,7 +310,6 @@ sudo xcode-select -s /Applications/Xcode.app/Contents/Developer --android_stl=c++_static \ full_publish ``` - ##### ARMLinux ```shell ./lite/tools/build.sh \ diff --git a/_all_pages/develop/support_hardware.md b/_all_pages/develop/support_hardware.md index 5f81ff031a..dca3e39b9e 100644 --- a/_all_pages/develop/support_hardware.md +++ b/_all_pages/develop/support_hardware.md @@ -4,7 +4,9 @@ title: 支持硬件列表 --- ## ARM CPU + Paddle Lite支持[ARM Cortex-A系列处理器](https://en.wikipedia.org/wiki/ARM_Cortex-A),支持列表如下: + ### 32bit(ARMv7a) - Cortex-A5 - Cortex-A7 @@ -14,6 +16,7 @@ Paddle Lite支持[ARM Cortex-A系列处理器](https://en.wikipedia.org/wiki/ARM - Cortex-A15 - Cortex-A17(RK3288) - Cortex-A32 + ### 64bit(ARMv7a, ARMv8a) - Cortex-A35 - Cortex-A53(树莓派3) @@ -30,4 +33,4 @@ Paddle Lite支持[ARM Cortex-A系列处理器](https://en.wikipedia.org/wiki/ARM Paddle Lite支持移动端GPU和Nvidia端上GPU设备,支持列表如下: - ARM Mali G 系列 - Qualcomm Adreno 系列 -- Nvida tegra系列: tx1, tx2, nano, xavier +- Nvidia tegra系列: tx1, tx2, nano, xavier diff --git a/index.md b/index.md index d8db7dfa5f..5cceda896b 100644 --- a/index.md +++ b/index.md @@ -3,60 +3,62 @@ layout: post title: Paddle-Lite文档 --- -> 版本:v2.0.0 +> 版本:v2.1.0 Paddle-Lite 框架是 PaddleMobile 新一代架构,重点支持移动端推理预测,特点**高性能、多硬件、轻量级** 。支持PaddleFluid/TensorFlow/Caffe/ONNX模型的推理部署,目前已经支持 ARM CPU, Mali GPU, Adreno GPU, Huawei NPU 等多种硬件,正在逐步增加 X86 CPU, Nvidia GPU 等多款硬件,相关硬件性能业内领先。 ## 简介 -- [技术特点]({{site.baseurl}}/v2.0.0/tech_highlights) -- [架构设计]({{site.baseurl}}/v2.0.0/architecture) -- [支持的硬件]({{site.baseurl}}/v2.0.0/support_hardware) -- [Road Map]({{site.baseurl}}/v2.0.0/roadmap) +- [技术特点]({{site.baseurl}}/v2.1.0/tech_highlights) +- [架构设计]({{site.baseurl}}/v2.1.0/architecture) +- [支持的硬件]({{site.baseurl}}/v2.1.0/support_hardware) +- [Road Map]({{site.baseurl}}/v2.1.0/roadmap) ## Benchmark -- [最新性能]({{site.baseurl}}/v2.0.0/benchmark) -- [测试方法]({{site.baseurl}}/v2.0.0/benchmark_tools) +- [最新性能]({{site.baseurl}}/v2.1.0/benchmark) +- [测试方法]({{site.baseurl}}/v2.1.0/benchmark_tools) ## 安装 -- [源码编译]({{site.baseurl}}/v2.0.0/source_compile) +- [源码编译]({{site.baseurl}}/v2.1.0/source_compile) ## 使用 -- [使用流程]({{site.baseurl}}/v2.0.0/tutorial) -- [C++实例]({{site.baseurl}}/v2.0.0/cpp_demo) -- [Java实例]({{site.baseurl}}/v2.0.0/java_demo) -- [Demos: Android/IOS APP, ArmLinux(树莓派)](https://github.com/PaddlePaddle/Paddle-Lite-Demo) -- [模型转化方法]({{site.baseurl}}/v2.0.0/model_optimize_tool) -- [根据模型裁剪预测库方法]({{site.baseurl}}/v2.0.0/library_tailoring) +- [使用流程]({{site.baseurl}}/v2.1.0/tutorial) +- [C++实例]({{site.baseurl}}/v2.1.0/cpp_demo) +- [Java实例]({{site.baseurl}}/v2.1.0/java_demo) +- [Android/IOS APP demo](https://github.com/PaddlePaddle/Paddle-Lite-Demo) +- [模型转化方法]({{site.baseurl}}/v2.1.0/model_optimize_tool) +- [根据模型裁剪预测库方法]({{site.baseurl}}/v2.1.0/library_tailoring) ## 进阶 -- [通过 X2Paddle 支持 Caffe, TensorFlow , ONNX 模型]({{site.baseurl}}/v2.0.0/x2paddle) -- [X2Paddle 支持模型列表]({{site.baseurl}}/v2.0.0/x2paddle_models_doc) -- [模型量化]({{site.baseurl}}/v2.0.0/model_quantization) -- [支持Op列表]({{site.baseurl}}/v2.0.0/support_operation_list) -- [新增Op方法]({{site.baseurl}}/v2.0.0/add_new_operation) -- [测试工具]({{site.baseurl}}/v2.0.0/test_tools) -- [调试方法]({{site.baseurl}}/v2.0.0/debug_tools) -- [使用华为NPU]({{site.baseurl}}/v2.0.0/npu) -- [使用Android GPU]({{site.baseurl}}/v2.0.0/opencl) -- [使用FPGA]({{site.baseurl}}/v2.0.0/fpga) -- [使用CUDA]({{site.baseurl}}/v2.0.0/cuda) -- [使用X86预测库]({{site.baseurl}}/v2.0.0/x86) +- [通过 X2Paddle 支持 Caffe, TensorFlow , ONNX 模型]({{site.baseurl}}/v2.1.0/x2paddle) +- [X2Paddle 支持模型列表]({{site.baseurl}}/v2.1.0/x2paddle_models_doc) +- [模型量化]({{site.baseurl}}/v2.1.0/model_quantization) +- [支持Op列表]({{site.baseurl}}/v2.1.0/support_operation_list) +- [新增Op方法]({{site.baseurl}}/v2.1.0/add_new_operation) +- [新增Pass方法]({{site.baseurl}}/v2.1.0/add_new_pass) +- [测试工具]({{site.baseurl}}/v2.1.0/test_tools) +- [调试方法]({{site.baseurl}}/v2.1.0/debug_tools) +- [使用华为NPU]({{site.baseurl}}/v2.1.0/npu) +- [使用Android GPU]({{site.baseurl}}/v2.1.0/opencl) +- [使用FPGA]({{site.baseurl}}/v2.1.0/fpga) +- [使用CUDA]({{site.baseurl}}/v2.1.0/cuda) +- [使用X86预测库]({{site.baseurl}}/v2.1.0/x86) +- [CV图像预处理库]({{site.baseurl}}/v2.1.0/cv) ## 开发者文档 -- [开发基础须知]({{site.baseurl}}/v2.0.0/for-developer) -- [架构详解]({{site.baseurl}}/v2.0.0/architecture-intro) +- [开发基础须知]({{site.baseurl}}/v2.1.0/for-developer) +- [架构详解]({{site.baseurl}}/v2.1.0/architecture-intro) ## API文档 -- [C++ API文档]({{site.baseurl}}/v2.0.0/cxx_api_doc) -- [Java API文档]({{site.baseurl}}/v2.0.0/java_api_doc) -- [Python API文档]({{site.baseurl}}/v2.0.0/python_api_doc) +- [C++ API文档]({{site.baseurl}}/v2.1.0/cxx_api_doc) +- [Java API文档]({{site.baseurl}}/v2.1.0/java_api_doc) +- [Python API文档]({{site.baseurl}}/v2.1.0/python_api_doc) ## FAQ @@ -65,14 +67,14 @@ Paddle-Lite 框架是 PaddleMobile 新一代架构,重点支持移动端推理 ## paddle-mobile -- [paddle-mobile 编译]({{site.baseurl}}/v2.0.0/mobile) +- [paddle-mobile 编译]({{site.baseurl}}/v2.1.0/mobile) ## 以前文档 - [v2.0.0-beta1]({{site.baseurl}}/v2.0.0-beta1/index) - [v2.0.0-rc]({{site.baseurl}}/v2.0.0-rc/index) +- [v2.0.0]({{site.baseurl}}/v2.0.0/index) ## 其他文档 - [Develop]({{site.baseurl}}/develop/index) -- [v2.1.0]({{site.baseurl}}/v2.1.0/index) -- GitLab