文件 · develop · PaddlePaddle / Paddle-Lite · GitCode



Paddle Lite
English | 简体中文
      
Paddle Lite是一个高性能、轻量级、灵活性强且易于扩展的深度学习推理框架，定位支持包括移动端、嵌入式以及服务器端在内的多硬件平台。
当前Paddle Lite不仅在百度内部业务中得到全面应用，也成功支持了众多外部用户和企业的生产任务。

快速入门
使用Paddle Lite，只需几个简单的步骤，就可以把模型部署到多种终端设备中，运行高性能的推理任务，使用流程如下所示：
一. 准备模型
Paddle Lite框架直接支持模型结构为PaddlePaddle深度学习框架产出的模型格式。目前PaddlePaddle用于推理的模型是通过save_inference_model这个API保存下来的。
如果您手中的模型是由诸如Caffe、Tensorflow、PyTorch等框架产出的，那么您可以使用 X2Paddle 工具将模型转换为PadddlePaddle格式。
二. 模型优化
Paddle Lite框架拥有优秀的加速、优化策略及实现，包含量化、子图融合、Kernel优选等优化手段。优化后的模型更轻量级，耗费资源更少，并且执行速度也更快。
这些优化通过Paddle Lite提供的opt工具实现。opt工具还可以统计并打印出模型中的算子信息，并判断不同硬件平台下Paddle Lite的支持情况。您获取PaddlePaddle格式的模型之后，一般需要通该opt工具做模型优化。opt工具的下载和使用，请参考 模型优化方法。
三. 下载或编译
Paddle Lite提供了Android/iOS/X86平台的官方Release预测库下载，我们优先推荐您直接下载 Paddle Lite预编译库。
您也可以根据目标平台选择对应的源码编译方法。Paddle Lite 提供了源码编译脚本，位于 lite/tools/文件夹下，只需要 准备环境 和 调用编译脚本 两个步骤即可一键编译得到目标平台的Paddle Lite预测库。
四. 预测示例
Paddle Lite提供了C++、Java、Python三种API，并且提供了相应API的完整使用示例:

C++完整示例
Java完整示例
Python完整示例

您可以参考示例中的说明快速了解使用方法，并集成到您自己的项目中去。
针对不同的硬件平台，Paddle Lite提供了各个平台的完整示例：


Android示例 [图像分类]  [目标检测] [口罩检测]  [人脸关键点] [人像分割]

iOS示例
ARMLinux示例
X86示例
OpenCL示例
FPGA示例
华为NPU示例
百度XPU示例
瑞芯微NPU示例
联发科APU示例


主要特性


多硬件支持：

Paddle Lite架构已经验证和完整支持从 Mobile 到 Server 多种硬件平台，包括 ARM CPU、Mali GPU、Adreno GPU、华为 NPU，以及 FPGA 等，且正在不断增加更多新硬件支持。
各个硬件平台的 Kernel 在代码层和执行层互不干扰，用户不仅可以自由插拔任何硬件，还支持任意系统可见硬件之间的混合调度。


轻量级部署：

Paddle Lite在设计上对图优化模块和执行引擎实现了良好的解耦拆分，移动端可以直接部署执行阶段，无任何第三方依赖。
包含完整的80个 op+85个 Kernel 的动态库，对于ARMV7只有800K，ARMV8下为1.3M，并可以通过裁剪预测库进一步减小预测库文件大小。


高性能：

极致的 ARM CPU 性能优化：针对不同微架构特点实现kernel的定制，最大发挥计算性能，在主流模型上展现出领先的速度优势。
支持 PaddleSlim模型压缩工具：支持量化训练、离线量化等多种量化方式，最优可在不损失精度的前提下进一步提升模型推理性能。性能数据请参考 benchmark。


多模型多算子：

Paddle Lite和PaddlePaddle训练框架的OP对齐，提供广泛的模型支持能力。
目前已严格验证24个模型200个OP的精度和性能，对视觉类模型做到了较为充分的支持，覆盖分类、检测和定位，包含了特色的OCR模型的支持，并在不断丰富中。具体请参考支持OP。


强大的图分析和优化能力：

不同于常规的移动端预测引擎基于 Python 脚本工具转化模型， Lite 架构上有完整基于 C++ 开发的 IR 及相应 Pass 集合，以支持操作熔合，计算剪枝，存储优化，量化计算等多类计算图优化。更多的优化策略可以简单通过 新增 Pass 的方式模块化支持。


持续集成


System
X86 Linux
ARM Linux
Android (GCC/Clang)
iOS


CPU(32bit)


CPU(64bit)


OpenCL
-
-

-


FPGA
-

-
-


华为NPU
-
-

-


百度 XPU


-
-


RK NPU
-
-

-


MTK APU
-
-

-


架构设计
Paddle Lite 的架构设计着重考虑了对多硬件和平台的支持，并且强化了多个硬件在一个模型中混合执行的能力，多个层面的性能优化处理，以及对端侧应用的轻量化设计。

其中，Analysis Phase 包括了 MIR(Machine IR) 相关模块，能够对原有的模型的计算图针对具体的硬件列表进行算子融合、计算裁剪 在内的多种优化。Execution Phase 只涉及到Kernel 的执行，且可以单独部署，以支持极致的轻量级部署。

进一步了解Paddle Lite
如果您想要进一步了解Paddle Lite，下面是进一步学习和使用Paddle-Lite的相关内容：

文档和示例

完整文档： Paddle Lite 文档

API文档：

C++ API文档
Java API文档
Python API文档
CV图像处理API文档


Paddle Lite工程示例： Paddle-Lite-Demo


关键技术

模型量化：

静态离线量化
动态离线量化
量化训练


调试分析：调试和性能分析工具

移动端模型训练：点击了解一下

飞桨预训练模型库：试试在PaddleHub浏览和下载Paddle的预训练模型


FAQ

FAQ：常见问题，可以访问FAQ、搜索Issues、或者通过页面底部的联系方式联系我们
###贡献代码
贡献代码：如果您想一起参与Paddle Lite的开发，贡献代码，请访问开发者共享文档


交流与反馈

欢迎您通过Github Issues来提交问题、报告与建议
技术交流QQ群: 一群696965088（已满） ；二群，959308808

     
     微信公众号                官方技术交流QQ群

版权和许可证
Paddle-Lite由Apache-2.0 license提供