Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
MegEngine 天元
Docs
提交
7e44f19f
D
Docs
项目概览
MegEngine 天元
/
Docs
通知
3
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
Docs
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
7e44f19f
编写于
7月 08, 2020
作者:
X
Xinran Xu
提交者:
Xu Xinran
7月 08, 2020
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update inference_in_nvidia_gpu spelling
上级
a4a8fb96
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
5 addition
and
3 deletion
+5
-3
source/advanced/inference_in_nvidia_gpu.rst
source/advanced/inference_in_nvidia_gpu.rst
+5
-3
未找到文件。
source/advanced/inference_in_nvidia_gpu.rst
浏览文件 @
7e44f19f
...
...
@@ -3,9 +3,9 @@
NVIDIA GPU测试量化模型性能
===================================
MegEngine 在 NVIDIA GPU
方面做了很多深度优化,保证了模型推理高性能的执行,同时支持 NVIDIA 多种GPU硬件,如服务器端常用的 P4,
T4,以及嵌入式端的 Jetson TX2、TX1 等。
MegEngine 在 NVIDIA GPU
方面做了很多深度优化,保证了模型推理高性能的执行,同时支持 NVIDIA 多种 GPU 硬件,如服务器端常用的 P4、
T4,以及嵌入式端的 Jetson TX2、TX1 等。
Turing 架构是 NVIDIA 推出的最新计算架构,Turing 架构的芯片引入了 TensorCore int8 计算单元,能够对 int8 量化模型进行进一步加速。目前 Turing 架构的 GPU 显卡型号有 2080Ti
,
T4 等,如果是在这些平台进行深度学习的推理部署,可以采用 TensorCore 来加速。
Turing 架构是 NVIDIA 推出的最新计算架构,Turing 架构的芯片引入了 TensorCore int8 计算单元,能够对 int8 量化模型进行进一步加速。目前 Turing 架构的 GPU 显卡型号有 2080Ti
、
T4 等,如果是在这些平台进行深度学习的推理部署,可以采用 TensorCore 来加速。
下文基于 load_and_run 工具(详见: :ref:`how_to_use_load_and_run`),在 2080Ti 平台上阐述 MegEngine 量化模型的推理步骤。
...
...
@@ -18,6 +18,8 @@ MegEngine 提供了自动转换工具来使用 int8 的 TensorCore。用户首
2. 基于 `cuDNN <https://developer.nvidia.com/cudnn>`_
3. 基于自研的CHWN4 layout的算法
以上三种方案在不同模型上性能各有优劣,用户可以自行尝试自己的网络在哪种模式下运行的更快,来决定使用哪种模型来运行。
模型准备
------------------------------------
...
...
@@ -169,7 +171,7 @@ load_and_run 可以通过 ``--enable-nchw32`` 这个选项开启layout转换。
基于自研的 CHWN4
-----------------------------------------
除了前面两种基于 NVIDIA 的
sdk
来加速 CUDA 上推理,MegEngine 内部针对 Tensorcore 自研了 CHWN4 的 layout 的算法,这种 layout 主要针对 MegEngine 内部自定义或者非标准的算子(如 BatchConv, GroupLocal 等)开发的,同时也支持标准的卷积算子。因为这种格式优先存放 batch 维的数据。在 batch size 较大的情况下,能很好地提升算子在 GPU 平台的性能。
除了前面两种基于 NVIDIA 的
SDK
来加速 CUDA 上推理,MegEngine 内部针对 Tensorcore 自研了 CHWN4 的 layout 的算法,这种 layout 主要针对 MegEngine 内部自定义或者非标准的算子(如 BatchConv, GroupLocal 等)开发的,同时也支持标准的卷积算子。因为这种格式优先存放 batch 维的数据。在 batch size 较大的情况下,能很好地提升算子在 GPU 平台的性能。
开启方式类似,只需要传入 ``--enable-chwn4`` 即可。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录