Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
Oneflow-Inc
OneFlow-Benchmark
提交
f2e8635f
O
OneFlow-Benchmark
项目概览
Oneflow-Inc
/
OneFlow-Benchmark
上一次同步 2 年多
通知
1
Star
92
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
O
OneFlow-Benchmark
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
f2e8635f
编写于
2月 17, 2020
作者:
H
hjchen2
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
update int8 benchmark
上级
8b1af84e
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
23 addition
and
17 deletion
+23
-17
cnn_benchmark/benchmark.md
cnn_benchmark/benchmark.md
+23
-17
未找到文件。
cnn_benchmark/benchmark.md
浏览文件 @
f2e8635f
## Inference
[TOC]
# Inference
测试平台:Nvidia GTX2080Ti单卡.
CUDA版本:10.0
...
...
@@ -13,13 +15,13 @@ Oneflow:
branch: of_xrt_tensorrt
commit: 726c3a12b9d97b57f9fb7e3d212b63564e20e755
##
#
CV
## CV
###
#
Speed
### Speed
输入图片大小为224 (inception-v3为299),预热5 batches,平均吞吐(img/s)为500个batches的平均值。
1.
batch size为8
####
1. batch size为8
>| - | Oneflow(fp32) | Oneflow(fp16) | TensorRT(fp32) | TensorRT(fp16) | TensorRT(int8) | TensorRT official(fp32) | TensorRT official(fp16) | TensorRT official(int8) |
>| ------------ | ------------- | ------------- | -------------- | -------------- | -------------- | ----------------------- | ----------------------- | ----------------------- |
...
...
@@ -40,17 +42,18 @@ commit: 726c3a12b9d97b57f9fb7e3d212b63564e20e755
2.
oneflow tensorrt没有支持batch normalization,导致整图被分割成多个tensorrt子图。如果oneflow tensorrt支持batch normalization,将减少4ms左右。但同时发现支持了batch normalization后,batch之间的空隙从几乎0ms增加到了5.32ms,导致即使支持了batch normalization后,吞吐并没有明显的变化。
3.
总结:如果对1、2优化后,理论上一个batch的耗时能达到 (10 - 4 =) 6ms。
-
Update 2019.12.24:所有source op都通过device tick代理到cpu tick,减少event次数。
-
Update 2019.12.24: 所有source op都通过device tick代理到cpu tick,减少event次数。
-
Update 2020.2.17: 增加int8 benchmark。
>| - | Oneflow(fp32) | Oneflow(fp16) | TensorRT(fp32) | TensorRT(fp16) | TensorRT(int8) | TensorRT official(fp32) | TensorRT official(fp16) | TensorRT official(int8) |
>| ------------ | ------------- | ------------- | -------------- | -------------- | -------------- | ----------------------- | ----------------------- | ----------------------- |
>| alexnet | 2692 | 2022 | 2679 | 4060 |
| | | |
>| vgg16 | 398 | 346 | 425 | 1200 |
| 470 | 1629 | |
>| resnet50 | 735 | 570 | 945 | 2120 |
| 1025 | 2500 | |
>| inception-v3 | 538 | 510 | 572 | 1356 |
| | | |
>| alexnet | 2692 | 2022 | 2679 | 4060 |
5896
| | | |
>| vgg16 | 398 | 346 | 425 | 1200 |
2054
| 470 | 1629 | |
>| resnet50 | 735 | 570 | 945 | 2120 |
3512
| 1025 | 2500 | |
>| inception-v3 | 538 | 510 | 572 | 1356 |
2094
| | | |
2.
batch size为50
####
2. batch size为50
>| - | Oneflow(fp32) | Oneflow(fp16) | TensorRT(fp32) | TensorRT(fp16) | TensorRT(int8) | TensorRT official(fp32) | TensorRT official(fp16) | TensorRT official(int8) |
>| ------------ | ------------- | ------------- | -------------- | -------------- | -------------- | ----------------------- | ----------------------- | ----------------------- |
...
...
@@ -60,22 +63,25 @@ commit: 726c3a12b9d97b57f9fb7e3d212b63564e20e755
>| inception-v3 | 544 | 531 | 717 | 1839 | | | | |
-
Update 2019.12.24:所有source op都通过device tick代理到cpu tick,减少event次数。
-
Update 2020.2.17: 增加int8 benchmark。
>| - | Oneflow(fp32) | Oneflow(fp16) | TensorRT(fp32) | TensorRT(fp16) | TensorRT(int8) | TensorRT official(fp32) | TensorRT official(fp16) | TensorRT official(int8) |
>| ------------ | ------------- | ------------- | -------------- | -------------- | -------------- | ----------------------- | ----------------------- | ----------------------- |
>| alexnet | 6568 | 3341 | 5030 | 9076 |
| | | |
>| vgg16 | 528 | 498 | 459 | 1638 |
| 498 | 1907 | |
>| resnet50 | 888 | 685 | 1262 | 3989 |
| 1302 | 3843 | |
>| inception-v3 | 698 | 589 | 797 | 2363 |
| | | |
>| alexnet | 6568 | 3341 | 5030 | 9076 |
14378
| | | |
>| vgg16 | 528 | 498 | 459 | 1638 |
2817
| 498 | 1907 | |
>| resnet50 | 888 | 685 | 1262 | 3989 |
8239
| 1302 | 3843 | |
>| inception-v3 | 698 | 589 | 797 | 2363 |
4022
| | | |
###
#
Precision
### Precision
总共5w张图片, 统计Top1 accuracy和相对oneflow fp32的分类误差数量。
-
Update 2020.2.17: 增加int8 benchmark。
>| - | Oneflow(fp32) | Oneflow(fp16) | TensorRT(fp32) | TensorRT(fp16) | TensorRT(int8) |
>| ------------ | ------------- | ------------- | -------------- | -------------- | -------------- |
>| vgg16 | 0.495 / 0 | 0.495 / 61 | 0.495 / 0 | 0.495 / 101 |
|
>| vgg16 | 0.495 / 0 | 0.495 / 61 | 0.495 / 0 | 0.495 / 101 |
0.493
|
>| alexnet | | | | | |
>| resnet50 | 0.613 / 0 | 0.613 / 59 | 0.613 / 0 | 0.613 / 130 |
|
>| resnet50 | 0.613 / 0 | 0.613 / 59 | 0.613 / 0 | 0.613 / 130 |
0.614
|
>| inception-v3 | | | | | |
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录