TensorRT 子图预测是否支持 FP16?
Created by: mzchtx
原生 TensorRT 在很早之前的版本(如 TensorRT 4)中已经支持 FP16 预测,但是由于厂内普遍用的 GPU 不支持 FP16 预测,所以也基本没有应用。然而当前厂内厂外一些新的 GPU 都开始支持 FP16,相比于 INT8,FP16 的损失更小、更可控,是否能够提供对 FP16 预测的支持?
如下为 T4 GPU 的 FP16 算力:
- T4 的 CUDA Core:
- FP32:8.1 TFLOPs
- FP16:16.2 TFLOPs
- T4 的 Tensor Core:
- FP16:65 TFLOPs
在 T4 上使用 TensorRT6 + ResNet101 做了简单实验,FP16 的吞吐至少可以达到 FP32 的 4-5 倍。