# MobileviT --- ## 目录 * [1. 概述](#1) * [2. 精度、FLOPs 和参数量](#2) ## 1. 概述 MobileViT 是一个轻量级的视觉 Transformer 网络,可以用作计算机视觉领域的通用骨干网路。 MobileViT 结合了 CNN 和 Transformer 的优势,可以更好的处理全局特征和局部特征,更好地解决 Transformer 模型缺乏归纳偏置的问题,最终,在同样参数量下,与其他 SOTA 模型相比,在图像分类、目标检测、语义分割任务上都有大幅提升。[论文地址](https://arxiv.org/pdf/2110.02178.pdf)。 ## 2. 精度、FLOPs 和参数量 | Models | Top1 | Top5 | Reference
top1 | Reference
top5 | FLOPs
(M) | Params
(M) | |:--:|:--:|:--:|:--:|:--:|:--:|:--:| | MobileViT_XXS | 0.6867 | 0.8878 | 0.690 | - | 337.24 | 1.28 | | MobileViT_XS | 0.7454 | 0.9227 | 0.747 | - | 930.75 | 2.33 | | MobileViT_S | 0.7814 | 0.9413 | 0.783 | - | 1849.35 | 5.59 |