From 3bb1b4ef7da7ab0a6af25d6195041258d40603e6 Mon Sep 17 00:00:00 2001 From: MaoXianxin Date: Thu, 10 Jun 2021 09:52:05 +0800 Subject: [PATCH] =?UTF-8?q?=E6=97=A0=E7=9B=91=E7=9D=A3=E5=AD=A6=E4=B9=A0?= =?UTF-8?q?=E3=80=81=E5=A4=9A=E6=A8=A1=E6=80=81=E8=9E=8D=E5=90=88=EF=BC=81?= =?UTF-8?q?=E8=85=BE=E8=AE=AF=E4=BC=98=E5=9B=BE=E8=81=94=E5=90=88=E5=8E=A6?= =?UTF-8?q?=E9=97=A8=E5=A4=A7=E5=AD=A6=E5=8F=91=E5=B8=832021=E5=8D=81?= =?UTF-8?q?=E5=A4=A7=E4=BA=BA=E5=B7=A5=E6=99=BA=E8=83=BD=E8=B6=8B=E5=8A=BF?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 136 +++++++++++++++++++++++------------------------------- 1 file changed, 57 insertions(+), 79 deletions(-) diff --git a/README.md b/README.md index 790d1d7..791a644 100644 --- a/README.md +++ b/README.md @@ -1,79 +1,57 @@ -# 首次统一卷积与自注意力,X-volution发力网络核心基础架构创新 - -> 卷积和自注意力各有优势,但二者的有效结合一直是一大难题。为了取二者之长,提出了一种名为 X-volution 的新型算子。该算子在性能上的显著提升、计算的通用性与即插即用的特性为深度学习基础计算单元库以及 NPU 计算架构的演进提供了一种新的基础武器。 - -众所周知,卷积操作(convolution)与自注意力操作(self-attention)是深度学习两大核心的基础网络计算单元(或称为模型算子)。卷积操作通过线性乘子,提取图像局部特征;自注意力操作通过高阶乘子运算,提取图像全域 / 局部的特征关联特性。两种算子成为深度学习两大重要网络架构演化——CNN 与 Transformer 的计算基石。两种算子在图像特征提取与语义抽象方面的互补性不言而喻:线性 vs. 高阶, 局部 vs. 全局。因此,能否设计一种包含这两种操作的融合算子并使其发挥互补优势,一直是深度学习架构研究者热衷的研究方向之一。 - -然而,由于卷积运算与自注意力运算在计算模式上的异构性,这项任务存在巨大的挑战。目前学界中的一些工作也在努力统一两者,他们主要从拓扑结构组合角度来粗粒度地结合两种算子,例如,发表在 ICCV 2019 上的 AA-Net 采用了一种将卷积中部分通道替换为由 self-attention 来处理,然后将卷积和 self-attention 分别处理的特征连接来达到联合两种算子的目的,这种做法证明了卷积和 self-attention 结合后确实能在分类、检测、分割等基础任务上达到比较可观的性能收益。 - -然而,粗粒度的组合(本质上就是两路计算并联)会导致其组合后网络形态可用性下降。具体来说,卷积和 self-attention 运算模式存在较大差异,两者同时存在会导致网络结构不规则,进而影响网络推理效率,并不为目前一些工业界通用的芯片计算架构所友好支持。同时组合后的算子在算力上也存在巨大的挑战。 - -![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina1/20210609011721.png) - - - -论文链接:[https://arxiv.org/pdf/2106.02253.pdf](https://arxiv.org/pdf/2106.02253.pdf) - -针对这些挑战,日前,**团队在 arXiv 上发表了「X-volution: On the Unification of Convolution and Self-attention」**,首次在计算模式上统一了这两大基础算子,并在推理阶段归并成一个简单的卷积型算子:X-volution。 - -X-volution 兼顾卷积与自注意力操作的互补优势,并且在现有通用网络计算框架上不需要额外算子支持,也不增加除卷积外的额外算力或影响网络的规范性 / 可用性(即插即用)。 - -该工作的突破主要受以下思路的启发:对全局的 self-attention 进行理论分析后,研究者发现在一定条件下(例如图像 / 特征图的邻接像素满足马尔可夫性质),全局的 self-attention 可以通过局部的 self-attention 配合卷积运算来逼近。 - -具体来说,**本文作者提出了一种新型的 self-attention 机制——PSSA**。这种机制分为两个步骤:首先将输入的特征沿指定的多个方向进行循环移位(采用索引来实现)得到移位后的特征,然后将移位后的特征与原特征通过元素点积获得变换后的特征,再对该特征在局部区域进行加权求和(可采用卷积来替代),至此获得经过注意力机制处理后的特征。通过层次堆叠,可以持续地将局部的上下文关系传播到全局从而实现全局的 self-attention。 - -值得注意的是,PSSA 实际上将 self-attention 巧妙地转化为了一个在简单变换后的特征上的标准的卷积操作,这从形式上实现了 self-attention 向卷积的统一。利用此逼近式的 self-attention 机制,作者建立了一个多分枝的模块将卷积和 self-attention 整合在一起,这个模块从功能上实现了两者的统一。 - -更重要的是,这个多分枝的结构可以利用结构重参数化的方法进行有条件的合并。多分枝结构可以合并为单个卷积,合并后可以获得一个原子级的算子,称为 X-volution(X-volution 的权重可以看作一个静态卷积权重,以及一个内容相关动态卷积权重的和)。此算子同时具备了卷积和 self-attention 的特性,且不会影响网络的规范性 / 可用性。 - -作者在分类、检测、分割等主流 SOTA 实验上取得了显著的性能提升。 - -![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina1/20210609011819.png) - -*图 1,算子详细结构框图。受结构重参数化思想启发,X-volution 被设计为训练和推理阶段结构解耦的形式。它的训练结构时有两个主要分支(如中间所示),右分支由级联的卷积和 BN 构成,可为 X-volution 集成卷积的能力。左边包括 PSSA,它提供近似的全局自注意力特性。完成训练后,X-volution 可以有条件地重新参数化为一个卷积操作。在推理阶段,X-volution 实际上是一个动态卷积算子,它的权重包括需要在线计算的 attention 动态参数部分和已经训练和固化的卷积静态参数部分。* - -## 实验部分 - -作者将 X-volution 接入到经典的 ResNet 模型中用于 ImageNet 分类、MS COCO 物体检测、实例分割等关键基础任务并都取得了不俗的提升。为了排除其他因素干扰,实验中作者所使用的 self-attention 和 PSSA 都没有添加位置编码,并且没有对数据集进行额外的增广,没有使用额外的训练技巧(如:余弦退火、标签平滑等)。 - -**ImageNet 分类实验** - -对于 ImageNet 图片分类实验,作者分别测试了在 ResNet 中三个不同位置接入 X-volution 的结果。将 X-volution 接入到常规的 ResNet 第五阶段瓶颈单元的结果如表 1 所示:在 ResNet-34 与 ResNet-50 中均提升不明显,这是因为在此阶段的特征图尺寸已经接近卷积核大小。实验发现在第三阶段效果最为突出,分别取得了 1.2% 与 0.9% 的显著提升。值得注意的是,作者对于 ResNet 改动较小,但是性能却依然能有大幅度的提升,这证实了文中所提出的 X-volution 算子具有良好的性能。 - -![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina1/20210609011912.png) - - - -![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina1/20210609012201.png) - -*表 1. ImageNet 实验结果及瓶颈单元详细结构* - -**MS COCO 物体检测及实例分割实验** - -作者进一步在更复杂的目标检测和实例分割上验证所提出的算子的有效性。他们的实验模型是用 X-volution 增强的 ResNet-50,具体是替换了 ResNet-50 最后一个阶段的三个瓶颈单元。为了充分的对比,作者展示了两种形态的 X-volution,如表 2 和表 3 所示:X-volution(SA) 表示的是卷积与 global self-attention 结合,这种形态是为了验证 X-volution 采用的卷积和 self-attention 结合模式的可行性;X-volution 则表示卷积和 PSSA 直接结合的形式,其为了检验所提出的 PSSA 的可行性。 - -![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina1/20210609012000.png) - -*表 2:MS COCO 物体检测实验结果* - -![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina1/20210609012030.png) - -*表 3:MS COCO 实例分割实验结果* - -从表 2 与表 3 可以看出,两种 X-volution 模式都获得了大幅度的性能提升。其中,X-volution(SA) 更为明显,这说明卷积和 self-attention 的互补对性能提升具有重大意义。而采用 PSSA 的 X-volution 性能也非常不俗,基本与 self-attention 性能相当,这也验证了采用 PSSA 逼近 self-attention 是有效且合理的。 - -**消融实验** - -最后,作者详细研究了卷积部分和 self-attention 部分对于算子性能的影响。他们改变卷积部分的滤波核的尺寸大小,其性能变化结果如图 2(a)。可以看到当卷积核设置为 1 时候,单纯的卷积算子性能退化非常严重,而此时的 X-volution 依然能取得 39.1 的平均准确率。当卷积核逐步增大后,纯卷积的网络性能先升后降,而对应的 X-volution 算子也呈同样趋势,但一直保持着对于单纯卷积的性能优势。其中,当卷积核为 7 时候性能最好。从这个结果可以得知,卷积在两者间起到了较大的作用,这一点也与 AA-Net 结论相同。由于学习参数较多,卷积的作用也比较突出。 - -![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina1/20210609012056.png) - -*图 2,(a) 研究不同卷积核对于性能的影响;(b) 不同形态算子的优化性能比较。* - -在图 2(b) 中,研究者展示了卷积、PSSA 和 X-volution 三种算子在 MS COCO 目标检测上的收敛曲线。可以看到,卷积在最开始时性能优于 X-volution 和 PSSA;而经过 3 个周期训练后,X-volution 开始超越卷积,但是作为self-attention的逼近形式,PSSA在前9个周期收敛性能稍弱于卷积。其后,X-volution 一直保持显著的领先。PSSA 则在 10 个周期后与卷积相当或略好于卷积。这组曲线证实了卷积的局部归纳偏置对于其训练是有明显的帮助,而低偏置的 self-attention 则收敛显著慢于卷积,但经过较长时间训练后可以超越卷积。将两者整合的 X-volution 则兼备了卷积和 self-attention 的特性,同时展现了优秀的优化特性和良好的性能。 - -## 总结 - -作者在文中提出了一种新型的算子——X-volution,整合了卷积和 self-attention 的互补特性。同时,他们从 self-attention 的公式中导出了一种巧妙的全局自注意力的逼近形式——PSSA。作者通过在分类、目标检测、实例分割等任务中的优秀表现证实了所提出的算子的有效性。实验也揭露了卷积与 self-attention 的配合确实能较为显著地提升性能,并且两者达到了实质上的特性互补。该新型算子在性能上的显著提升、计算的通用性与即插即用性方面的巨大优势,为深度学习基础计算单元库,以及 NPU 计算架构的演进提供了一种新的基础武器。 - -![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina1/20210609012321.png) \ No newline at end of file +# 无监督学习、多模态融合!腾讯优图联合厦门大学发布2021十大人工智能趋势 + +> 腾讯优图实验室联合厦门大学人工智能研究院发布《**2021 十大人工智能趋势**》报告,对 3D 视觉技术、深度学习算法、人工智能内核芯片等众多领域的发展趋势进行了预测。 + +6 月 5 日,2021 全球人工智能技术大会(GAITC 2021)在杭州举办,汇集人工智能产学研各界领军者,以国际化、前瞻化、产业化视角,解析并洞察了新一代人工智能发展路径。 + +在大会上,腾讯优图实验室联合厦门大学人工智能研究院正式发布《2021 十大人工智能趋势》(以下简称“趋势报告”),基于双方长期对人工智能尤其是计算机视觉的研究洞察,对 3D 视觉技术、数字内容产业、AI 深度学习算法、人工智能内核芯片等众多领域的发展趋势进行了预测。 + +趋势报告指出,随着深度学习在多个人工智能的细分领域(如视觉,自然语言处理等)日趋成熟化和规模化,**多模态融合成为真正实现通用人工智能的必然选择**,人工智能也将从感知智能迈向认知智能;同时,随着算法和硬件能力的不断升级,3D 视觉智能技术将推动商业发展和个人消费升级;深度学习迈向多模态融合,边缘计算与人工智能加速融合,AI 算法的公平性研究将推动 AI 应用走向普惠。 + +以下为《2021 十大人工智能趋势》详细内容: + +**1、自动机器学习的自动化程度与可解释性得到进一步提升** + +自动机器学习(AutoML)目前已经在多个领域中初步实现对机器学习方法的自动化设计过程,但其仍然存在自动化程度不足,可解释性不强的问题。如神经网络结构搜索(NAS)在一些应用领域中取得了可以与人类机器学习专家可比较的水平,然而现有的 NAS 方法实际需要基于人工设计的神经网络基础结构。此外,AutoML 的自动化过程往往被认为是一种 “黑箱”,缺乏可解释性。今后自动化程度及可解释性仍然是 AutoML 研究的热点问题,通过提高 AutoML 中的超参数选择,特征表示与机器学习算法的确定和神经网络结构搜索的自动化程度及可解释性,AutoML 将实现对机器学习涉及的每个环节的真正的自动化设计过程。AutoML 整个体系架构的日趋完善,将推动新一代普适性 AutoML 平台的建设,并实现机器学习的大众化。 + +**2、无监督 / 弱监督学习逐渐成为企业降本增效新利器** + +在过去的几年中,深度学习所取得的巨大成功离不开大规模标注的数据集。大规模标注的背后,是传统的监督学习对于每一个训练样本完备标签的要求。随着业务规模的不断扩大,越来越多的企业发现数据的标注开始成为抬高交付成本、制约效果提升的主要因素之一。在此背景下,无监督学习和弱监督学习通过不使用标签或减少对标签数量、质量的要求来迅速降低深度模型对于数据的标注需求,使得原本无法利用的数据如今都可以加入到模型的训练中去,进而由量变引发质变。**在 NLP 领域,基于 Transformer 的无监督训练模型已持续霸榜各种 NLP 任务数据集**;**在 CV 领域,最新的 MPL 方法也通过额外的无标注数据集首次将 ImageNet 的 Top-1 分类准确率提升到了 90%+ 的水平**。可以预见的是,将有越来越多的人工智能企业会面临从前期的迅速扩张到稳定期高效化运作的新阶段,而在这个过程中,无监督 / 弱监督学习无疑将成为他们过渡到这个阶段的重要手段之一。 + +**3、3D 视觉技术助力产业消费升级,淡化虚实边界** + +![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210610094956.png) + +作为视觉 AI 领域多年热点研究方向之一,3D 视觉技术的核心任务是对三维空间、物体及环境进行真实还原与重建。随着相关算法与硬件计算能力的不断升级, 3D 视觉算法效果得到大幅提升,三维几何重建更加精细,表面纹理重建更加清晰,带来更加逼真的视觉观感。近年来,诸多 3D 视觉研究成果为低成本高质量的 3D 内容生成提供了良好技术支撑,基于 3D 虚拟形象的舞台演出、直播带货、教育互动等应用层出不穷,成为 AI 内容产业全新发展方向。以此为基础,结合 5G 时代流量带宽的全面升级,带有交互功能的 3D 虚拟现实、增强现实、混合现实的 3D 视觉应用将用户体验向真实与虚拟的完美融合进一步迈进。用户会因为虚拟偶像生动自然的舞台表演进行打赏,会由于虚拟主播 “卖力” 地带货促销而下单购买,而线上平台则依靠 3D 视觉技术大大降低内容制作和 IP 运营成本,最终带来社会商业发展模式与个人消费习惯的颠覆与变革。展望未来,3D 视觉技术将持续在包括游戏娱乐、影视制作、电商直播、医疗整形等众多领域广泛应用,虚拟与现实的边界将不断淡化。 + +**4、多模态融合加速 AI 认知升维** + +深度学习在多个人工智能的细分领域(如视觉,自然语言处理等)已日趋成熟化和规模化,然而要真正实现通用人工智能,必然要将这些细分领域各自所针对的信息模态整合利用,即多模态融合。多模态融合的目标是建立在图像、文字、语音等的多模态信息识别的基础上,实现不同模态信息的统一表征框架,从而起到 1+1>2 的作用。典型的场景之一是通过图文语音联合识别,实现对隐晦和暗示性,招嫖广告,儿童不良表情包等图文混合内容识别,支持审核业务深度打击不良内容。除了图文融合等跨域模态融合,同域内的不同信息维度同样可以融合,如随着深度生成技术的发展,当前的人脸识别除了传统的 RGB 图外,还需要融合深度图、红外图等信息来更好的防御越来越多元化的人脸伪造攻击,实现更强的人脸防御。随着人工智能认知能力的提升,多模态融合也将会从图文等实质性模态,逐渐拓展到如物理关系,逻辑推断,因果分析等知识性模态,从感知智能迈向认知智能。 + +**5、人工智能推动数字内容生成向新范式演进** + +![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210610095022.png) + +随着数字文化产业的蓬勃发展,尤其是二次元文化渗透出圈,数字内容产业面临新一轮的需求升级,伴随着 5G 商业化进程的不断加深,多元化、精品化的优质数字内容将面临更快的消费节奏,与此同时,供给侧仍存在巨大的产能缺口,数字内容产业正处于劳动密集型向科技密集型的转型阶段。AI 与数字内容产业的深度耦合,将有希望为行业释放更大的科技势能,以 GPT-3、DALL-E 为代表的 AI 技术,已在文本、语音、图像、视频等内容生成中取得了令人惊艳的结果,然而在精确性、泛化性、合理性方面仍然面临挑战,目前的前沿研究一方面探索从模型结构(自动化搜索等),训练形式(无监督对比学习等)等方面提升精度效果;另一方面引入知识图谱领域知识,向机器介绍常识和其他特定领域的知识进而提升常识推理效果。伴随着技术的持续升级演进,我们预见 AI 将逐步在数字内容生成领域释放引擎级的影响力,在内容、平台、技术多方合力引导下,构筑数字内容生成新范式。 + +**6、边缘计算与人工智能加速融合** + +近年来,随着深度学习算法的迅猛发展,计算机视觉、自然语言处理、搜索推荐广告等各种领域的任务性能得到不断刷新。同时,随着边缘智能设备的广泛普及和硬件改进,基于深度学习的人工智能技术在边缘端应用落地成为了可能。然而,在边缘端上部署深度学习模型具有很大的难度。其主要挑战表现在,边缘端等智能设备在计算、存储、功耗等方面有很大的限制。因此,边缘端模型必须满足低计算复杂度、小模型尺寸、低模型功耗等要求。未来将趋向硬件友好型的剪枝加速。根据边缘硬件的 CPU 类型来设计特定的网络稀疏化模式,适配不同硬件的模型压缩与优化加速技术是未来研究热点趋势。其次,基于自动化的 1-bit 量化方法有上百倍的理论性能提升,因此也是未来研究热点趋势。 + +**7、人工智能内核芯片向类脑神经计算方向演进** + +人工智能内核芯片已经成为人工智能时代的关键技术之一,在某些领域中的具体任务上人工智能内核芯片能够实现超越人脑的表现,但针对人工智能内核芯片的研究依然落后于人工智能的发展,人工智能内核芯片无法同时满足多种人工智能算法的加速要求,并且面对各种新型人工智能技术不断涌现的局面,人工智能内核芯片与人脑相比其自我学习能力与可扩展性存在明显不足。未来人工智能内核芯片将在结构上更接近人脑的神经构造,获得类神经计算的能力,通过不断整合最新的人工智能技术,定制型人工智能内核芯片将逐渐演变为通用型人工智能内核芯片,在提高自我学习能力的同时,实现对不同人工智能技术在不同任务上的加速计算,从而推动人工智能内核芯片实现真正的落地。 + +**8、算法公平性研究推动 AI 应用走向普惠无偏见** + +由于数据偏差、算法本身缺陷、甚至是人为偏见的存在,现有 AI 算法普遍存在对于某些特定人群效果不公平的 "歧视性现象"。随着 AI 算法在社会各行业的广泛落地应用,作为辅助人们决策的重要工具,算法的公平性问题正受到越来越多的关注。过去的几年业界已在逐步探索一些针对性的解决方案,包括构建更公正的数据集、算法训练中引入公平性约束损失、提高机器学习算法的可解释性等。但就整体而言,当前公平性研究在精度和公平性的平衡、不同场景的泛化性有效性等问题上正处于方兴未艾的阶段。**随着欧盟发布《人工智能白皮书》、《人工智能伦理: 问题和倡议》,中国发布《协同落实人工智能治理原则的行动建议》**,人工智能的治理正成为一个愈加热门的议题,而算法的公平性正是人工智能治理的关键问题。我们预见算法公平性的研究将持续深化,在人脸识别等最广泛的 AI 应用领域取得突破,为不同人群带来更加普惠无偏见的效果。 + +**9、隐私保护 AI 落地实用帮助算法可持续进化** + +人工智能和机器学习算法的广泛应用,在为人们提供便利的同时,也带来了极大的隐私泄露风险。这种隐私泄露包括用户数据在授权范围以外被处理共享、机器学习算法训练后存在数据记忆等现象。AI 算法开发中的数据隐私保护问题受到的关注以及监管日益增长,美国于 2020 年生效《加利福利亚消费者隐私法案》,中国于 2020 年公布《个人信息保护法(草案)》。**针对机器学习中上述隐私保护问题,研究工作近年来逐步深入走向成熟,发展出了数据匿名化、联邦学习、差分隐私等一系列方法**。我们预见能够保护用户数据隐私的更加灵活高效的 AI 学习方法将在金融、医疗、社交等场景实用化落地,消减用户的隐私担忧,帮助 AI 算法在场景中可持续地进化。 + +**10、人工智能技术向安全智能方向迈进** + +随着人工智能技术在各行各业的广泛应用,滥用或恶意破坏人工智能系统将会给社会带来巨大的负面影响。近年来算法后门攻击、对抗样本攻击、模型窃取攻击等针对人工智能算法的攻击技术持续发展,通过篡改构造特殊数据诱骗人工智能应用产生不可信的错误结果,带来了更大的算法安全风险,因此保障人工智能应用安全可靠的需求日渐迫切。未来人工智能技术将向着安全智能方向持续演化,一方面从算法的可解释性入手提升模型的鲁棒性,另一方面化被动为主动,通过主动安全检测机制对各类攻击进行侦测与拦截,最终实现人工智能可用性与可信性双轨并重的现实需求,推动人工智能技术在更广泛领域的安全落地。 + +作为腾讯旗下顶级的人工智能实验室,腾讯优图长期坚持基础研究和产业落地两条腿走路,拥有超过 1000 余项 AI 相关国内外专利,300 余篇论文被 **CVPR、AAAI、ICCV 等**国际顶会收录。在产业落地方面,腾讯优图通过腾讯云持续输出顶尖的视觉 AI 能力,目前已推出超过 30 个行业解决方案。 \ No newline at end of file -- GitLab