diff --git a/1.png b/1.png deleted file mode 100644 index b89c4bb2491693ac88c4a92b49275db49fd8b2a3..0000000000000000000000000000000000000000 Binary files a/1.png and /dev/null differ diff --git a/README.md b/README.md index 2c53a04bd77db91e121327901c2e314da1b1b0dd..da2f4755af6c9d007a7e9a254e0092547c233536 100644 --- a/README.md +++ b/README.md @@ -1,172 +1,91 @@ -# 10倍GPT-3!全球最大预训练模型“悟道2.0”问世:9项世界第一,多项任务逼近图灵测试 +# AI算力的阿喀琉斯之踵:内存墙 **每天会对文章进行更新,每次更新一篇,采用阅后即焚模式,且看且珍惜,喜欢的话帮我点个star哈** -新一代人工智能已经迈向“炼大模型”的时代。这一切源于GPT-3的横空出世,这个具有1750亿的参数的通用预训练模型不仅带来了超乎想象的生成能力,更让人们看到了“超大模型”实现通用人工智能的潜力。 +这篇文章是我(Amir Gholami), Zhewei Yao,Sehoon Kim,Michael W. Mahoney 和 Kurt Keutzer 等人共同协作完成的。本文中用到的数据可以参考链接[https://github.com/amirgholami/ai_and_memory_wall](https://github.com/amirgholami/ai_and_memory_wall) -2021年1月,距离GPT-3问世不足一年,Google重磅推出Switch Transformer模型,将参数量提升到1.6万亿,成为人类历史上首个万亿级语言模型。然而,人们对预训练语言模型的想象远不止如此,随着算力的提升,大数据的涌现,越来越多学术机构和企业加入”炼大模型“的行列,在这场激烈的军备赛中,谁将成为下一位赢家? +![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210603135912.png) -6月1日,2021北京智源大会在中关村国家自主创新示范区会议中心如期拉开大幕,开幕式上,清华大学教授,智源研究院学术副院长唐杰重磅发布了超大规模智能模型“悟道2.0”。 +
+图表 1:该图表展示了,目前 SOTA 模型训练的浮点数运算量(以 FLOPs为衡量单位)。蓝线上的是 CV,NLP和语音模型,模型运算量平均每两年翻 15 倍,红线上的是 Transformer 的模型,模型运算量平均每两年翻 750 倍。而灰线则标志摩尔定律下内存硬件大小的增长,平均每两年翻 2 倍。 +
-![](imgs/1.png) +如图表 1 所示,最近几年,计算机视觉(CV),自然语言处理(NLP)和语音识别领域最新模型的训练运算量,以大约每两年翻15倍数的速度在增长。而 Transformer 类的模型运算量的增长则更为夸张,约为每两年翻 750 倍。这种接近指数增长的趋势驱动了 AI 硬件的研发,这些 AI 硬件更专注于提高硬件的峰值算力,但是通常以简化或者删除其他部分(例如内存的分层架构)为代价。 -经过近三个月的技术迭代,悟道2.0参数量达到1.75万亿,创下全球最大预训练语言模型记录。 +然而,在应付最新 AI 模型的训练时,这些设计上的趋势已经显得捉襟见肘,特别是对于 NLP 和 推荐系统相关的模型:有通信带宽瓶颈。事实上,芯片内部、芯片间还有 AI 硬件之间的通信,都已成为不少 AI 应用的瓶颈。特别是最近大火的 Transformer 类模型,模型大小平均每两年翻240倍(如图表2所示)。类似的,大规模的推荐系统模型,模型大小已经达到了 O(10) TB 的级别了。与之相比,AI 硬件上的内存大小仅仅是以每两年翻2倍的速率在增长。 -唐杰教授表示,“悟道”超大模型智能模型旨在打造数据和知识双轮驱动的认知智能,让机器能够像人一样思考,实现超越图灵测试的机器认知能力。 +![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210603140011.png) -“悟道”由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北大、清华、人大、中科院等高校院所,以及阿里等诸多企业的100余位AI专家共同研发,是国内首个超大预训练语言模型系统。 +
+图表 2:该图表展示了 SOTA 模型的参数量的增长趋势。图中的绿点表示 AI 硬件(GPU)的内存大小。大型的 Transformer 模型以每两年翻 240 倍接近指数级的速率增长。但是单 GPU 的内存却只是每两年翻2倍。 +
-本次发布的“悟道2.0”实现了“大而聪明”,具备大规模、高精度、高效率的特点。 +值得注意的是,训练 AI 模型时候所需要的内存一般比模型参数量还要多几倍。这是因为训练时候需要保存中间层的输出激活值,通常需要增加3到4倍的内存占用。图表3中展示了最新的 AI 模型训练时候,内存占用大小逐年的增长变化趋势。从中能清楚地看到,神经网络模型的设计是如何受 AI 硬件内存大小影响的。 -![](imgs/2.png) +这些挑战也就是通常所说的 “内存墙” 问题。内存墙问题不仅与内存容量大小相关,也包括内存的传输带宽。这涉及到多个级别的内存数据传输。例如,在计算逻辑单元和片上内存之间,或在计算逻辑单元和主存之间,或跨不同插槽上的不同处理器之间的数据传输。上述所有情况中,容量和数据传输的速度都大大落后于硬件的计算能力。 -与悟道1.0相比,“悟道2.0”不仅在模型规模上实现了万亿级参数的跨越,还在世界公认的9项 Benchmark 上达到了世界第一,在多项基准测试中超越OpenAI GPT-3、DALL·E以及Google ALIGN等先进模型。 +![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210603140111.png) -另外,悟道2.0完全基于国产神威超算实现万亿级规模训练,并且打破了原来只能用GPU训练的局限。 +
+图表 3:图中展示了,训练不同神经网络模型所需要的内存大小。对于 CV 模型优化器用的是 SGD+Momentum,而对于 NLP 模型则用的是 ADAM。从中能看出一个趋势,随着 GPU 内存的上限增长,新设计模型的参数大小也在增长。每次 GPU 的内存上限有提升,研究人员都会提出新的参数更大的模型。因此如果能打破所谓的 GPU 内存墙 则可能会带来进一步的创新。更多详细信息可以参考[2]。 +
-我们注意到,GPT-3、Turing-NLG等主流的超大预训练模型均出自科技企业,国内最大的预训练语言模型也为阿里研发的PLUG(270亿参数),悟道2.0的发布意味着,智源研究院成为了“大炼模型”的首家科研机构,并且在国内接棒企业成为了“炼大模型”的主力。 +大家可能会想到,是否可以尝试采用分布式的策略将训练扩展到多个 AI 硬件(GPU)上,从而突破于单个硬件内存容量和带宽的限制。然而这么做 **也会遇到内存墙** 的问题:AI 硬件之间会遇到通信瓶颈,甚至比片上数据搬运更慢、效率更低。和单设备的内存墙问题类似,扩展 AI 硬件之间的网络带宽的技术难题同样还未被攻破。如图表4所示,其中展示了在过去20年中,硬件的峰值计算能力增加了90,000倍,但是内存/硬件互连带宽却只是提高了30倍。而要增加内存和硬件互连带宽[1],需要克服非常大的困难。因此,分布式策略的横向扩展仅在通信量和数据传输量很少的情况下,才适合解决计算密集型问题。 -在本届峰会上,基于中文、多模态、认知三个方面,悟道2.0带来了哪些底层技术创新,为何悟道2.0参数能够在短时间内实现爆发式增长?大会还有哪些全新升级,接下来3位图灵奖得主,200位顶级专家就前沿科技将分享哪些真知灼见?下面我们来一一来揭晓答案。 +![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210603140147.png) -## FastMoE,实现“万亿模型”的关键 +
+图表 4:图中展示了,带宽、内存和硬件的计算能力的增长趋势。从中可以看出带宽增长非常的缓慢(大约每20年增加30倍,而硬件的计算能力则增加了90,000倍)。 +
-悟道2.0成功实现万亿级突破,得益于FastMoE算法。 +## 有希望打破内存墙的解决方案 -FastMoE的研发灵感来源于MoE(Mixture of Experts)。MoE一项在神经网络中引入若干专家网络(Expert Network)的技术,也是Google发布的1.5万亿参数预训练模型Switch Transformer的核心技术。 +“指数增长不可持续”,即使对于巨头公司来说,以每2年240倍的速度持续指数增长也是不可能的。再加上算力和带宽能力之间的差距越来越大,训练更大的模型的成本将以指数级增长,训练更大模型将更具有挑战性。 -![](imgs/3.png) +为了继续创新和 “打破内存墙”,我们需要重新思考人工智能模型的设计。这里有几个要点: -FastMoE在提升预训练模型参数量方面有着巨大的潜力。 +首先,当前人工智能模型的设计方法大多是临时的,或者仅依赖非常简单的放大规则。例如,最近的大型 Transformer 模型大多是原始 BERT 模型[22]的缩放版本,二者基本架构几乎一样。 +其次,我们需要设计更有效的数据方法来训练 AI 模型。目前的网络训练非常低效,需要大量的训练数据和数十万次的迭代。有些人也指出,这种训练方式,不同于人类大脑的学习方式,人类学习某个概念或分类,往往只需要很少的学习例子。 +第三,现有的优化和训练方法需要大量的超参调整(如学习率、动量等) ,在设置好参数从而训练成功前,往往需要数以百计次的试错。这样看来,图1中只是展示了训练成本的下限,实际成本通常要高得多。 +第四,SOTA 类网络规模巨大,使得光部署它们就极具挑战。这不仅限于 GPT-3 等模型。事实上,部署大型推荐系统(类似于 Transformers ,但 embedding 更大且后接的 MLP 层更少)是巨头公司所面临的主要挑战。 +最后,AI 硬件的设计主要集中在提高算力上,而较少关注改善内存。这让训练大模型、探索新模型都变得困难。例如图神经网络(GNN)就常常受限于带宽,不能有效地利用当前硬件(的算力)。 -如对于每个输入,MoE动态地由门网络选择k个专家网络进行激活,一般情况下,每个输入x激活的专家网络数量都很少,如512个专家网络可能只挑选两个。在运算量(FLOPs)不变的情况下,这有利于增加模型参数量。 +以上几点都是机器学习中的重要基础问题。在这里,我们简要讨论最近针对后三点(包括我们自己)的研究。 -![](imgs/4.png) +## 高效的训练算法 -在一项实验中,Google将MoE应用到基于Transformer的神经机器翻译的任务上,使用2048个TPU v3 cores花4天时间训练了一个6千亿参数的模型。 +训练模型时的一大困难是需要用暴力探索的方法调整超参。寻找学习率以及其配套的退火策略,模型收敛所需的迭代次数等等,这给训练 SOTA 模型带来了不少额外开销(overhead)。 +这些问题大多是由于训练中使用的是一阶 SGD 优化方法。虽然 SGD 超参容易实现,却没有稳健的方法去调试超参,特别是对于那些还没得到正确超参集合的新模型,调参就更加困难了。 +一个可能的解决方法是使用二阶 SGD 优化方法,如我们最近发表的 ADAHESSIAN 方法[4]。这类方法在超参调优时往往更加稳健,从而达到可以达到 SOTA。 +但是,这种方法也有亟待解决的问题:目前占用的内存是原来的3-4倍。微软关于 Zero 论文种介绍了一个很有前景的工作:可以通过删除/切分冗余优化器状态参数[21, 3],在保持内存消耗量不变的前提下,训练8倍大的模型。如果这些高阶方法的引入的 overhead 问题可以得到解决,那么可以显著降低训练大型模型的总成本。 -不过,MoE对Google分布式训练框架mesh-tensorflow和定制硬件TPU有较强的依赖性,这给其他人开源社区的使用和研究带来了不便。 +另一种很有前景的方法是提高优化算法的数据本地性(data locality)并减少内存占用,但是这会增加计算量。一个简单的例子是,在前向 forward 期间,不保存所有的激活参数(activations),而只保存它的子集,这样可以减少图3所示的用于特征映射内存占用。未保存的激活参数可以在需要的时候进行重计算,尽管这个方法会增加计算量,但只增加 20% 的计算量,可以减少高达5倍 [2]的内存占用。 -智源研究院为此以MoE为原型研发了一种易用性强、灵活性好、训练速度快的FastMoE系统,它可以在不同规模的计算机或集群上支持不同的MoE模型。而且,相比MoE,有如下技术优势: +还有另一个重要的解决方案是设计足够稳健的、适用于低精度训练的优化算法。事实上,AI 硬件的主要突破之一是支持了半精度(FP16)运算,用以替代单精度运算[5,6]。这使得算力提高了10倍以上。接下来的挑战是,如何在保证准确度不降低的前提下,进一步将精度从半精度降低到 INT8。 -- 既可以作为PyTorch模块使用,也可以引入Gate变为MoE层。 -- 支持将任意神经网络模块作为专家网络使用,仅需要修改MoE层的一个参数。 -- 相比直接使用PyTorch实现的版本,提速47倍。 -- 支持大规模并行训练 +## 高效部署 -为了支撑这个万亿级模型,悟道2.0配备了国产超算GPU打造的高性能算力平台。唐杰教授表示,随着算力的不断提升,模型或许有一天能够达到与人脑突触量级相当的 100 万亿参数规模。当然模型越大,意味着更高的训练成本,GPT-3一次训练费用可达到了数千万美元。 +当部署最新的 SOTA 模型,如 GPT-3 或大型推荐系统模型时,为了推理,常常需要做分布式部署,因此相当具有挑战性。可能的解决方案是,通过降低精度(如量化)或移除冗余参数(如剪枝)来压缩推理模型。 +量化方法,既可以用于训练,也可以用于推理。虽然量化用于推理是可能做到超低精度级别的,但是用于训练时,想要将精度做到远低于 FP16 的级别是非常困难的。目前,在最小限度影响准确率的前提下,已经可以相对容易地将推理精度量化至 INT4 级别,这使得模型所占空间及延时,减少至原有的 1/8。然而,如何将精度量化至低于 INT4 级别,是一个颇具挑战的问题,也是当前研究的热门领域。 -在数据方面,智源研究院创建了全球最大中文语料数据库WuDaoCorpora,规模达3TB,超出之前最大的中文语料库CLUECorpus2020十倍以上。在悟道2.0中,WuDaoCorpora扩展了多模态数据集(90TB)和中文对话数据集,其数据规模达(181GB)。 +除量化外,剪枝掉模型中冗余的参数也是高效部署的一种办法。在最小限度影响准确率的前提下,目前已经可以使用基于 structured sparsity 的方法剪枝掉高达 30% 的神经元,使用基于 non-structured sparsity 的方法可以剪枝掉高达 80% 的神经元。然而,如果要进一步提高剪枝的比率,则非常困难,常常会导致准确度下降非常多,这该如何解决,还是一个开放问题。 -参数量越大不代表模型性能一定越好。在悟道2.0中,40亿参数的多模态预训练模型CogView,在MS COCO数据集上比拥有130亿参数的DALL·E表现更好。因此,在大数据和算力的支持下,算法的性能更为重要。谷歌发布的Switch Transformer,虽然达到了万亿级规模,但其下游任务的精度并没有大幅度提升。 +## AI 硬件设计的再思考 -为了提高超大规模预训练模型的精度和效率,悟道2.0从模型、训练、微调、推理等环节对算法进行了全链路升级: +如何同时提高硬件带宽和算力是一个极具挑战的基本问题,不过,通过牺牲算力来谋求更好的“算力/带宽”平衡点是可行的。事实上,CPU 架构包含了充分优化后的缓存架构,因此在内存带宽受限类问题(如大型推荐系统)上,CPU 的性能表现要明显优于 GPU。然而,当前 CPU 的主要问题是,它的计算能力(FLOPS)与 GPU 和 TPU 这类 AI 芯片相比,要弱一个数量级。个中原因之一,就是 AI 芯片为追求算力最大化,往往在设计时,就考虑移除了一些组件(如缓存层级)来增加更多的计算单元。我们有理由想象,可以有一种架构,处于以上两种极端架构之间:它将使用更高效的缓存,更重要的是,使用更高容量的 DRAM(设计 DRAM 层次结构,不同层次拥有不同带宽)。后者对于解决分布式内存通信瓶颈将非常有帮助。 -![](imgs/5.png) +## 结论 -高效模型:首创纯非欧空间模型,50%参数量即可达到近似欧式模型的效果。 +目前 NLP 中的 SOTA Transformer 类模型的算力需求,以每两年750倍的速率增长,模型参数数量则以每两年240倍的速率增长。相比之下,硬件算力峰值的增长速率为每两年3.1倍。DRAM 还有硬件互连带宽增长速率则都为每两年1.4倍,已经逐渐被需求甩在身后。深入思考这些数字,过去20年内硬件算力峰值增长了90000倍,但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下,数据传输,特别是芯片内或者芯片间的数据传输会迅速成为训练大规模 AI 模型的瓶颈。所以我们需要重新思考 AI 模型的训练,部署以及模型本身,还要思考,如何在这个越来越有挑战性的内存墙下去设计人工智能硬件。 -高效训练:首创预训练语言模型融合框架“知识继承”,可使训练时间缩短 27.3%,速度提升37.5%。它的核心思想是提取已有的小预训练语言模型模型蕴藏的“隐式”知识,并将其注入超大规模模型当中。 +感谢 Suresh Krishna 跟 Aniruddha Nrusimha 给出的非常有价值的回答。 -高效微调:首创基于检索的半监督少样本的微调算法Prompt,只要需训练0.2%数据即可达到完整数据训练90%的效果。 +[1] 我们特意没有把强化学习的计算代价放入图中,因为它的训练代价大多跟模拟的环境有关,而现阶段并没有标准的模拟环境。值得注意的是,在我们的报告中用了训练模型需要的运算数而不是硬件部署使用的多少,因为后者依赖于具体的库以及使用的硬件。最后,文件里的所有倍率都是用每个图中的数据来进行线性回归得出的。 -高效推理:首创低资源大模型推理系统,单机单卡GPU即可以进行千亿参数规模的模型推理。 +[2] 图2里面的增长倍率是用转化训练模型(也就是图中的蓝色圆点)算出来的,而不是用推荐系统算出来的。 -## 悟道2.0创新算法,刷新9项纪录 +[3] 对于能够训练的最大模型,GPU 的内存是取对应内存大小除以6来得到的一个大概的上界。 -如何将中文融入预训练模型,推动中文应用背景下的人工智能发展?如何实现图、文和视频等多模态信息之间理解与建模的统一?如何提升大规模预训练模型的语言理解能力?如何进一步实现对超长/复杂蛋白质序列的建模和预测? +[4] 我们用 R10000系统来变准话算力峰值,因为它在文献[24]中被用于报告训练Lenet-5的计算代价。 -围绕这些问题,悟道2.0创建文源、文澜、文汇、文朔四大预训练模型,经过一系列底层算法升级,在世界公认的9项 Benchmark 上达到了世界第一! - -![](imgs/6.png) - -**GLM+CogView+Inverse Prompting—文汇** - -在悟道2.0中,参数量达1.75万亿的超大规模预训练语言模型便是悟道·文汇,基于GLM+P-tuning+Inverse Prompting+CogView多项创新算法,文汇能够学习不同模态(文本和视觉领域为主)之间的概念,实现文生文、图生文以及图文生文等多项任务。 - -文汇是面向认知的万亿级多模态模型,旨在解决大规模自监督预训练模型不具有认知能力的问题。目前,1.75万亿级规模的文汇已经具备初级认知能力,并且在开放对话、知识问答、可控文本生成等认知推理任务上均有不错的表现。而这得益于四项算法创新: - -首先是通用预训练框架GLM。GLM能够同时在分类、无条件生成和有条件生成三类NLP任务取得最优结果;在训练数据相同的前提下,其在SuperGLUE自然语言理解基准上的性能表现远超BERT;并且更擅长填空问题以及内容生成。 - -其次是P-tuning,一种用连续的向量来表示Prompt的方法,它解决了Prompt在少样本学习场景下容易过拟合的问题,即“通过连续向量输入,直接在连续空间里寻找Prompt的最优解。” - -在知识探测任务(LAMA)上,不需要任何额外文本,P-tuning提取的知识可以达到超过60%的准确率,超越之前最好结果20个百分点。此外,P-tuning在少样本学习中优于包括PET和GPT-3在内的所有few-shot learning的SOTA方法。 - -第三是Inverse Prompting,它解决了预训练模型“答非所问”的难题,其核心思路是用生成的内容反过来以同样的模型预测原来的Prompt,从而保证问题与答案之间较强的关联性。 - -最后是CogView,通过40亿参数的Transformer模型和VQ-VAE图像分词器解决了跨模态理解的问题。类似于OpenAI 发布的DALL·E,CogView可以根据文本提示生成对应图像,不过其性能表现在MS COCO数据集上要优于DALL·E以及基于GAN的模型。 - -![](imgs/7.png) - -以上算法创新只是第一步,文汇的长期目标是从预测去构造决策,包括完全解决少样本问题,并通过对预训练和微调模式的创新,进一步接近认知目标。 - -**双塔预训练结构-文澜** - - “悟道·文澜是多模态多语言预训练模型。文澜2.0首次实现了7种不同的语言的生成和理解,包括中、英、法、德、捷克、日、韩。在中文公开多模态测试集AIC-ICC图像生成描述任务中,得分比冠军队高出5%;在图文互检任务中,比目前最流行的UNITER模型高出20%。另外,在图文检索和图像问答任务上均超过现有多模态多语言预训练模型。 - -不同于大多预训练模型,文澜模型独创性地采用了一种基于多模态对比学习的双塔结构(Bridging Vision and Language,BriVL),与常见的单塔架构相比,BriVL在图像和文本之间建立了“弱相关”假设,在图文互检任务中能够表现更好的性能。 - -重要的是,这种基于视觉-语言的弱相关假设也在一定程度上解决了大数据标注难题,如唐杰教授所说,“标注数据很稀缺,如今我们对数据规模的需求越来越大,对亿级数据进行标注几乎不可能实现。所以未来,弱相关的多模态训练是一个大趋势。” - -![](imgs/8.png) - -为了弥补神经网络在表达上的损失,BriVL结构中引入了监督学习和对比学习。BriVL首先使用独立的语言和视觉编码器提取语言和视觉信息的特征向量,然后将这些向量传入到对比学习模块中进行训练。 - -采用这样的双塔结构,可以很方便地把编码器模块替换为最新的单模态预训练模型,从而可以持续增强模型表达能力。 - -此外,文澜还提出了基于 DeepSpeed 的多模态预训练算法,能够最大化的利用 GPU 和 CPU,并最优地支持跨模态对比学习。 - -**首创高效混合编码机制-文源** - -悟道·文源是以中文为核心的大规模预训练模型,具有识记、理解、检索、数值计算、多语言等多种能力。在开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务中均优于同等参数量模型。 - -区别于其他模型,文源最大的创新之处在于采用了独特的信息编码方式。作为最复杂的语言体系之一,中文语料库中的生僻字、形近字、音近字为模型训练带来了诸多挑战。 - -![](imgs/9.png) - -智源研究院为此首创了一种基于字音和字形的混合高效编码机制,它与目前普遍使用的基于中文单字的编码方式相比具有更好稳定性。基于新型编码机制训练后得到的两大模型“说文”和“解字”,在文本分类,句对分类,阅读理解任务中的得分平均高于后者0.6个点。 - -另外,这种编码方式对于形近字和同音字等常见错别字场景也具有一定优势。比如,对于中文简体字的繁体字、异体字变种,基于字形的编码方式可以将复杂汉字拆解成更为常见的部首组合,帮助模型更好地理解复杂的异体字、罕见字。有实验数据显示,在数据集存在异体字噪声场景下,该模型优于中文单字编码机制最高18.8个点。 - -不仅仅局限于中文,文源也有向英文扩展的能力,并在一系列偏向实际应用层面的英文任务上超越了GPT-3。文源下一阶段的目标是尝试用跨语言模型将不同语言的专家模型连接到一起,实现模型的多语言扩展。 - -## 加速产业生态建设,迈向AGI - -“悟道”的定位从一开始就很明确:从更加本质的角度进一步探索通用人工智能。 - -去年10月,智源研究院启动新型超大规模预训练模型研发项目正式启动,智源研究院院长黄铁军在会上表示,近年来人工智能的发展,已经从“大炼模型”逐步迈向了“炼大模型”的阶段,通过设计先进的算法,整合尽可能多的数据,汇聚大量算力,集约化地训练大模型,供大量企业使用,这是必然趋势。 - -目前,GPT-3等预训练语言模型提供了一条探索通用人工智能的可能路径,OpenAI、谷歌、Facebook等国际IT企业都在此持续加码,然而,随着Turing NLG、BERT、GPT-3、Switch Transformer等重磅成果不断被发布,以中文为核心的预训练模型仍寥寥无几,在此发展态势下,研发我国自主的大规模预训练模型势在必行。 - -与此同时,悟道启动以中文为核心的文源、基于多模态的文澜、面向认知的文汇、以及用于蛋白质预测的文溯四大预训练模型,其目标在于解决目前国际主流模型存在的前沿问题。 - -我们知道,虽然GPT-3在多项任务中表现出色,写小说、做图表、写代码统统不在话下,但它并没有通过图灵测试。它最大的问题是没有常识,不具备认知能力。 此外,它在处理开放对话、基于知识的问答、可控文本生成等复杂的认知推理任务上,也与人类智能有较大差距。 - -基于此,悟道·文汇希望从更本质的认知层面去探索通用人工智能的潜力。 - -悟道·文澜尝试通过多模态解决现实场景的需求。随着自然语言处理、计算机视觉以及语音识别等人工智能技术日益成熟,如何实现大规模落地成为人们必须思考的问题。而面对复杂多变的现实场景,“多模态”成为了前沿技术走向产业应用的下一个突破口。 - -今年OpenAI打破语言与视觉的界限,推出文本生成图像模型DALL·E 和 CLIP达到SOTA性能;谷歌推出多语言多模态模型MUM,显著提高了搜索效率。 - -然而以上成果只是一个开端,人工智能模型在文本、图像、音频、视频等不同数据类型之间的跨模态理解上仍面临不小的挑战。 - -悟道·文溯则旨在通过前沿技术加速推动电子信息、生物医药等基础科学科的科学研究进程。人工智能技术在解决重大科学问题上表现出了巨大的潜力,尤其是蛋白质预测领域,去年DeepMind公司研究人员研发的AlphaFold,将蛋白质结构预测的准确度提高到了原子水平,解决了困扰科学界近50年的重大难题。 - -在此背景下,悟道尝试以基因领域认知图谱为指导,通过超大规模预训练模型解决超长/复杂蛋白质序列的建模和预测问题。 - -在悟道2.0中,文源、文澜、文汇、文溯均在标准测试中达到了世界领先水平。悟道在研发的同时,智源研究院也在同步探索其生态建设模式。随着悟道2.0的发布,其产业应用进程也进一步加快。 - -在开幕式上,智源研究院学术副院长唐杰教授现场与21家企业举办了合作签约仪式,围绕悟道2.0的产业应用,与美团、小米、快手、搜狗、360、寒武纪、好未来、新华社等21家企业达成了战略合作。悟道2.0将以开放API(应用程序接口)的形式为这些企业提供服务。 - -此外,智源研究院还与新华社合作将悟道模型应用于新闻智能化转型,这是新闻领域0到1 的突破。在新闻领域,悟道模型能够处理新闻下游任务, 包括新闻内容处理、图文生成、传播优化等,还具备接近人类的图文创意能力,可以作诗、 问答、创意写作等。 - - - -![](imgs/10.png) - -智源研究院副院长唐杰教授在会上表示,悟道2.0后续将支持智源研究院牵头成立独立的模型商业化运营公司, 并将面向个人开发者、中小创新企业、行业应用企业、IT领军企业等不同主体,分别提供模型开源、API(应用程序编程接口)调用、“专业版”大模型开发、大模型开发许可授权等多种形态的模型能力服务,赋能AI技术研发。 - -![](imgs/11.png) - -可以预见,以智源2.0为代表的大模型将成为一个AI未来平台的起点,成为类似“电⽹”的基础建设,为社会源源不断供应智⼒源。 - -![](1.png) +![](https://maoxianxin1996.oss-accelerate.aliyuncs.com/codechina/20210603140942.png) diff --git a/imgs/1.png b/imgs/1.png deleted file mode 100644 index 19c6a495e45e75454bc8fed3c87369dbe12ff0eb..0000000000000000000000000000000000000000 Binary files a/imgs/1.png and /dev/null differ diff --git a/imgs/10.png b/imgs/10.png deleted file mode 100644 index 83960f624d74c98d27ff9c666592dc94eb19f18b..0000000000000000000000000000000000000000 Binary files a/imgs/10.png and /dev/null differ diff --git a/imgs/11.png b/imgs/11.png deleted file mode 100644 index 62af7dda7d316016daa32c7c7f9506b42999f6f3..0000000000000000000000000000000000000000 Binary files a/imgs/11.png and /dev/null differ diff --git a/imgs/2.png b/imgs/2.png deleted file mode 100644 index 89e4ba6a0f5a16fa2d5588451e62404a5c07674b..0000000000000000000000000000000000000000 Binary files a/imgs/2.png and /dev/null differ diff --git a/imgs/3.png b/imgs/3.png deleted file mode 100644 index 06a9ad41945234394bea05ad3de0aa296011f756..0000000000000000000000000000000000000000 Binary files a/imgs/3.png and /dev/null differ diff --git a/imgs/4.png b/imgs/4.png deleted file mode 100644 index 1ad949c76b9b3cc2566599f9a064f916976a0bd1..0000000000000000000000000000000000000000 Binary files a/imgs/4.png and /dev/null differ diff --git a/imgs/5.png b/imgs/5.png deleted file mode 100644 index 3cb62d14bd810cd0e6663b1dca771fe642af3c88..0000000000000000000000000000000000000000 Binary files a/imgs/5.png and /dev/null differ diff --git a/imgs/6.png b/imgs/6.png deleted file mode 100644 index d4a673a6d606c1ab0e7ad0bcf53aaf393c6888dd..0000000000000000000000000000000000000000 Binary files a/imgs/6.png and /dev/null differ diff --git a/imgs/7.png b/imgs/7.png deleted file mode 100644 index c70a7eabc5562186b4e2fb6537851bbf84d08082..0000000000000000000000000000000000000000 Binary files a/imgs/7.png and /dev/null differ diff --git a/imgs/8.png b/imgs/8.png deleted file mode 100644 index cb8930deabceaadfe5eaf544c2e735faa94f2d9c..0000000000000000000000000000000000000000 Binary files a/imgs/8.png and /dev/null differ diff --git a/imgs/9.png b/imgs/9.png deleted file mode 100644 index bf241217cec179fa0feb6e5a35c1dc600eaf16ec..0000000000000000000000000000000000000000 Binary files a/imgs/9.png and /dev/null differ