2023年2月,Meta公司发布了开源的大型语言模型LLaMA(Large Language Model Meta AI)。LLaMA模型的特点是只利用公开可获得的数据进行训练,并做了更多的标注以得到相对小型的模型,这让它在运行效率和资源消耗上优于其他模型。斯坦福大学在LLaMA-13B模型的基础上研发了Vicuna模型。凭借约300美元的训练成本,Vicuna-13B模型已达到了ChatGPT和Bard模型90%以上的效能。而英伟达/微软的Megatron-Turing模型,华为的PanGu-α和PanGu-Σ等十亿级参数规模的大模型也都采纳了GPT-3的架构,并在此基础上作了改进。
除了BERT和GPT系列模型架构,清华大学的研究团队提出了一种名为GLM(General Language Model)的模型架构,它利用自回归的填空方式进行学习。基于GLM,清华大学在2022年10月推出了一个拥有1300亿参数的中英双语预训练大型语言模型GLM-130B。在此基础上,2023年3月推出了ChatGLM-6B模型,这是一个支持中英双语的对话语言模型,特别优化了中文问答和对话的生成能力。通过对大约1万亿中英标识符进行训练,并配合监督微调、反馈自助和人类反馈强化学习等技术,ChatGLM-6B模型已能产生极为符合人类喜好的结果。此外,还有一些基于ChatGLM的特定领域应用模型也相继被研发出来,例如DoctorGLM等。
引发本轮人工智能大模型浪潮的Transformer架构自2017年由Google的研究团队在论文《Attention is All You Need》中首次提出以来,彻底革新了神经机器翻译和其他序列转换任务的方法,取代了传统的循环神经网络(RNN)和卷积神经网络(CNN)在许多自然语言处理任务中的地位。Transformer通过自注意力机制解决了长距离依赖问题,并因其并行计算友好性而大大提高了模型训练效率,公开的理论研究推动了工程化实践。TensorFlow & PyTorch TensorFlow由Google Brain团队开发,PyTorch由Facebook团队开发,这两个深度学习框架的开源极大推动了AI研究和应用的进程。研究人员和工程师可以轻松访问先进的模型和算法,从而快速迭代新的AI解决方案。
2023年Meta推出的开源LLaMA模型(Large Language Model by Meta AI, 或简称Llama)提供了多种参数规模的语言模型供研究者和开发者使用,降低准入门槛,使得更多人能够参与到大模型的研发与应用中来,促进了整个领域的开放性和透明度。LLaMA模型在Transformer架构基础上可能进行了创新性的改进和优化,包括但不限于对注意力机制的改进、模型结构的精简或增强等,这些技术进步不仅提升了自身模型性能,也为后续大模型的设计提供了参考和借鉴。LLaMA系列模型开源了多个参数量级,从小规模到大规模均有布局,且在诸如对话场景等方面表现优异,这表明它们能适应不同的应用场景需求,有助于推动大模型在实际业务中的广泛应用。开源的LLaMA模型让较小规模的研究团队和公司也能获得高质量的语言模型资源,减少了对闭源商业大模型的依赖。
美国模型开源社区已经实现商业转化。Hugging Face人工智能开源社区专注于自然语言处理(NLP)领域,重点围绕NLP模型开源、模型库、工具和API开源,成立于2016年。最为人所知的是其开源项目Transformers库,这个库包含了一系列基于Transformer架构的预训练模型,比如BERT、GPT-2、RoBERTa、XLM-R等,极大地推动了NLP研究和应用的民主化进程,使得开发者无需从头开始训练模型就能快速实现诸如文本生成、问答、文本分类等多种任务。Hugging Face 还运营了一个名为“模型_hub”的在线平台,用户可以在上面发现、分享和使用各类AI模型和数据集。该平台吸引了包括微软、Meta、OpenAI、英伟达等在内的诸多企业和研究组织参与,共同促进AI技术的开源和协同创新。随着社区的发展和影响力的扩大,Hugging Face 公司也获得了资本市场的高度认可,截至2023年数据显示其估值达到了20亿美元,反映出开源模式在AI产业发展中的重要性和前景。