LightSeq:高性能序列推理引擎

在本次分享中,会介绍LightSeq团队在过去一年多时间里,针对自然语言处理领域的序列(sequence)模型,进行的推理优化工作。自2017年Google提出Transformer模型,以其为基础的特征提取方法,推动了众多自然语言处理任务能力水平的提升,与此同时,模型的参数量和推理延迟也呈现近乎指数增长。为了满足业务场景严苛的部署要求,LightSeq 团队结合场景特性:1. 对特征运算进行了定制优化 2. 对自回归解码进行了层次化改写 3.引入编译优化技术进一步提升计算吞吐。成为业界第一款完整支持Transformer、GPT等多种模型高速推理的开源引擎。模型层面,LightSeq团队也探索了压缩、量化及蒸馏技术,性能达到业界SOTA。LightSeq可以应用于机器翻译、自动问答、智能写作、对话回复生成等众多场景,大大提高线上模型推理速度,改善用户的使用体验,降低企业的运营服务成本。

开源秀直播预告: