从浪潮“源1.0”看巨量模型并非一味比大-中关村在线

人工智能在算法领域的不断突破，不同数值精度带来了跨度更大的计算类型，对计算芯片指令集、架构的要求更加细分。图灵奖获得者John Hennessy和David Patterson共同发表的《计算机架构的新黄金时代》中提出：当摩尔定律不再适用，一种更加以硬件为中心的DSA（Domain Specific Architecture）架构设计会成为主导，这种设计的核心在于针对特定问题或特定领域来定义计算架构。基于DSA思想设计的AI芯片，在特定AI工作负载上表现出远超通用芯片的处理能力，大大推动了AI芯片的多元化发展。

从浪潮“源1.0”看巨量模型并非一味比大（图片来自itpro.co.uk）

“人工智能如何发展出像人类具备逻辑、意识和推理的认知能力，是人工智能研究一直在探索的方向。目前来看，通过大规模数据训练超大参数量的巨量模型，被认为是非常有希望实现通用人工智能的一个重要方向。”在AICC 2021上，中国工程院院士、浪潮首席科学家王恩东认为，随着巨量模型的兴起，巨量化已成为未来人工智能发展非常重要的一个趋势。

目前，全球知名的AI领先公司在巨量模型上都予以重兵投入，谷歌、微软、英伟达、浪潮、智源研究院、百度、阿里等公司相继推出了各自的巨量模型。

巨量化的一个核心特征就是模型参数多、训练数据量大。以浪潮人工智能研究院开发的全球最大规模的中文AI巨量模型“源1.0”为例，其参数量高达2457亿，训练数据集规模达到5000GB。相比GPT3模型的1750亿参数量和570GB训练数据集，“源1.0”的参数规模增加了40%，训练数据集规模增加近10倍。

此外，巨量化也表现在模型应用规模大。互联网头部公司的AI开放平台已经吸引了超百万的AI开发者，这些AI开放平台每天承载着数万亿次的调用量，数百万小时的语音识别，超过百亿张图像识别，超过万亿句自然语言理解等等。如此巨量的调用对算力中心的应用支撑能力带来了极大的挑战。

差异化的场景需求为AI发展指出了一条新道路，泛化能力成为AI在各行各业应用时实现规模化创新的基础，而这离不开超大参数量模型对大规模数据的训练。事实上，包括谷歌、微软、英伟达、浪潮、阿里在内的企业都相继推出了各自的巨量模型。2020年，OpenAI发布了GPT-3深度学习模型，GPT-3模型凭借1750亿个参数，在文本分析、机器翻译、机器写作等自然语言处理领域表现出色。前不久，浪潮人工智能研究院开发出了全球最大规模的中文AI巨量模型“源1.0”，参数量达到2457亿，训练数据集规模达到5000GB。相比GPT-3模型的1750亿参数量和570GB训练数据集，“源1.0”的参数规模增加了40%，训练数据集规模增加近10倍。

OpenAI的GPT-3带来了较好的小样本学习和泛化能力，前者的小样本甚至是零样本的学习能力，可以削弱预训练阶段基础模型的复杂性，以及针对不同场景进行模型调整所引发的大量工作，后者可以使得模型训练一次后得到的大模型用于支持各类任务，具有更好的普适性。因此，大模型的特性更符合人们对于通用智能的期待。相比此前GPT-3完成训练需要1万块GPU，源1.0只需要2000多块GPU即可完成。为了训练源1.0，浪潮研发了业界最大规模的中文高质量数据集5TB，为此清洗了近860TB的互联网数据。在精度上，源1.0在自然语言处理任务CLUE零样本学习和小样本学习的榜单中排名第一，在中文问答任务如WebQA上也大幅提升了性能。

当然，模型并不是一味的在比大。斯坦福大学计算机科学系教授李飞飞曾指出，对于均质和突现来说，均质就是有更好的泛化能力，突现就是表现出来的零样本学习和小样本学习的能力，这些能力是模型参数量较小时看不到的，只有当参数量变大之后，才会出现一些独特的性质。“大不是目的。AI的下一步是从系统1到系统2、从感知到认知，从专用智能走向通用智能。”浪潮人工智能研究院首席科学家吴韶华称，“我们研究过不同尺寸的模型结构，发现随着模型参数量的增大，尤其是小样本学习的能力会持续改进，‘大’能带来在算法、结构等方面的改进，加速对于前沿技术的探索。”

不过，大模型也有一些局限性，有些问题同样困扰着深度学习相关的几乎所有模型，例如不可解释性，难度会随着模型参数量的增长而加大。除此之外，概率的不可控性，以及约束推理（在受限的条件下/给定的条件下对模型进行推理）等问题也需要被解决。在落地实践的过程中，模型的针对性、精准性都会根据行业应用场景而改善，这就离不开模型的开放性，要与合作伙伴共同优化。自源1.0上线以来，已经接收到很多来自产业各界的企业和机构申请使用。

吴韶华认为，任何技术的发展都会有从兴起到成熟再到落地的阶段，“从这个规律来看，大模型正处于兴起的阶段，大家正在围绕模型的体量，以及模型体量带来的精度效应开展持续探索，当大模型探索走向成熟之后，一定会考虑应用等具体问题，比如响应化，运用响应化、高性能的推理部署等等，会有一个比较科学的曲线。”

当模型算法进入到“巨量时代”，单靠任何一家企业或机构都难以完成大模型的研发、训练、交互，生态的重要性被提升到了更高的优先级。埃森哲的一份调研报告显示，70%以上有技术的研究机构、科技公司缺少需求场景、领域知识和数据，70%以上的行业用户缺少技术人才、AI平台和实践能力。因此，只有将AI算法、芯片等领域的前沿技术与行业场景连接起来，才能向客户交付整体解决方案。