中关村在线

云计算

从浪潮“源1.0”看巨量模型并非一味比大

人工智能在算法领域的不断突破,不同数值精度带来了跨度更大的计算类型,对计算芯片指令集、架构的要求更加细分。图灵奖获得者John Hennessy和David Patterson共同发表的《计算机架构的新黄金时代》中提出:当摩尔定律不再适用,一种更加以硬件为中心的DSA(Domain Specific Architecture)架构设计会成为主导,这种设计的核心在于针对特定问题或特定领域来定义计算架构。基于DSA思想设计的AI芯片,在特定AI工作负载上表现出远超通用芯片的处理能力,大大推动了AI芯片的多元化发展。

从浪潮“源1.0”看巨量模型并非一味比大(图片来自itpro.co.uk)

“人工智能如何发展出像人类具备逻辑、意识和推理的认知能力,是人工智能研究一直在探索的方向。目前来看,通过大规模数据训练超大参数量的巨量模型,被认为是非常有希望实现通用人工智能的一个重要方向。”在AICC 2021上,中国工程院院士、浪潮首席科学家王恩东认为,随着巨量模型的兴起,巨量化已成为未来人工智能发展非常重要的一个趋势。

目前,全球知名的AI领先公司在巨量模型上都予以重兵投入,谷歌、微软、英伟达、浪潮、智源研究院、百度、阿里等公司相继推出了各自的巨量模型。

巨量化的一个核心特征就是模型参数多、训练数据量大。以浪潮人工智能研究院开发的全球最大规模的中文AI巨量模型“源1.0”为例,其参数量高达2457亿,训练数据集规模达到5000GB。相比GPT3模型的1750亿参数量和570GB训练数据集,“源1.0”的参数规模增加了40%,训练数据集规模增加近10倍。

此外,巨量化也表现在模型应用规模大。互联网头部公司的AI开放平台已经吸引了超百万的AI开发者,这些AI开放平台每天承载着数万亿次的调用量,数百万小时的语音识别,超过百亿张图像识别,超过万亿句自然语言理解等等。如此巨量的调用对算力中心的应用支撑能力带来了极大的挑战。

差异化的场景需求为AI发展指出了一条新道路,泛化能力成为AI在各行各业应用时实现规模化创新的基础,而这离不开超大参数量模型对大规模数据的训练。事实上,包括谷歌、微软、英伟达、浪潮、阿里在内的企业都相继推出了各自的巨量模型。2020年,OpenAI发布了GPT-3深度学习模型,GPT-3模型凭借1750亿个参数,在文本分析、机器翻译、机器写作等自然语言处理领域表现出色。前不久,浪潮人工智能研究院开发出了全球最大规模的中文AI巨量模型“源1.0”,参数量达到2457亿,训练数据集规模达到5000GB。相比GPT-3模型的1750亿参数量和570GB训练数据集,“源1.0”的参数规模增加了40%,训练数据集规模增加近10倍。

OpenAI的GPT-3带来了较好的小样本学习和泛化能力,前者的小样本甚至是零样本的学习能力,可以削弱预训练阶段基础模型的复杂性,以及针对不同场景进行模型调整所引发的大量工作,后者可以使得模型训练一次后得到的大模型用于支持各类任务,具有更好的普适性。因此,大模型的特性更符合人们对于通用智能的期待。相比此前GPT-3完成训练需要1万块GPU,源1.0只需要2000多块GPU即可完成。为了训练源1.0,浪潮研发了业界最大规模的中文高质量数据集5TB,为此清洗了近860TB的互联网数据。在精度上,源1.0在自然语言处理任务CLUE零样本学习和小样本学习的榜单中排名第一,在中文问答任务如WebQA上也大幅提升了性能。

当然,模型并不是一味的在比大。斯坦福大学计算机科学系教授李飞飞曾指出,对于均质和突现来说,均质就是有更好的泛化能力,突现就是表现出来的零样本学习和小样本学习的能力,这些能力是模型参数量较小时看不到的,只有当参数量变大之后,才会出现一些独特的性质。“大不是目的。AI的下一步是从系统1到系统2、从感知到认知,从专用智能走向通用智能。”浪潮人工智能研究院首席科学家吴韶华称,“我们研究过不同尺寸的模型结构,发现随着模型参数量的增大,尤其是小样本学习的能力会持续改进,‘大’能带来在算法、结构等方面的改进,加速对于前沿技术的探索。”

不过,大模型也有一些局限性,有些问题同样困扰着深度学习相关的几乎所有模型,例如不可解释性,难度会随着模型参数量的增长而加大。除此之外,概率的不可控性,以及约束推理(在受限的条件下/给定的条件下对模型进行推理)等问题也需要被解决。在落地实践的过程中,模型的针对性、精准性都会根据行业应用场景而改善,这就离不开模型的开放性,要与合作伙伴共同优化。自源1.0上线以来,已经接收到很多来自产业各界的企业和机构申请使用。

吴韶华认为,任何技术的发展都会有从兴起到成熟再到落地的阶段,“从这个规律来看,大模型正处于兴起的阶段,大家正在围绕模型的体量,以及模型体量带来的精度效应开展持续探索,当大模型探索走向成熟之后,一定会考虑应用等具体问题,比如响应化,运用响应化、高性能的推理部署等等,会有一个比较科学的曲线。”

当模型算法进入到“巨量时代”,单靠任何一家企业或机构都难以完成大模型的研发、训练、交互,生态的重要性被提升到了更高的优先级。埃森哲的一份调研报告显示,70%以上有技术的研究机构、科技公司缺少需求场景、领域知识和数据,70%以上的行业用户缺少技术人才、AI平台和实践能力。因此,只有将AI算法、芯片等领域的前沿技术与行业场景连接起来,才能向客户交付整体解决方案。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多
说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具