“源”力觉醒浪潮开启智算时代新纪元-中关村在线

当数字化转型走入深水区，其显著特征之一就是越来越多的智能化元素与产业应用和业务场景融合得更加紧密，背后则是数据量的指数级增长、计算力的强劲推动，以及各类算法框架的涌现和发展。这一趋势也催生了基础设施和硬件架构上的革新，比较有代表性的就是AI服务器和AI芯片的加速演进。IDC预测，2021年中国在AI市场的支出规模将达到82亿美元，其中约70%的相关支出来自于AI硬件。《全球人工智能市场半年度追踪报告》显示，中国AI服务器头部厂商市场规模同比增长率超过50%。在全球AI服务器市场增速放缓的情况下，中国仍能保持高增长势头，与各产业链的领军企业的贡献密不可分。

在2021人工智能计算大会（AICC2021）上，中国工程院院士、浪潮首席科学家王恩东谈到：“人工智能带来指数级增长的算力需求，计算产业正面临着多元化、巨量化、生态离散化交织的趋势与挑战。”如王恩东院士所言，计算产业的多元化正在芯片领域显现——2020年以GPU为代表的AI加速芯片所交付的计算力总和已超过通用CPU，预计到2025年，加速芯片提供的计算力可能超过80%。届时，非GPU的芯片占比会超过20%，用于AI推理工作的芯片会达到市场规模的60.8%。

可以说，差异化的场景需求为AI发展指出了一条新道路，泛化能力成为AI在各行各业应用时实现规模化创新的基础，而这离不开超大参数量模型对大规模数据的训练。事实上，包括谷歌、微软、英伟达、浪潮、阿里在内的企业都相继推出了各自的巨量模型。2020年，OpenAI发布了GPT-3深度学习模型，GPT-3模型凭借1750亿个参数，在文本分析、机器翻译、机器写作等自然语言处理领域表现出色。前不久，浪潮人工智能研究院开发出了全球最大规模的中文AI巨量模型“源1.0”，参数量达到2457亿，训练数据集规模达到5000GB。相比GPT-3模型的1750亿参数量和570GB训练数据集，“源1.0”的参数规模增加了40%，训练数据集规模增加近10倍。

模型进入巨量化阶段

“我欲与归，道旅辽远，山川悠长……”这是源1.0以战争为题所创作的一首诗。“大模型会带来很多令人惊艳的东西。”浪潮信息副总裁、浪潮信息AI&HPC产品线总经理刘军在接受媒体采访时表示，“比如对于媒体行业来说，它可以写出非常漂亮的文章、诗歌、戏剧，充满着无限的想象力，可以让人们打开思维的翅膀，通过AI让人们的表达更加艺术、科学和高效。以前，贾岛要苦吟‘二句三年得，一吟泪双流’，现在借助大模型三秒钟就能得一首诗。”

浪潮信息副总裁、浪潮信息AI&HPC产品线总经理刘军

OpenAI的GPT-3带来了较好的小样本学习和泛化能力，前者的小样本甚至是零样本的学习能力，可以削弱预训练阶段基础模型的复杂性，以及针对不同场景进行模型调整所引发的大量工作，后者可以使得模型训练一次后得到的大模型用于支持各类任务，具有更好的普适性。因此，大模型的特性更符合人们对于通用智能的期待。相比此前GPT-3完成训练需要1万块GPU，源1.0只需要2000多块GPU即可完成。为了训练源1.0，浪潮研发了业界最大规模的中文高质量数据集5TB，为此清洗了近860TB的互联网数据。在精度上，源1.0在自然语言处理任务CLUE零样本学习和小样本学习的榜单中排名第一，在中文问答任务如WebQA上也大幅提升了性能。

在刘军看来，要想做好大模型，算力、算法、数据的协同创新缺一不可，浪潮的优势在于很擅长把这三个元素整合到复杂的系统工程中。通常，构建一套AI服务器系统需要处理超过1万个零部件，包括50多种专用芯片，30多个技术方向，要优化100多种传输协议，涉及材料学、热学、电池学、流体力学、化学等学科的技术问题。在浪潮的系统设计和开发过程中，有30多个开发流程、150多种加工和制造工艺、280多个关键控制点，实现了资源的精细化管理。同时，解决了在AI服务器系统12V母线架构、母线电流1000A的情况下，高功耗、高速率、高电流的可靠性挑战，以及多用户、多资源分配和多元算力、AI应用的适配问题。

在技术平台上，浪潮突破了高密度的高速互联技术，可以做到40层以上PCB的高密设计，布线密度每平方英寸超过16万。对于高功率服务器，通过新型金属相变材料可在一个4U空间内实现8颗500瓦最高功耗的AI芯片风能的散热，并且支持静默式液冷等新型绿色节能技术。在复杂系统的可靠性设计方面，浪潮研发了支持多元化AI芯片的高端服务器，可支持8颗像寒武纪等高端AI芯片的高速互联，搭配风冷、液冷等散热方式。根据IDC的数据，浪潮在全球AI服务器市场占有率中排名第一，在中国市场的份额连续三年保持50%以上。

大模型助力AI突围

当然，模型并不是一味的在比大。斯坦福大学计算机科学系教授李飞飞曾指出，对于均质和突现来说，均质就是有更好的泛化能力，突现就是表现出来的零样本学习和小样本学习的能力，这些能力是模型参数量较小时看不到的，只有当参数量变大之后，才会出现一些独特的性质。“大不是目的。AI的下一步是从系统1到系统2、从感知到认知，从专用智能走向通用智能。”浪潮人工智能研究院首席科学家吴韶华称，“我们研究过不同尺寸的模型结构，发现随着模型参数量的增大，尤其是小样本学习的能力会持续改进，‘大’能带来在算法、结构等方面的改进，加速对于前沿技术的探索。”

浪潮人工智能研究院首席科学家吴韶华

不过，大模型也有一些局限性，有些问题同样困扰着深度学习相关的几乎所有模型，例如不可解释性，难度会随着模型参数量的增长而加大。除此之外，概率的不可控性，以及约束推理（在受限的条件下/给定的条件下对模型进行推理）等问题也需要被解决。在落地实践的过程中，模型的针对性、精准性都会根据行业应用场景而改善，这就离不开模型的开放性，要与合作伙伴共同优化。自源1.0上线以来，已经接收到很多来自产业各界的企业和机构申请使用。

众所周知，中国已经将人工智能技术视为产业变革的核心力量。从2017年至今陆续推出一系列政策，鼓励人工智能不断从基础理论研究到行业应用实现全产业链发展。在“十四五”规划纲要中，将新一代人工智能作为要攻关的七大前沿领域之一，鼓励加速人工智能前沿基础理论突破、专用芯片研发、深度学习框架等开源算法平台构建，促进学习推理与决策、图像图形、语音视频、自然语言识别处理等领域创新，加速人工智能与诸如大数据、物联网、边缘计算等数字信息技术的融合发展，促进产业优化升级、生产力整体跃升。此次，源1.0的数据集、API、源代码会完全的开放和开源，并且会充分支持国产AI芯片。依托于浪潮的智算中心作为基础设施，巨量模型对产业智能化势必会产生更大的推动作用。

吴韶华认为，任何技术的发展都会有从兴起到成熟再到落地的阶段，“从这个规律来看，大模型正处于兴起的阶段，大家正在围绕模型的体量，以及模型体量带来的精度效应开展持续探索，当大模型探索走向成熟之后，一定会考虑应用等具体问题，比如响应化，运用响应化、高性能的推理部署等等，会有一个比较科学的曲线。”

开源开放推动产业共进

源1.0的主要目标有两个：一、探索前沿技术，推动智能算法的创新；二、落地应用，建设算力基础设施，推动产业发展。要想实现这两点，开源和开放是必经之路。为此，浪潮希望与三类对象进行合作，包括高校和科研院所的AI研究团队，以及浪潮的元脑的生态伙伴和智能计算中心等，并且还会推动面向AI芯片的模型移植开发，与开源社区加深合作。未来， “源2.0”会与产业合作更为紧密，加速实现应用在场景落地，加强在多模态、视觉领域的研发工作。

当模型算法进入到“巨量时代”，单靠任何一家企业或机构都难以完成大模型的研发、训练、交互，生态的重要性被提升到了更高的优先级。对此，浪潮有着清晰的认知。埃森哲的一份调研报告显示，70%以上有技术的研究机构、科技公司缺少需求场景、领域知识和数据，70%以上的行业用户缺少技术人才、AI平台和实践能力。一直以来，浪潮都在推动元脑生态的建设，将AI算法、芯片等领域的前沿技术与行业场景连接起来，携手伙伴向客户交付整体解决方案。期间，浪潮提供了算力平台、资源平台和算法平台。

刘军谈到，我们始终在关注如何让产品满足客户、市场、应用的需求。同时，把目光投向科研创新和探索。对于这两种发展方向，浪潮有着明确的战略，针对前者会有严谨的商业计划、产品规划、营销策略、销售目标、客户需求实现路径，确保目标顺利实现，针对后者则会更加激进一些，给予科研人员足够的自由度，支持他们把无限的想象力变成现实，形成组织合力让前沿技术服务于产业。

根据IDC数据显示，2021年全球企业在人工智能软件、硬件和服务的总投资将超过850亿美元，预计在2025年增至2045亿美元，五年复合增长率达到24.5%。可以看到人工智能已成为引领社会和经济发展的战略性技术之一。

“算力推动着中国人工智能产业快速发展，在技术、区域、行业、应用产业等多个维度都在加速迈进。与此同时，智算也呈现出多元化、巨量化、生态化的趋势，平台创新和开放生态是多元算力高效释放的关键，智算中心将在数字经济的高质量发展中承担重要的新型基础设施的作用。”刘军表示，“通过源1.0中文巨量模型的开源开放，我们希望能够实现‘产学研用’携手共进，一起推动智能生态创新的高质量发展。”