全局智算软硬兼备共迎AI时代新机遇-中关村在线

智能计算的热潮席卷了千行百业，背后则是对计算、网络和存储能力的巨大挑战。从ChatGPT到多模态AI，再到前不久的Sora，人们似乎看到了人工智能的无所不能，不过与此同时，应用场景的需求越来越复杂，仅靠暴力计算并非长久之计。“在大模型的深入落地的过程中，我们看到了复杂的客户需求不断涌现，涉及到算法、算力、数据三个维度，算效、精度和服务等方面远远没有满足客户的需求。”在2024宁畅战略新品及方案发布会上，宁畅总裁秦晓宁表示，“宁畅将通过‘全局智算’战略，以系统的全面性来对抗需求的复杂性，在复杂的需求面前，宁畅将以全方位的AI计算方案支持大模型发展的全生命周期，解决大模型落地的问题。”

定制化专家、冷静计算、全局智算，宁畅一路走来的战略方向都是经过深思熟虑的，顺应了彼时的市场趋势，并且过后来看都具有一定的前瞻性。在秦晓宁看来，大模型的发展经历了“堆硬件”的阶段，现在从参数竞赛走向了商业化、产业化的落地阶段，需要的是支撑能力的体系升级，涉及人工智能的硬件层、集群层、中台层、内容层、服务层等等。要知道，OpenAI在训练GPT4时的算力利用率约为35%，这意味着较大的资源浪费。要想充分利用算力效能，“算、网、存、管”缺一不可。

在行业端，企业对模型精度的要求越来越高，满足起来并不容易。例如，行业数据会涉及很多敏感信息，要考虑安全合规性，还要做好数据的清洗、标注、治理等工作，保障数据的时效性和有效性，还要有软硬件工具的支持和优化。在大模型部署阶段，训练和推理的数据要实时对接，还要做好模型的精简、蒸馏、压缩等等，之后要做到敏捷部署，以及稳定运行，又需要对这些资源进行实时的监控和管理……这些流程慢慢成为企业应用AI的阻碍。

对此，宁畅提出了“全局智算”战略，具备六大特性，涵盖软硬件全体系及全液冷产品，提供咨询、测试、运维、售后的全流程服务，满足全行业用户大模型开发、适配、部署的全场景需求，并按用户发展阶段，定制专业且性价比高的AI计算方案。具体来说，底层是AI硬件资源层，包括各类算力服务器、高速存储、高速互联等产品；向上AI集群设计层，从微架构层面分析AI集群网络和存储架构分析优化，以及AI模型的特征分析；之上是AI算子优化层，包括基础算子深度优化、AI基础运行时支撑优化、系统工程优化等，减少模型执行时间，降低资源消耗，提高能效比；再上层是AI中台层，全面支持NVAIE AI平台（NVIDIA）和宁畅自己的NEX AIOM，可以提供基于AI算力系统深度整合的工作栈；向上是AI业务层，包括全面的性能分析、大模型并行优化和模型开发等；顶层是AI场景层，包括数字金融、智能驾驶、智能制造、智慧科研、生物医疗、智慧通信、智慧政务等。

至于六大特性，可归纳为六个“全”——分别是全体系、全液冷、全服务、全场景、全行业、全阶段。例如，全体系会支持通用、AI、边缘计算、整机柜、 AI工作站、AI算力栈等硬件，以及软件、平台、应用、开发工具支持与适配，全液冷会覆盖服务器、机柜、数据中心多形态，支持风冷、冷板式液冷、浸没式液冷等方式。其中，宁畅W350G50工作站可以支持AI所需强劲算力在桌面端实现，边缘服务器E420G50可以在特定环境中提供更低延迟的服务，搭载英特尔®至强®可扩展处理器的高密度服务器可以满足严苛的算力需求，整机柜液冷服务器将升级为无风扇设计。宁畅B8000液冷整机柜服务器作为AI算力栈颇具亮点的交付形态，采用电、液、网三路全盲插设计，部署周期相较传统方式提升30倍。

宁畅总裁秦晓宁

以某家车企为例，宁畅会帮助其在算力系统搭建时实现千个节点的互联方案，配备了液冷整机柜，实现了电液盲插，易运维，敏捷部署。软件层面，针对自动驾驶的特定算法、模型的软件栈提供了优化的深度学习框架和加速库，包括预训练模型、模型压缩、加速技术，以及针对车辆硬件平台优化的深度学习库。在AI软件栈中，包含模拟和测试工具，支持虚拟环境的创建、测试执行等，可以辅助提升驾驶系统的安全性，并且可以为车企的大量数据进行预处理、自动标注等操作，提升数据利用效率，加速模型训练。

“全液冷是必然会实现的事情。预计到2026年，液冷技术在数据中心渗透率会达到30%。因为到那个时候，新量产的GPU系统的单机功耗会到20千瓦，单卡功耗会到1000瓦以上，传统技术无法突破，必须通过涨功耗同时搭配液冷散热的形式，让算力进一步提升。除此之外，电力供应也是一个重要的影响因素。”宁畅CTO赵雷说。无论是风液混合还是全液冷方案，宁畅都可以根据客户的预算和部署要求来定制。

软件方面，宁畅观察到了计算能力分析、网络优化升级、应用热点选择的需求痛点，认为会有越来越多的场景需要软件能力，进一步提升AI的运算能力和产品使用率，包括基础算子优化能力、AI基础运行时支撑优化能力、系统工程优化能力、基于模型性能优化能力。例如，优化硬件资源让处理器指令高效调用，利用NEX AIOM搭配用户资源Bring spare框架，实现基于图像的检测模式，以及推理和智能检测，通过模型数据清洗大幅提升结果精度。

宁畅CTO赵雷

结合在AI计算领域的软硬件能力，宁畅还推出了“AI算力栈” ，旨在有效解决大模型产业落地的全周期问题。据了解，国内首个AI算力栈——NEX AI Lab（Nettrix AI Open Lab）已在桐乡市成功落地。NEX AI Lab集成加速计算节点、全闪存存储节点，采用了X640G50搭配GPU组成的系统，以及400G网络连接，同时可支持X680G55液冷服务器。其中，该算力栈可以为GPT、LLaMA、Stable Diffusion等AI模型，提供多元场景应用优化支持。目前，NEX AI Lab已开放预约试用，以支持用户体验大模型、数据科学、推荐系统等领域的解决方案工作流。

宁畅开放首个AI算力栈“NEX AI Lab”

可以说，无论客户想要的是标准化方案还是定制化方案，宁畅都可以满足其需求。例如，互联网企业很了解技术，宁畅会直接按需提供设备服务，一些传统IDC的客户和跨行业的企业，则需要专门的方案设计服务，以实现AI能力的部署和交付，此时，就要涉及到上架实施、节点调用、机房供电、运维管理、网络通信等问题，而这些正是宁畅全场景能力的体现。

经过四年多的发展，宁畅在传统服务器的销售额、AI服务器的销售额，以及液冷服务器的市场表现等方面均进入了行业前列。秉承着技术导向的理念，宁畅无疑将在AI时代走得更远。全局智算，是一个新的开始。“我们希望通过具备六大特性的能力矩阵，向上解决极致算效、精度增强、高效稳定的复杂问题，向下赋能千行百业，让大模型落地成为各行各业的新质生产力。”秦晓宁谈到，“当然，‘全局智算’也不是靠宁畅一己之力能实现的，需要产业各方的伙伴通力合作，优势互补，才能共谋智算未来的产业发展。”