中关村在线

服务器

全局智算 软硬兼备 共迎AI时代新机遇

智能计算的热潮席卷了千行百业,背后则是对计算、网络和存储能力的巨大挑战。从ChatGPT到多模态AI,再到前不久的Sora,人们似乎看到了人工智能的无所不能,不过与此同时,应用场景的需求越来越复杂,仅靠暴力计算并非长久之计。“在大模型的深入落地的过程中,我们看到了复杂的客户需求不断涌现,涉及到算法、算力、数据三个维度,算效、精度和服务等方面远远没有满足客户的需求。”在2024宁畅战略新品及方案发布会上,宁畅总裁秦晓宁表示,“宁畅将通过‘全局智算’战略,以系统的全面性来对抗需求的复杂性,在复杂的需求面前,宁畅将以全方位的AI计算方案支持大模型发展的全生命周期,解决大模型落地的问题。”

定制化专家、冷静计算、全局智算,宁畅一路走来的战略方向都是经过深思熟虑的,顺应了彼时的市场趋势,并且过后来看都具有一定的前瞻性。在秦晓宁看来,大模型的发展经历了“堆硬件”的阶段,现在从参数竞赛走向了商业化、产业化的落地阶段,需要的是支撑能力的体系升级,涉及人工智能的硬件层、集群层、中台层、内容层、服务层等等。要知道,OpenAI在训练GPT4时的算力利用率约为35%,这意味着较大的资源浪费。要想充分利用算力效能,“算、网、存、管”缺一不可。

在行业端,企业对模型精度的要求越来越高,满足起来并不容易。例如,行业数据会涉及很多敏感信息,要考虑安全合规性,还要做好数据的清洗、标注、治理等工作,保障数据的时效性和有效性,还要有软硬件工具的支持和优化。在大模型部署阶段,训练和推理的数据要实时对接,还要做好模型的精简、蒸馏、压缩等等,之后要做到敏捷部署,以及稳定运行,又需要对这些资源进行实时的监控和管理……这些流程慢慢成为企业应用AI的阻碍。

对此,宁畅提出了“全局智算”战略,具备六大特性,涵盖软硬件全体系及全液冷产品,提供咨询、测试、运维、售后的全流程服务,满足全行业用户大模型开发、适配、部署的全场景需求,并按用户发展阶段,定制专业且性价比高的AI计算方案。具体来说,底层是AI硬件资源层,包括各类算力服务器、高速存储、高速互联等产品;向上AI集群设计层,从微架构层面分析AI集群网络和存储架构分析优化,以及AI模型的特征分析;之上是AI算子优化层,包括基础算子深度优化、AI基础运行时支撑优化、系统工程优化等,减少模型执行时间,降低资源消耗,提高能效比;再上层是AI中台层,全面支持NVAIE AI平台(NVIDIA)和宁畅自己的NEX AIOM,可以提供基于AI算力系统深度整合的工作栈;向上是AI业务层,包括全面的性能分析、大模型并行优化和模型开发等;顶层是AI场景层,包括数字金融、智能驾驶、智能制造、智慧科研、生物医疗、智慧通信、智慧政务等。

至于六大特性,可归纳为六个“全”——分别是全体系、全液冷、全服务、全场景、全行业、全阶段。例如,全体系会支持通用、AI、边缘计算、整机柜、 AI工作站、AI算力栈等硬件,以及软件、平台、应用、开发工具支持与适配,全液冷会覆盖服务器、机柜、数据中心多形态,支持风冷、冷板式液冷、浸没式液冷等方式。其中,宁畅W350G50工作站可以支持AI所需强劲算力在桌面端实现,边缘服务器E420G50可以在特定环境中提供更低延迟的服务,搭载英特尔®至强®可扩展处理器的高密度服务器可以满足严苛的算力需求,整机柜液冷服务器将升级为无风扇设计。宁畅B8000液冷整机柜服务器作为AI算力栈颇具亮点的交付形态,采用电、液、网三路全盲插设计,部署周期相较传统方式提升30倍。

宁畅总裁秦晓宁

以某家车企为例,宁畅会帮助其在算力系统搭建时实现千个节点的互联方案,配备了液冷整机柜,实现了电液盲插,易运维,敏捷部署。软件层面,针对自动驾驶的特定算法、模型的软件栈提供了优化的深度学习框架和加速库,包括预训练模型、模型压缩、加速技术,以及针对车辆硬件平台优化的深度学习库。在AI软件栈中,包含模拟和测试工具,支持虚拟环境的创建、测试执行等,可以辅助提升驾驶系统的安全性,并且可以为车企的大量数据进行预处理、自动标注等操作,提升数据利用效率,加速模型训练。

“全液冷是必然会实现的事情。预计到2026年,液冷技术在数据中心渗透率会达到30%。因为到那个时候,新量产的GPU系统的单机功耗会到20千瓦,单卡功耗会到1000瓦以上,传统技术无法突破,必须通过涨功耗同时搭配液冷散热的形式,让算力进一步提升。除此之外,电力供应也是一个重要的影响因素。”宁畅CTO赵雷说。无论是风液混合还是全液冷方案,宁畅都可以根据客户的预算和部署要求来定制。

软件方面,宁畅观察到了计算能力分析、网络优化升级、应用热点选择的需求痛点,认为会有越来越多的场景需要软件能力,进一步提升AI的运算能力和产品使用率,包括基础算子优化能力、AI基础运行时支撑优化能力、系统工程优化能力、基于模型性能优化能力。例如,优化硬件资源让处理器指令高效调用,利用NEX AIOM搭配用户资源Bring spare框架,实现基于图像的检测模式,以及推理和智能检测,通过模型数据清洗大幅提升结果精度。

宁畅CTO赵雷

结合在AI计算领域的软硬件能力,宁畅还推出了“AI算力栈” ,旨在有效解决大模型产业落地的全周期问题。据了解,国内首个AI算力栈——NEX AI Lab(Nettrix AI Open Lab)已在桐乡市成功落地。NEX AI Lab集成加速计算节点、全闪存存储节点,采用了X640G50搭配GPU组成的系统,以及400G网络连接,同时可支持X680G55液冷服务器。其中,该算力栈可以为GPT、LLaMA、Stable Diffusion等AI模型,提供多元场景应用优化支持。目前,NEX AI Lab已开放预约试用,以支持用户体验大模型、数据科学、推荐系统等领域的解决方案工作流。

宁畅开放首个AI算力栈“NEX AI Lab”

可以说,无论客户想要的是标准化方案还是定制化方案,宁畅都可以满足其需求。例如,互联网企业很了解技术,宁畅会直接按需提供设备服务,一些传统IDC的客户和跨行业的企业,则需要专门的方案设计服务,以实现AI能力的部署和交付,此时,就要涉及到上架实施、节点调用、机房供电、运维管理、网络通信等问题,而这些正是宁畅全场景能力的体现。

经过四年多的发展,宁畅在传统服务器的销售额、AI服务器的销售额,以及液冷服务器的市场表现等方面均进入了行业前列。秉承着技术导向的理念,宁畅无疑将在AI时代走得更远。全局智算,是一个新的开始。“我们希望通过具备六大特性的能力矩阵,向上解决极致算效、精度增强、高效稳定的复杂问题,向下赋能千行百业,让大模型落地成为各行各业的新质生产力。”秦晓宁谈到,“当然,‘全局智算’也不是靠宁畅一己之力能实现的,需要产业各方的伙伴通力合作,优势互补,才能共谋智算未来的产业发展。”

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多
说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具