在生成式AI爆发的时代,人们需要的不止是大规模的加速计算,高质量的智算中心建设更为关键。这一过程中,算力、网络、存储、运维等环节缺一不可,要知道,大模型的推理和训练需要成千上万颗GPU,这些海量GPU连接后形成的超级计算集群,离不开高可靠、低时延、有韧性的智算网络。尤其是对于中国算力产业的发展来说,计算集群的并行化、协同化发展更为重要。例如,拥有1750亿参数的ChatGPT-3由1万个V100 GPU和28.5万个CPU组成,每个GPU服务器要有400Gb/s的网络性能才能满足算力需求,更不要说万亿级参数的GPT-4。
国家发展改革委等部门印发的《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》(下称“《意见》”)指出,到2025年底,普惠易用、绿色安全的综合算力基础设施体系初步成型,东西部算力协同调度机制逐步完善,通用算力、智能算力、超级算力等多元算力加速集聚,国家枢纽节点地区各类新增算力占全国新增算力的60%以上,国家枢纽节点算力资源使用率显著超过全国平均水平。1ms时延城市算力网、5ms时延区域算力网、20ms时延跨国家枢纽节点算力网在示范区域内初步实现。算力电力双向协同机制初步形成,国家枢纽节点新建数据中心绿电占比超过80%。用户使用各类算力的易用性明显提高、成本明显降低,国家枢纽节点间网络传输费用大幅降低。算力网关键核心技术基本实现安全可靠,以网络化、普惠化、绿色化为特征的算力网高质量发展格局逐步形成。?
“如果说过去的网络是分析层级,是单点连接的,那么在智算时代,网络之间联接的外延和内生都在拓展,深入到了服务器内部、服务器与服务器之间、数据中心之间,以及广域网、园区网之间等等。”新华三集团高级副总裁、网络产品线总裁曾富贵谈到,“多元化算力的异构性和大幅提升的计算性能需要更强的网络支撑,因此,新华三网络也迎来了全面升级,从‘算力+联接’,演进到了‘算力×联接’。”
新华三集团高级副总裁、网络产品线总裁曾富贵
可以说,“算力×联接”是新华三“AI in All”、“AI for All”战略落地的技术基础。在算力需求爆发的背景下,数据中心内部、数据中心之间的联接和海量的数据传输对网络提出了更严苛的要求,要实现数据在超长距离下的无损通信。因此,高品质、确定性的网络联接就显得尤为重要,而这需要网络基础设施、控制和管理层,以及运维服务层协同升级。更重要的是,要有一个“智慧大脑”对网络全局进行可视化的实时采集和分析,并使其灵活调度,稳定可靠。
依托于“算力×联接”理念,新华三发布了灵犀大模型,并通过全面融合AI能力的AD-NET 7.0承载灵犀大模型落地,支持其部署在云端或本地,结合网络设备内嵌的NAI(Native Artificial Intelligence)智原生技术,对数据中心、园区网、广域网等场景能力均进行了升级。通过灵犀大模型对整个网络赋能,能够让数据中心以算力为目标,实现更高效率、更低能耗的算力生产;让园区网以智快至简为目标,实现超宽、随时随地在线的算力应用接入;让广域网以业务智享为目标,实现面向业务、精细化管理的算力传送,满足要不同地域上高效的算力调度。基于新华三的智算能力、行业知识和实践经验,AD-NET 7.0实现了从“应用驱动网络”向“双A(Application+AI)驱动”的进化。
与此同时,模型参数的暴增让加速卡也来到了数十万张的量级,这种参数对硬件数量的非线性关系使得相应的网络设备、端口、光模块等数量会升至百万级的规模,数据中心的密度会越来越高,端口密度随之提高,高密度使得一个端口要有多个连接芯数。此时,规模化带来的第一个问题就是网络弹性,涉及技术、架构、能源等多方面的挑战,例如路由器跨城域无损、数据中心网络无损等。
第二个要解决有限空间内的电力供应和成本,如果要支持1000个机柜,需要数兆瓦的电力,电力和算网的成本同样重要。
新华三集团副总裁、网络产品线副总裁、交换机产品线总经理李玉涛介绍称,新华三在400G、800G交换机的研发过程中重点考虑了能耗的问题,支持LPO线性光模块,传统400G光模块的能耗是10-12瓦,LPO光模块则是6.5瓦,规模降幅显著。同时,新华三还推出了硅光交换机(CPO),省去了光模块的能源消耗,让机房的长期运营大受裨益。
为了确保大模型在训练过程中的网络可靠性,新华三的算网产品在出厂时就经过了各种严格的测试,通过专门的指导规范把光链路在上线后的故障率降到非常低的水平,并且在软件层面利用负载均衡等技术,提供了充分的冗余机制,在硬件故障时可以快速转换。例如借助DPSH协议,让过去链路断掉后的秒级或毫秒级转换,变为现在的微秒级转换,硬件可以自行感知链路状态,甚至无需软件介入。
可以看到,算力基础设施、AD-NET 7.0、灵犀大模型,构成了新华三网络AI能力的正向循环,即以网强算、以算提智、以智增效。其中,以智增效是指加速AI技术在数据通信领域的应用落地,AD-NET利用AIGC可实现高效的异常检测、趋势预测、故障诊断和智能调优,灵犀助手就是典型的应用,其支持用户以自然语言的方式获取网络知识、配置、产品推荐等信息,帮助各种复杂网络自动调优,同样,AI也可以让系统排障、防护更专业,网络运行更高效。以算提智,会基于新华三在ICT领域的知识语料积累,数万名网络专家,利用算力训练和微调获取灵犀大模型,对统一运维能力进行升级。以网强算,这也是网络和算力融合的体现,由AD-NET提供算力产生和算力联接的网络基础设施,为AI模型的训练带来了高效算力,支撑了智能化服务所需的联接服务。
在提高算力的同时,还要通过网络的无损、大吞吐量等方式让算力的利用率大幅提升,负载均衡就是很有代表性的技术,包括增强逐流均衡、逐包均衡、信元均衡等。智算数据中心内训练的模型参数非常大,大模型下面的流量模型差异较大,过去,不同业务之间的流量是10G、20G的差别,现在的均衡差别可能是数百G,这就导致了按流负载会出现大面积不均衡的情况,产生拥塞和丢包,影响整个模型的效率,消耗过多的网络带宽和训练时间。如果是按包负载,虽然能做到包数量的均衡,但在网络末端有可能出现数据包的乱序,使得终端网卡或网络要对乱序包进行重组,否则应用就会出现问题。这一过程中,并不是所有网卡和网络末端都有重组排序的能力。对此,新华三的盒盒组网、框盒组网、DDC组网可以支持各种异构的算力、网络末端的标卡和智能网卡,能够根据客户需求实施各类负载均衡的算法,实现了全局的负载均衡,无阻塞网络可以让每条链路都得到利用。
“比如说一条400G的链路,平时在训练过程中的流量数据很少,一旦训练完要做集合计算的时候,数据就会出现锯齿的形态,抖动非常大,流量带宽几乎都被占满了。如果多条链路同时再发的时候,一定会出现丢包,这就必须要用到负载均衡。我们可以预知不稳定因素,对流量进行调度,把丢包率降到最低。”李玉涛表示,“开放标准的以太网要通过负载均衡技术把RoCE最大的无损能力发挥出来,无论是DLB还是全局路径的规划,还有配合Agent软件,我们在网络链路中的效率提升是很明显的。”新华三的负载均衡体系架构可以对不同智算场景提供适合的负载均衡技术组合,提升智算中心算力规模和效率。
新华三的多元化产品和技术组合打通了异构算力的有效联接,支持开放的智算解决方案,还可以通过不同的组网形式和组网方案,让客户选择自由解耦的方案,大幅节省智算中心的网络建设成本,为供应链的多样性和持续的可靠性带来了保障。数据中心方面,新华三推出了基于DDC架构(Disaggregated Distributed Chassis分布式解耦机框)的算力集群核心交换机H3C S12500 AI系列,旨在为用户提供更具扩展性、更易运维管理、更具成本效益的分布式解耦机框方案。H3C S12500 AI系列具备信元级负载均衡、原生无损、超大规模的特点,可为用户构建天然零丢包的无损网络,提供自动化部署以及NCF与NCP的自组网能力,新增网元上线即可用,并且在网元失效时实现微秒级的拓扑收敛速度,适合异构GPU互联的场景。
园区网方面,以太全光+PON融合的技术大幅提升了接入层用户带宽,进一步降低园区网的能耗和TCO,让全网使用寿命得以提高。同时,新华三也在将更多的AI能力引入园区网,通过更精细化的粒度提升运维管理效率和体验,打造智快至简的园区网,让算力随时随地可获取和使用。为此,新华三升级了全光网络+Wi-Fi 7的解决方案,为基于AI的各类场景化应用提供了“最后一跳”的高质量接入体验,并且对轻量化园区BRAS(Broadband Remote Access Server)、可视化智能管理运维等环节进行了创新。此外,新华三也在推进FTTD接入产品、场景化Wi-Fi 7 AP和工业交换机的新品上市速度,针对全光施工部署的实际需求,新华三推出了光纤速熔技术,大幅简化布线的工序数量和耗时。
“我们会关注结合AI技术的发展,让园区智能运维再升级,比如无线4i技术(iRadio、iStation、iEdge、iHeal),用AI算法来优化软硬件的结合,让整体的网络体验变得更好。”新华三集团副总裁、无线产品线总经理赵玉金说。基于此,新华三推出了融入无线4i技术的Central AC解决方案,加上轻量化园区BRAS,可以大幅简化有线无线用户策略的管理复杂度,降低运维工作量,提供随需而动的园区策略管理和始终如一的园区用户体验。
《意见》中提到,以算力高质量发展赋能经济高质量发展为主线,充分发挥全国一体化算力网络国家枢纽节点引领带动作用,协同推进“东数西算”工程,形成跨地域、跨部门协同发展合力,统筹通用算力、智能算力、超级算力协同计算,东中西地区及大中小城市协同布局,算力、数据、算法协同应用,算力和绿色电力协同建设,算力发展和安全协同保障,构建联网调度、普惠易用、绿色安全的全国一体化算力网,助力网络强国、数字中国建设,打造中国式现代化的数字基座。
要想把核心枢纽算力网、跨区算力网、城市算力网统一起来,技术、成本、带宽都很重要。对于广域算力网络来说,带宽、算法和可靠性更是关键。以主力的CR19000、CR16000E-F等核心路由产品为例,新华三做了三点升级:其一,提供更高的400G转发速率,并利用确定性网络技术大幅降低广域网的延迟和抖动,借助DetNet、DetNetOAM等技术,新华三路由器可实现城域1毫秒、区域5毫秒、核心20毫秒的超低传输延迟,以及低至15微秒网络抖动幅度,大幅提升算力网络品质;其二,将算力因子融入了网络设备内嵌的路由算法,使广域网天然适用于传输算力;其三,让用户能够按需构建专用算力通道,提供服务化的算力专线。通过参数可选、随用随建、自动化建网、用完即拆、带宽动态调整等一系列特性,新华三路由器可进一步提升算力网络的资源利用率和网络SLA。
新华三集团路由器产品线总经理汪小勇称:“通过产品的创新、全网络节能、大模型优化等方式,网络成本会进一步降低,与此同时,网络会更具灵活性和弹性,客户自行操作也会更便捷。新华三的产品能做到从接入汇聚到核心网的端到端IPv6+的能力,把从城市算力网到核心算力网的技术底座全部打通。”
在AIGC的热潮下,各行各业的智能化都在加速,新华三网络的AD-NET也从Application驱动升级到了Application+AI的“双AI阶段”。“新华三在云、网、安、算、存、端进行了深入布局,去年推出了百业灵犀大模型,强调做私域部署,做专、做精。”新华三集团智能管理与运维产品线总经理敖襄桥谈到,“从网络端来看,我们有着多年的技术和经验积累,坚定融入大模型的能力。AD-NET就是要以AIGC为抓手,逐步提升智能化的水平,进一步强化其作为‘专家顾问’的能力。”如今,用户可以通过自然语言的方式让“灵犀助手”推荐方案和配置、自动组网,满足各类知识问答的需求,同时,还能够进行特定场景的故障预测,例如光模块诊断、流量预测等,并且Agent的能力还在提升。
可以说,算力和联接在智算时代已加速融合、互为动力。深耕企业网领域二十余年,新华三通过数据中心、园区、广域的三大场景创新释放了“算力×联接”的乘数效应,为行业客户提供了高品质的网络联接,推动了行业智能化的进程。“我们用AI技术对网络进行了新的赋能和升级,同时,我们的网络也对AI创新提供了坚实的基础。我们希望新华三的网络能够对算力的普惠化贡献更多,这既是未来的技术趋势,也是我们的使命。”曾富贵说。
评论