近日,有消息称英伟达的最新处理器Blackwell在高容量服务器机架中存在严重的过热问题。这些问题导致设计调整与项目延期,使得谷歌、Meta和微软等主要客户对能否按计划部署Blackwell服务器感到担忧。
据了解,Blackwell GPU专为AI和高性能计算(HPC)设计,但在配置72个处理器的服务器中出现了过热问题。这些服务器每台功耗可达120千瓦,由于过热问题迫使英伟达多次修改机架设计,不仅限制了GPU性能,还可能损坏硬件。客户因此担心,这些技术问题会延迟数据中心处理器的部署进程。
为解决这一难题,英伟达要求供应商调整机架设计,并与合作伙伴一起优化散热系统。尽管这种工程改进是大规模技术发布中的常规步骤,但也进一步推迟了产品交付时间。
对此事件,英伟达发言人表示公司正与云服务提供商密切合作,设计调整属于正常研发流程的一部分。英伟达希望通过这种合作,确保最终产品在性能和可靠性方面达到预期,同时加紧解决技术瓶颈。
据悉修订后的Blackwell GPU于今年10月底才进入量产,预计最快明年1月底出货。然而对于谷歌、Meta、微软等科技巨头来说,在训练其最强大的AI模型时依赖英伟达GPU的时间表已经被打乱了。
评论