华为通过纯昇腾计算集群训练出的盘古 Ultra,在数学竞赛、编程任务等需要强大推理能力的场景中,表现出色,与DeepSeek-R1等模型展开了激烈的竞争。尤为值得一提的是,该模型参数量仅为135B,整个训练过程完全基于国产技术栈,未使用英伟达相关产品,并且在训练过程中没有出现损失尖峰的现象。
盘古 Ultra 通过优化的模型架构和系统级调优策略,实现了卓越的性能表现,其算力利用率超过52%。有业内人士指出,训练过程中未出现损失尖峰的情况,这一特征在过去的相关研究中似乎未曾实现,具有重要的技术突破意义。
在预训练阶段的评估中,盘古 Ultra 在绝大多数英文基准任务以及所有中文任务上均取得了最佳性能,显著优于诸如Llama 405B、DeepSeek-V3等主流基线模型。特别是在MMLU、TriviaQA、GSM8K等高难度数据集上,盘古 Ultra 展现了强大的语言理解与推理能力。
经过进一步的指令微调后,盘古 Ultra 的性能得到了进一步提升,在AIME 2024、MATH-500等数学推理任务以及LiveCodeBench等编程竞赛题中达到了业界领先水平。此外,盘古 Ultra 在Arena Hard、MMLU-pro等涉及通用语言理解和推理能力的测试中同样表现出色。
总体而言,盘古 Ultra 不仅超越了GPT-4o、Mistral-Large 2等多款顶尖模型,还与DeepSeek-R1等专家混合模型(MoE)展开了激烈角逐,充分展示了其在高性能推理领域的竞争力和技术实力。



评论
更多评论