中关村在线

热点资讯

华为盘古Ultra:国产135B参数模型推理性能媲美DeepSeek-R1

华为通过纯昇腾计算集群训练出的盘古 Ultra,在数学竞赛、编程任务等需要强大推理能力的场景中,表现出色,与DeepSeek-R1等模型展开了激烈的竞争。尤为值得一提的是,该模型参数量仅为135B,整个训练过程完全基于国产技术栈,未使用英伟达相关产品,并且在训练过程中没有出现损失尖峰的现象。

盘古 Ultra 通过优化的模型架构和系统级调优策略,实现了卓越的性能表现,其算力利用率超过52%。有业内人士指出,训练过程中未出现损失尖峰的情况,这一特征在过去的相关研究中似乎未曾实现,具有重要的技术突破意义。

在预训练阶段的评估中,盘古 Ultra 在绝大多数英文基准任务以及所有中文任务上均取得了最佳性能,显著优于诸如Llama 405B、DeepSeek-V3等主流基线模型。特别是在MMLU、TriviaQA、GSM8K等高难度数据集上,盘古 Ultra 展现了强大的语言理解与推理能力。

经过进一步的指令微调后,盘古 Ultra 的性能得到了进一步提升,在AIME 2024、MATH-500等数学推理任务以及LiveCodeBench等编程竞赛题中达到了业界领先水平。此外,盘古 Ultra 在Arena Hard、MMLU-pro等涉及通用语言理解和推理能力的测试中同样表现出色。

总体而言,盘古 Ultra 不仅超越了GPT-4o、Mistral-Large 2等多款顶尖模型,还与DeepSeek-R1等专家混合模型(MoE)展开了激烈角逐,充分展示了其在高性能推理领域的竞争力和技术实力。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具