中关村在线

热点资讯

智谱GLM-5正式发布:7450亿参数多模态大模型引爆市场

2月10日,业内消息显示,春节假期期间国产人工智能领域迎来多款重要模型发布。继广受关注的DeepSeek V4之后,智谱公司新一代大语言模型GLM-5也已正式上线,成为近期市场焦点之一,推动该公司股价在短期内上涨约两倍。

此前,一款代号为“Pony Alpha”的匿名模型悄然登陆全球主流模型服务平台OpenRouter,迅速引发广泛关注。该模型在多项基准测试中表现突出,尤其在代码生成任务上,能力接近当前业界顶尖水平的Claude Opus。

围绕Pony Alpha的归属问题,社区曾展开大量推测与验证。目前综合多方线索,基本可确认其即为智谱即将发布的GLM-5。一方面,系统内部提示词明确标识其属于GLM系列;另一方面,研究人员复现了GLM家族一个标志性行为特征——当输入“锅内倒入植物油烧热”这类中式烹饪指令时,模型会输出逻辑混乱、不符合常识的结果,而Pony Alpha同样呈现这一现象,进一步佐证了身份。

随着更多技术细节被披露,GLM-5的整体架构也逐渐清晰。该模型延续了DeepSeek-V3及V3.2所采用的稀疏注意力机制(DeepSeek Sparse Attention,DSA),总参数量达7450亿,约为上一代GLM-4.7的两倍。

除DSA外,GLM-5另一项关键技术突破是引入多Token预测(Multi-Token Prediction,MTP)机制。模型共78层隐藏层,包含256个专家模块,每次推理激活其中8个,对应激活参数量约为440亿,整体稀疏度为5.9%。上下文窗口最大支持202000个token,显著提升长文本处理能力。

复用DeepSeek架构带来诸多工程优势:可直接兼容vLLM、SGLang等主流推理框架的既有优化成果,大幅降低部署难度与运维成本。

值得注意的是,GLM-5首次拓展至多模态能力范畴。此前DeepSeek系列主要聚焦纯文本理解与生成,未支持视频等模态输入。而在2026年,具备跨模态理解能力已成为新一代大模型的基本要求,GLM-5在此方向的进展标志着智谱技术路线的重要升级。

伴随GLM系列在全球范围内的持续落地与用户增长,智谱公司资本市场表现强劲,当前总市值已攀升至约1500亿港币,较数月前首次公开发行时增长约三倍。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具