智谱GLM-5正式发布：7450亿参数多模态大模型引爆市场-中关村在线

智谱GLM-5正式发布：7450亿参数多模态大模型引爆市场

林有三

原创

02-11

2月10日，业内消息显示，春节假期期间国产人工智能领域迎来多款重要模型发布。继广受关注的DeepSeek V4之后，智谱公司新一代大语言模型GLM-5也已正式上线，成为近期市场焦点之一，推动该公司股价在短期内上涨约两倍。

此前，一款代号为“Pony Alpha”的匿名模型悄然登陆全球主流模型服务平台OpenRouter，迅速引发广泛关注。该模型在多项基准测试中表现突出，尤其在代码生成任务上，能力接近当前业界顶尖水平的Claude Opus。

围绕Pony Alpha的归属问题，社区曾展开大量推测与验证。目前综合多方线索，基本可确认其即为智谱即将发布的GLM-5。一方面，系统内部提示词明确标识其属于GLM系列；另一方面，研究人员复现了GLM家族一个标志性行为特征——当输入“锅内倒入植物油烧热”这类中式烹饪指令时，模型会输出逻辑混乱、不符合常识的结果，而Pony Alpha同样呈现这一现象，进一步佐证了身份。

随着更多技术细节被披露，GLM-5的整体架构也逐渐清晰。该模型延续了DeepSeek-V3及V3.2所采用的稀疏注意力机制（DeepSeek Sparse Attention，DSA），总参数量达7450亿，约为上一代GLM-4.7的两倍。

除DSA外，GLM-5另一项关键技术突破是引入多Token预测（Multi-Token Prediction，MTP）机制。模型共78层隐藏层，包含256个专家模块，每次推理激活其中8个，对应激活参数量约为440亿，整体稀疏度为5.9%。上下文窗口最大支持202000个token，显著提升长文本处理能力。

复用DeepSeek架构带来诸多工程优势：可直接兼容vLLM、SGLang等主流推理框架的既有优化成果，大幅降低部署难度与运维成本。

值得注意的是，GLM-5首次拓展至多模态能力范畴。此前DeepSeek系列主要聚焦纯文本理解与生成，未支持视频等模态输入。而在2026年，具备跨模态理解能力已成为新一代大模型的基本要求，GLM-5在此方向的进展标志着智谱技术路线的重要升级。

伴随GLM系列在全球范围内的持续落地与用户增长，智谱公司资本市场表现强劲，当前总市值已攀升至约1500亿港币，较数月前首次公开发行时增长约三倍。

展开全文