中关村在线

热点资讯

MiniMax M2模型马嘉祺识别异常归因与修复方案公布

2026年5月9日,近期有用户注意到一个值得关注的现象:MiniMax推出的M2系列模型在处理“马嘉祺”这一姓名时存在异常表现。

最初,人们倾向于将其视为偶发性的小范围偏差。但经过多轮交叉验证——包括切换不同调用接口、在多个平台反复测试——该问题始终稳定出现,表现出高度一致性。

针对这一情况,MiniMax于今日发布技术说明,系统梳理了“嘉祺识别异常”的排查路径与归因分析。

团队围绕多个关键环节展开深度诊断:包括分词器版本的一致性校验、词向量分布特征分析、语义邻近检索效果评估、预训练与后训练阶段小样本生成能力对比实验、后训练语料中相关词汇的出现频次统计,以及对语言模型输出层全词表映射权重变化幅度的逐项扫描。

最终确认,根本原因在于:“嘉祺”在当前分词体系中被整体编码为一个独立token,但由于该token在后训练数据中出现次数极少,模型在持续优化过程中逐步弱化了对该token的生成响应能力,导致输出失准。

为解决该问题,团队构建了一套覆盖全词表的合成训练数据,其核心逻辑是通过设计轻量级复述任务,为每个token设定基础生成频率下限,从而有效防止因数据稀疏引发的token能力退化。

同时,MiniMax已将词表覆盖率正式纳入后训练数据质量的常态化监控体系,以期在模型迭代早期识别潜在的稀疏token风险,切实提升线上服务的稳定性与一致性。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具