2026年5月9日,近期有用户注意到一个值得关注的现象:MiniMax推出的M2系列模型在处理“马嘉祺”这一姓名时存在异常表现。
最初,人们倾向于将其视为偶发性的小范围偏差。但经过多轮交叉验证——包括切换不同调用接口、在多个平台反复测试——该问题始终稳定出现,表现出高度一致性。
针对这一情况,MiniMax于今日发布技术说明,系统梳理了“嘉祺识别异常”的排查路径与归因分析。
团队围绕多个关键环节展开深度诊断:包括分词器版本的一致性校验、词向量分布特征分析、语义邻近检索效果评估、预训练与后训练阶段小样本生成能力对比实验、后训练语料中相关词汇的出现频次统计,以及对语言模型输出层全词表映射权重变化幅度的逐项扫描。
最终确认,根本原因在于:“嘉祺”在当前分词体系中被整体编码为一个独立token,但由于该token在后训练数据中出现次数极少,模型在持续优化过程中逐步弱化了对该token的生成响应能力,导致输出失准。
为解决该问题,团队构建了一套覆盖全词表的合成训练数据,其核心逻辑是通过设计轻量级复述任务,为每个token设定基础生成频率下限,从而有效防止因数据稀疏引发的token能力退化。
同时,MiniMax已将词表覆盖率正式纳入后训练数据质量的常态化监控体系,以期在模型迭代早期识别潜在的稀疏token风险,切实提升线上服务的稳定性与一致性。

评论
更多评论