2026年5月27日,小米正式宣布旗下MiMo-V2.5系列大模型API启动永久性价格调整。此次调价自北京时间当日零时起在全球范围内同步生效。
调整后,MiMo-V2.5系列整体定价大幅下降,其中MiMo-V2.5 Pro版本输入缓存命中单价降至每百万tokens零点零二五元,降幅最高达百分之九十九;MiMo-V2.5版本输入缓存命中单价为每百万tokens零点零二元,降幅最高达百分之九十八。在输出侧,MiMo-V2.5 Pro单价调整为每百万tokens六元,降幅最高达百分之八十六;MiMo-V2.5则为每百万tokens两元,降幅最高达百分之九十三。本次降价覆盖全部使用场景,不再依据上下文窗口长度进行差异化计费。
与此同时,MiMo系列配套的Token Plan计费体系完成全面升级。在保持原有费用不变的前提下,用户可用token总量提升至原先的五至八倍。新体系引入Credits作为统一计量单位,使资源消耗与计费逻辑更为直观、透明。
此次成本优化源于底层推理系统的持续突破。技术团队依托SGLang HiCache框架,完整实现滑动窗口注意力机制,显著降低KV缓存数据在GPU显存、CPU内存及固态硬盘之间的跨层级搬运量,降幅接近原有水平的七分之一;同时将可缓存token容量提升至优化前的约五倍,有效提高缓存命中率与整体推理效率。此外,通过改进专家并行策略与输入长度分桶机制,集群的输入吞吐能力进一步增强,在确保服务质量稳定的基础上,持续压低单token服务成本。

评论
更多评论