小米发布MiMo-V2.5语音模型系列，覆盖合成、设计与克隆全能力-中关村在线

小米发布MiMo-V2.5语音模型系列，覆盖合成、设计与克隆全能力

十三号胡同

原创

04-24

2026年4月24日，小米正式推出MiMo-V2.5语音模型系列，涵盖MiMo-V2.5-TTS语音合成与MiMo-V2.5-ASR语音识别两大核心模块。该系列专为智能体时代构建，实现语音输入与输出的全链路覆盖，使语音交互可如语言本身一般被灵活调用与编排。

在语音合成方向，MiMo-V2.5-TTS系列提供三款差异化模型，适配多元创作需求：

第一款为标准版MiMo-V2.5-TTS，集成多套经专业打磨的高品质音色，发音自然流畅，情感表达准确贴切。支持对语速、情绪强度、语气倾向等维度进行细粒度调节，开箱即可投入实际应用，兼顾效率与表现力。

第二款为MiMo-V2.5-TTS-VoiceDesign，具备基于文本生成全新音色的能力。用户仅需用自然语言描述目标声音特征，例如“语速舒缓、略带鼻音的中年教师”或“语调轻快、富有跳跃感的青少年主播”，模型即可自主生成匹配的声音形象。该能力突破传统性别、年龄等粗略分类限制，可理解并响应涉及口音、音质质感、性格气质乃至模糊甚至存在张力的复合型描述，依托大规模预训练所形成的语义泛化能力，实现高保真声音构想。

第三款为MiMo-V2.5-TTS-VoiceClone，专注高保真音色复刻。用户只需提供数秒原始音频，无需训练、无需微调，即可精准还原播客主理人、专业配音演员、品牌代言人乃至用户本人的声音特质。复刻结果不仅保留音色本体，更完整继承呼吸节奏、语流停顿、重音习惯等个性化韵律特征。在此基础上，还可叠加自然语言指令、音频标记或结构化脚本，进一步拓展语音内容的创作深度与表达自由度。

作为整套语音模型体系的感知基础，MiMo-V2.5-ASR在语音识别层面展现出全面的场景适应性：在中英文混合、中文多方言、语码转换、强背景噪声、多人交替说话以及高信息密度对话等真实复杂环境中，均达到当前行业领先水平。

目前，MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign与MiMo-V2.5-TTS-VoiceClone三款模型已同步上线Xiaomi MiMo API开放平台，并面向开发者限时免费开放调用。

展开全文