中关村在线

热点资讯

小米发布MiMo-V2.5语音模型系列,覆盖合成、设计与克隆全能力

2026年4月24日,小米正式推出MiMo-V2.5语音模型系列,涵盖MiMo-V2.5-TTS语音合成与MiMo-V2.5-ASR语音识别两大核心模块。该系列专为智能体时代构建,实现语音输入与输出的全链路覆盖,使语音交互可如语言本身一般被灵活调用与编排。

在语音合成方向,MiMo-V2.5-TTS系列提供三款差异化模型,适配多元创作需求:

第一款为标准版MiMo-V2.5-TTS,集成多套经专业打磨的高品质音色,发音自然流畅,情感表达准确贴切。支持对语速、情绪强度、语气倾向等维度进行细粒度调节,开箱即可投入实际应用,兼顾效率与表现力。

第二款为MiMo-V2.5-TTS-VoiceDesign,具备基于文本生成全新音色的能力。用户仅需用自然语言描述目标声音特征,例如“语速舒缓、略带鼻音的中年教师”或“语调轻快、富有跳跃感的青少年主播”,模型即可自主生成匹配的声音形象。该能力突破传统性别、年龄等粗略分类限制,可理解并响应涉及口音、音质质感、性格气质乃至模糊甚至存在张力的复合型描述,依托大规模预训练所形成的语义泛化能力,实现高保真声音构想。

第三款为MiMo-V2.5-TTS-VoiceClone,专注高保真音色复刻。用户只需提供数秒原始音频,无需训练、无需微调,即可精准还原播客主理人、专业配音演员、品牌代言人乃至用户本人的声音特质。复刻结果不仅保留音色本体,更完整继承呼吸节奏、语流停顿、重音习惯等个性化韵律特征。在此基础上,还可叠加自然语言指令、音频标记或结构化脚本,进一步拓展语音内容的创作深度与表达自由度。

作为整套语音模型体系的感知基础,MiMo-V2.5-ASR在语音识别层面展现出全面的场景适应性:在中英文混合、中文多方言、语码转换、强背景噪声、多人交替说话以及高信息密度对话等真实复杂环境中,均达到当前行业领先水平。

目前,MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceDesign与MiMo-V2.5-TTS-VoiceClone三款模型已同步上线Xiaomi MiMo API开放平台,并面向开发者限时免费开放调用。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具