蚂蚁开源全模态大模型Ming-Flash-Omni 2.0，性能超Gemini 2.5 Pro

两三杯可乐

原创

02-11

2026年2月11日，蚂蚁集团正式开源全模态大模型 Ming-Flash-Omni 2.0。

该模型在多项公开基准测试中表现优异，涵盖视觉语言理解、语音可控生成、图像生成与编辑等核心能力，部分指标已超过 Gemini 2.5 Pro，树立了当前开源全模态大模型性能的新高度。

Ming-Flash-Omni 2.0 是业内首个支持全场景音频统一生成的大模型，可在单条音轨中同步生成人声、环境音效与背景音乐。用户仅需使用自然语言下达指令，即可对音色、语速、语调、音量、情绪表达及方言特征等维度实现精细化调控。模型在推理阶段达到3.1Hz的极低帧率，支持分钟级长度音频的实时高保真合成，在推理效率与资源消耗控制方面处于行业前列。

蚂蚁集团长期深耕全模态技术领域，Ming-Omni 系列历经三轮迭代演进。本次开源 Ming-Flash-Omni 2.0，标志着其底层核心能力以可复用、可集成的技术底座形式全面开放，为端到端多模态应用的研发提供统一的能力支撑入口。

该模型基于 Ling-2.0 架构构建，采用混合专家（MoE）结构，参数规模达百亿级，其中活跃参数约60亿。整体设计围绕“看得更准、听得更细、生成更稳”三大目标展开系统性优化：

在视觉能力上，融合亿级细粒度标注数据与难例增强训练策略，显著提升对近缘动植物种类、精密工艺细节及稀有文物等高难度对象的识别精度；

在音频能力上，实现语音、音效、音乐的同轨协同生成，支持自然语言驱动的多维参数调节，并具备零样本音色克隆与个性化定制能力；

在图像能力上，强化复杂编辑任务的稳定性与一致性，支持光影重映射、场景替换、人物姿态调整及一键式智能修图等功能，即使在动态连续画面中亦能保持视觉连贯性与细节真实性。

目前，Ming-Flash-Omni 2.0 的模型权重与推理代码已在主流开源社区上线，用户可通过 Hugging Face 等平台获取。同时，也可登录蚂蚁百灵官方平台 Ling Studio，在线体验模型功能并进行实际调用。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Mate 80(12GB/256GB)

HUAWEI Mate 80(12GB/256GB)

209人评分

80%好评

iQOO 15 Ultra（16GB/256GB）

iQOO 15 Ultra（16GB/256GB）

6人评分

99%好评

OPPO Find X9 Pro(12GB/256GB)

OPPO Find X9 Pro(12GB/256GB)

423人评分

99%好评

真我Neo8(12GB+256GB)

真我Neo8(12GB+256GB)

328人评分

80%好评

Redmi Turbo 5 MAX(12GB/256GB)

Redmi Turbo 5 MAX(12GB/256GB)

348人评分

80%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具