中关村在线

热点资讯

蚂蚁开源全模态大模型Ming-Flash-Omni 2.0,性能超Gemini 2.5 Pro

2026年2月11日,蚂蚁集团正式开源全模态大模型 Ming-Flash-Omni 2.0。

该模型在多项公开基准测试中表现优异,涵盖视觉语言理解、语音可控生成、图像生成与编辑等核心能力,部分指标已超过 Gemini 2.5 Pro,树立了当前开源全模态大模型性能的新高度。

Ming-Flash-Omni 2.0 是业内首个支持全场景音频统一生成的大模型,可在单条音轨中同步生成人声、环境音效与背景音乐。用户仅需使用自然语言下达指令,即可对音色、语速、语调、音量、情绪表达及方言特征等维度实现精细化调控。模型在推理阶段达到3.1Hz的极低帧率,支持分钟级长度音频的实时高保真合成,在推理效率与资源消耗控制方面处于行业前列。

蚂蚁集团长期深耕全模态技术领域,Ming-Omni 系列历经三轮迭代演进。本次开源 Ming-Flash-Omni 2.0,标志着其底层核心能力以可复用、可集成的技术底座形式全面开放,为端到端多模态应用的研发提供统一的能力支撑入口。

该模型基于 Ling-2.0 架构构建,采用混合专家(MoE)结构,参数规模达百亿级,其中活跃参数约60亿。整体设计围绕“看得更准、听得更细、生成更稳”三大目标展开系统性优化:

在视觉能力上,融合亿级细粒度标注数据与难例增强训练策略,显著提升对近缘动植物种类、精密工艺细节及稀有文物等高难度对象的识别精度;

在音频能力上,实现语音、音效、音乐的同轨协同生成,支持自然语言驱动的多维参数调节,并具备零样本音色克隆与个性化定制能力;

在图像能力上,强化复杂编辑任务的稳定性与一致性,支持光影重映射、场景替换、人物姿态调整及一键式智能修图等功能,即使在动态连续画面中亦能保持视觉连贯性与细节真实性。

目前,Ming-Flash-Omni 2.0 的模型权重与推理代码已在主流开源社区上线,用户可通过 Hugging Face 等平台获取。同时,也可登录蚂蚁百灵官方平台 Ling Studio,在线体验模型功能并进行实际调用。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具