面壁智能发布MiniCPM-o 2.6,这是首个端侧全模态模型,仅8B参数。
MiniCPM-o 2.6取得实时流式全模态开源模型SOTA,性能比肩代表全球最高水平的GPT-4o、Claude-3.5-Sonnet;在语音方面,取得理解、生成开源双SOTA,问鼎最强开源语音通用模型;在视觉领域,稳坐最强端侧视觉通用模型。
MiniCPM-o 2.6不仅支持中英双语语音对话,还具备情感、语速、风格控制,以及端到端声音克隆和角色扮演等进阶功能。值得一提的是,这是首个支持在iPad等端侧设备上进行多模态实时流式交互的模型。在OpenCompass榜单上,MiniCPM-o 2.6以70.2的平均得分,超越了多个主流商用闭源多模态大模型。
这款模型的开源地址已在GitHub和Huggingface平台发布,供开发者进一步探索和应用。
评论