2026年1月26日,腾讯混元正式推出混元图像3.0图生图模型。该模型具备图像编辑与多图融合两大核心能力,已在元宝平台同步上线。
依托该模型,用户可便捷完成表情包创作、虚拟人物合拍、社交内容生成、电商海报设计、游戏角色定制及各类创意图像制作等多样化任务。
混元图像3.0图生图模型总参数量达80亿,其中激活参数约为13亿,采用混合专家架构,以混元图像3.0原生多模态基础模型为底座,融合图生图多任务训练数据。通过指令微调与后训练优化,模型显著提升了对输入图像及编辑指令的理解深度与执行精度。
该模型在指令遵循方面表现稳定,生成图像具有一致性强、真实感突出、情绪表达自然等特点,同时推理速度较前代明显提升。在实际运行中,模型首先解析原始图像内容,再结合用户提供的提示词进行语义推理,精准识别需编辑区域、保留区域及具体操作步骤,进而生成结构清晰、逻辑完备的编辑指令,保障高质量输出效果。
在功能层面,模型支持多种图像编辑操作,包括对象增删、局部修改、风格迁移、老照片修复、人物形象调整及文字编辑等;同时具备多图融合能力,可从多张图片中提取人物或元素,完成合照合成与全新图像生成。
为支撑模型能力,研发团队通过图像与视频原始数据挖掘,并结合专家网络合成策略,构建了覆盖80余类任务、规模达千万级的图生图专属数据集。这些数据在持续训练阶段被系统注入,使模型扎实掌握各类基础编辑技能。此外,团队还为图生图任务专门设计思维链机制,引导模型在执行前主动分析图像语义与用户意图,生成更精细的编辑指令,进一步提升操作准确性与结果表现力。
在后训练环节,模型采用自研MixGRPO算法,结合多轮奖励建模与迭代优化,高效对齐用户偏好,在准确响应指令的同时,显著增强非编辑区域的内容一致性与稳定性。

评论
更多评论