9月19日,阿里通义万相团队正式开源其最新动作生成模型Wan2.2-Animate。该模型具备驱动人物、动漫形象及动物照片生成动态视频的能力,可广泛应用于短视频创作、舞蹈模板生成、动画制作等多个领域。
此次发布的Wan2.2-Animate在先前开源的Animate Anyone模型基础上实现全面升级,在人物一致性、画面生成质量等关键指标上均有显著提升,并首次支持动作模仿与角色扮演两种模式。在动作模仿模式下,用户只需提供一张角色图片和一段参考视频,模型即可将视频中人物的动作与表情精准迁移到静态图像角色上,赋予其生动的动态表现。在角色扮演模式中,模型能够在保留原始视频动作、表情及背景环境的前提下,将其中的角色替换为指定图片中的形象,实现自然融合。
为提升模型性能,通义万相团队构建了一个涵盖说话内容、面部表情与身体动作的大规模人物视频数据集,并基于自研的图生视频模型进行后训练优化。Wan2.2-Animate通过统一表征方式,将角色特征、场景信息与动作数据整合至单一模型中,从而支持双模式推理。针对身体运动与面部表情的不同特性,模型分别采用骨骼信号与隐式特征进行建模,并结合动作重定向模块,实现对复杂动作与细腻表情的高精度复现。在角色替换场景中,团队还引入独立设计的光照融合LoRA模块,有效保障角色与新环境之间的光照一致性。
实测表现显示,Wan2.2-Animate在视频生成质量、主体一致性及感知损失等多项核心指标上优于StableAnimator、LivePortrait等主流开源模型,成为当前性能最为突出的动作生成模型。在人类主观评估测试中,其生成效果亦超越Runway Act-two等代表性闭源方案。
目前,该模型代码与权重已面向公众开放,用户可通过Github、HuggingFace及魔搭社区免费下载使用。同时,模型也已接入阿里云百炼平台,支持API调用,并可在通义万相官网直接体验相关功能。

评论
更多评论