据微软官方新闻稿,微软近日公布了一项名为VASA-1的AI框架。该框架只需使用一张真人肖像照片和一段个人语音音频,就能生成精确逼真的对口型视频。据悉,在表情和头部动作方面,VASA-1特别自然。
目前业界的研究主要集中在对口型上,而面部动态行为及头部运动情况通常被忽视。因此,以前生成的面部会显得僵硬、缺乏说服力且存在恐怖谷现象。然而,微软的VASA-1框架克服了这些限制。研究人员利用扩散Transformer模型,在整体面部动态和头部运动方面进行训练。该模型将所有可能的面部动态视为单一潜在变量,并声称能够即时生成512×512分辨率40FPS的视频。
微软还利用3D技术辅助标记人脸面部特征,并设计了额外的损失函数。这使得VASA-1不仅能够生成高品质的面部视频,还能有效地捕捉和重现面部3D结构。
这项新技术为电影制作、游戏开发等领域提供了新的可能性。随着人工智能技术的不断发展,未来我们有理由相信会有更多类似的应用出现。
评论