微软推出VASA-1 AI框架生成精确逼真的对口型视频

一便士的月亮

原创

04-21

据微软官方新闻稿，微软近日公布了一项名为VASA-1的AI框架。该框架只需使用一张真人肖像照片和一段个人语音音频，就能生成精确逼真的对口型视频。据悉，在表情和头部动作方面，VASA-1特别自然。

目前业界的研究主要集中在对口型上，而面部动态行为及头部运动情况通常被忽视。因此，以前生成的面部会显得僵硬、缺乏说服力且存在恐怖谷现象。然而，微软的VASA-1框架克服了这些限制。研究人员利用扩散Transformer模型，在整体面部动态和头部运动方面进行训练。该模型将所有可能的面部动态视为单一潜在变量，并声称能够即时生成512×512分辨率40FPS的视频。

微软还利用3D技术辅助标记人脸面部特征，并设计了额外的损失函数。这使得VASA-1不仅能够生成高品质的面部视频，还能有效地捕捉和重现面部3D结构。

这项新技术为电影制作、游戏开发等领域提供了新的可能性。随着人工智能技术的不断发展，未来我们有理由相信会有更多类似的应用出现。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



HUAWEI Pura 70(12GB/1TB)

HUAWEI Pura 70(12GB/1TB)

11人评分

77%好评

OPPO Find X7 Ultra(12GB/256GB)

OPPO Find X7 Ultra(12GB/256GB)

123人评分

94%好评

iQOO Z9 Turbo(12GB/256GB)

iQOO Z9 Turbo(12GB/256GB)

2人评分

67%好评

苹果iPhone 15（128GB）

苹果iPhone 15（128GB）

34人评分

68%好评

vivo S17（12GB/256GB）

vivo S17（12GB/256GB）

11人评分

94%好评

评论

更多评论

读过此文的还读过

点击加载更多

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具