谷歌发布动态肖像AI模型人物“动起来”

一便士的月亮

原创

03-19

近日，谷歌在其GitHub页面发布了一篇关于VLOGGER AI模型的博文。用户只需输入一张肖像照片和一段音频内容，该模型便可以让这些人物“动起来”，能够面部表情丰富地朗读音频内容。

VLOGGER AI是一种适用于虚拟肖像的多模态Diffusion模型，它使用了MENTOR数据集进行训练。这个数据集中包含了超过80万名不同种族、年龄、穿着风格和姿势的人物肖像影片，总时长超过2200小时。

研究人员表示：“相较于之前的多模态模型，VLOGGER的优势在于无需为每个人单独训练模型，并且不依赖于人脸检测和裁剪技术，可以生成完整的图像而不是仅仅嘴唇或人脸部分。此外，VLOGGER还考虑到了广泛的场景需求（如可见躯干或不同的主体身份），这对于正确合成交流的人类来说至关重要。”

在文章中，Google将VROLLER视为向“通用聊天机器人”的一步，以后AI就可以通过语音、手势和眼神交流以自然的方式与人类进行互动。除了教育领域和报告领域外，VROLLER还可用于旁白等场景，并可对已有影片中的表情进行编辑，如果对表情不满意就能进行调整。

论文参考：VROLLER: Multimodal Diffusion for Embodied Avatar Synthesis

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



vivo X Fold3 Pro(16GB/512GB)

vivo X Fold3 Pro(16GB/512GB)

10人评分

100%好评

HUAWEI Pura 70(12GB/1TB)

HUAWEI Pura 70(12GB/1TB)

8人评分

75%好评

OPPO A3 Pro(8GB/256GB)

OPPO A3 Pro(8GB/256GB)

10人评分

76%好评

荣耀X50（8GB/128GB）

荣耀X50（8GB/128GB）

554人评分

79%好评

vivo S17（12GB/256GB）

vivo S17（12GB/256GB）

11人评分

94%好评

评论

更多评论

读过此文的还读过

点击加载更多

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具