近日,谷歌在其GitHub页面发布了一篇关于VLOGGER AI模型的博文。用户只需输入一张肖像照片和一段音频内容,该模型便可以让这些人物“动起来”,能够面部表情丰富地朗读音频内容。
VLOGGER AI是一种适用于虚拟肖像的多模态Diffusion模型,它使用了MENTOR数据集进行训练。这个数据集中包含了超过80万名不同种族、年龄、穿着风格和姿势的人物肖像影片,总时长超过2200小时。
研究人员表示:“相较于之前的多模态模型,VLOGGER的优势在于无需为每个人单独训练模型,并且不依赖于人脸检测和裁剪技术,可以生成完整的图像而不是仅仅嘴唇或人脸部分。此外,VLOGGER还考虑到了广泛的场景需求(如可见躯干或不同的主体身份),这对于正确合成交流的人类来说至关重要。”
在文章中,Google将VROLLER视为向“通用聊天机器人”的一步,以后AI就可以通过语音、手势和眼神交流以自然的方式与人类进行互动。除了教育领域和报告领域外,VROLLER还可用于旁白等场景,并可对已有影片中的表情进行编辑,如果对表情不满意就能进行调整。
论文参考:VROLLER: Multimodal Diffusion for Embodied Avatar Synthesis
评论