中关村在线

热点资讯

谷歌发布动态肖像AI模型 人物“动起来”

近日,谷歌在其GitHub页面发布了一篇关于VLOGGER AI模型的博文。用户只需输入一张肖像照片和一段音频内容,该模型便可以让这些人物“动起来”,能够面部表情丰富地朗读音频内容。

VLOGGER AI是一种适用于虚拟肖像的多模态Diffusion模型,它使用了MENTOR数据集进行训练。这个数据集中包含了超过80万名不同种族、年龄、穿着风格和姿势的人物肖像影片,总时长超过2200小时。

研究人员表示:“相较于之前的多模态模型,VLOGGER的优势在于无需为每个人单独训练模型,并且不依赖于人脸检测和裁剪技术,可以生成完整的图像而不是仅仅嘴唇或人脸部分。此外,VLOGGER还考虑到了广泛的场景需求(如可见躯干或不同的主体身份),这对于正确合成交流的人类来说至关重要。”

在文章中,Google将VROLLER视为向“通用聊天机器人”的一步,以后AI就可以通过语音、手势和眼神交流以自然的方式与人类进行互动。除了教育领域和报告领域外,VROLLER还可用于旁白等场景,并可对已有影片中的表情进行编辑,如果对表情不满意就能进行调整。

论文参考:VROLLER: Multimodal Diffusion for Embodied Avatar Synthesis

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多
说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具