近日,谷歌旗下的人工智能公司DeepMind公布了一项名为“video-to-audio”的技术。这项技术利用AI为无声视频生成背景音乐。
目前,该AI模型还存在一些局限性,需要开发者在使用时提供文字提示来预先介绍可能的声音内容。但暂时还不能直接根据视频画面添加具体音效。
DeepMind的这款AI模型会先将用户输入的视频进行分解,然后结合用户的文字提示,在扩散模型反复运算后生成与视频画面协调的背景声音。例如,如果输入一条“在黑暗中行走”的无声视频,并添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示,相关模型就能生成恐怖风格的背景音效。
DeepMind表示,“video-to-audio”模型可以为任何视频生成无限数量的音轨,并能通过提示词判断生成音频的正向性或反向性,从而让生成的声音更贴近特定场景。
未来,研究人员将进一步优化这款“video-to-audio”模型,计划实现让模型直接根据视频内容生成背景音,并且改善视频中人物对白的口型同步能力。
评论