据谷歌DeepMind最新公布的技术,其推出了一项名为“video-to-audio”的AI模型,用于为无声视频生成背景音乐。这项技术在目前仍存在局限性,需要开发者提供提示词来预先介绍可能的声音背景,而无法直接根据视频画面添加具体音效。
DeepMind的这款AI模型能够将用户输入的视频进行分解,并结合文字提示,通过扩散运算不断迭代,最终生成与视频画面协调的背景声音。例如,在输入一条描述为“黑暗中行走”的无声视频时,可以添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示,相关的模型就能够生成出具有恐怖风格的背景音效。
此外,DeepMind还表示该“video-to-audio”模型可以为任何视频生成无限数量的音轨,并且能够根据提示词的内容判断生成音频是正向还是反向的,从而使得生成出来的声音更贴近特定场景。
展望未来,研究人员正在进一步优化这款“video-to-audio”模型,并计划在未来实现让模型直接根据视频内容生成背景音乐,无需通过提示词。同时,他们还计划改善模型在视频中人物对白口型同步的能力。
评论