OpenAI最新发布了其新型视频生成模型Sora。该模型能根据文字指令创建真实且富有创意的场景,用户可根据编写好的提示创作出长达一分钟的逼真视频。
Sora是一款文本到视频的模型,允许用户自定义虚拟场景。例如,关键词为“Beautiful, snowy Tokyo city is bustling”,模型会生成一个繁华雪景的视频,镜头跟踪行人、商店购物以及漂亮的樱花花瓣和雪花在空中飞舞等场景。
根据OpenAI的说明,Sora具有“复杂的场景功能,包含多个角色、特定类型动作以及主题与背景的精确细节”。此外,该模型还能理解物体如何存在于现实世界中,并准确解释道具并生成生动而引人注目的角色。
Sora还具备静止图像视频生成能力,并能填补现有视频中缺失的帧或延长视频长度。演示视频展示了Sora的各项功能,包括描绘加州淘金热时期的空中场景、拍摄角度从东京火车内部观察等。
虽然OpenAI表示Sora在准确模拟复杂场景的物理特性上可能存在困难,但整体效果仍相当令人印象深刻。
评论