北京极佳视界科技有限公司联合清华大学自动化系近日发布了我国首个超长时长、高性价比的Sora级视频生成大模型“视界一粟YiSu”。这款大模型拥有16秒的超长时长,可生成长达1分钟以上的视频。与传统视频生成技术相比,YiSu模型的成本更低、速度更快且在端侧即可使用。
年初Sora的火爆引发了业内对DiT架构的关注,并带动了众多公司和项目开始复现DiT路线。而“视界一粟YiSu”则基于团队自主研发的视频生成大模型技术,不仅没有止步于DiT路线,还融合了LLM和扩散模型的自研架构,在多模态融合、训练效率、推理效率以及模型效果等方面实现了优化,为视频生成提供了全新方案。
此前,该团队曾发布过WorldDreamer项目,这是全球第一次以Transformer和LLM(Masked Token路线)为中心进行的视频生成工作。而此次发布的视频生成大模型为YiSu-Beta V0.5版本,按照每周一个小版本、每月一个大版本的迭代速度,YiSu大模型正在不断成长进化。未来几个月中,在视频时长、可控性、推理速度、运行成本以及理解物理世界等方面还将迎来大幅度的提升。
据了解,极佳视界科技的核心团队拥有超过十年的AI技术积累。其团队成员来自清华大学、中科院、中科大等知名院校,并累积发表了200余篇顶级AI论文。同时,该团队多次获得全球权威AI比赛的世界冠军。
评论