中关村在线

热点资讯

AI视频生成崛起 Stable Diffusion万兴科技等密集“秀肌肉”

AIGC爆火“周年庆”之际,这边OpenAI“宫斗”不停,那厢则在上演“猩球崛起”。短短半个月内,从Meta、Adobe到Runway、Stable Diffusion、万兴科技,海内外科技巨头及AI独角兽公司们正在加速驶入AI文生视频赛道。

11月16日,Meta推出两大AI视频编辑新功能。第一个工具名为“Emu Video”,它可以根据字幕、图像、文字描述等自动生成四秒长的视频;另一个工具名为“Emu Edit”,它允许用户通过文本指令更容易地修改或编辑视频。该款工具为用户提供了一种从图片中删除或替换物体和人物的方法,而无需任何专业的图像编辑经验。

11月22日,Stability AI发布了其最新AI模型Stable Video Diffusion,能够通过现有图片生成视频。据介绍,Stable Video Diffusion实际上由两个模型组成——SVD和SVD-XT。SVD可以将静态图片转化为14帧的视频,而SVD-XT则可以将帧数提高到24帧。

同一天,AI视频生成领域的“老牌”企业Runway也官宣了其全新“运动笔刷”功能,用户只需在图片中涂抹一个区域或主体,并为其选择一个方向、添加运动强度,运动笔刷就可以为用户的生成添加受控运动。

Runway的运动笔刷功能可生成受控运动

11月23日,Adobe向外界确认收购AI初创公司Rephrase.ai,后者可以结合文字脚本、用户头像转换为带有用户形象的视频,可以用于市场营销、客户沟通、节日问候等商业场景。值得注意的是,这是Adobe在AI领域的首次收购。

11月24日晚,AIGC软件A股上市公司万兴科技(300624.SZ)在其官方视频号上线一则AI创作的短视频《女孩的一生》,展现其多媒体大模型的视频生成能力。在大模型驱动下,用户只需输入故事梗概或片段脚本就可以控制视频的起始帧内容,并通过大模型能力实现全新视频内容的完整生成。

万兴“天幕”大模型生成视频《女孩的一生》截图

此前,万兴科技已预告过“天幕”大模型。据介绍,“天幕”是国内首个专注于以视频创意应用为核心的多媒体大模型,由视频大模型、音频大模型、图片大模型、语言大模型组成,具备一键成片、AI美术设计、文生音乐、音频增强、音效分析、多语言对话等核心能力,并在视觉、听觉等多模态关键能力上持续迭代。

作为国内AIGC领域的领跑者,万兴科技正持续深化AIGC布局,已推出万兴爱画、万兴播爆、万兴智演、Wondershare Kwicut、Wondershare VirtuLook等AIGC创意新品;旗下万兴喵影、Wondershare PDFelement、万兴PDF、亿图图示、亿图脑图、墨刀海外版Mockitt等产品均已集成AIGC能力,并持续优化上新。

11月29日,AI初创公司Pika Labs正式推出AI视频生成器的1.0版本。Pika Labs 1.0采用全新的AI模型,能够以3D动画、动漫、卡通和电影等不同风格生成和编辑视频。产品一经推出,便吸引无数AI届大佬“打call”,并迅速斩获5500万美元融资,俨然成为AI视频生成届最新“顶流”。

最新AI视频生成“顶流”Pika Labs

事实上,在本轮AI浪潮中,文生文、文生图一直并行发展,ChatGPT代表了文字生成的率先突破,Midjourney将文生图推到人人可用,并随着时间线的逐渐拉长迎来了无数的新玩家。在“先行者”的指引下,新入局玩家们显然少走了很多弯路,两条赛道的竞争也已渐趋白热化。

与文生文、文生图的直接生成即可使用不同,视频的底层原理是多帧图像的组合,文生视频/图生视频需要在文生图的基础上增加时间维度。这意味着计算成本高昂——一个短视频每秒包含大约30帧图像,单个视频片段有数百数千帧,为确保每一帧之间空间和时间的一致性,需要大量的计算资源。

此外,复杂信息难以处理——视频带有视觉动态信息,添加不同帧之间的时间信息后,对视频内容进行建模变得非常具有挑战性。

最后,算法稳定性的高强度要求——视频对连贯性的高要求,意味着文生视频/图生视频算法需保证每一帧画面的AI生成都需要有高相关性及连续、流畅的变化。

万事都是一体两面的。AI视频生成技术仍在快速迭代、飞速进化中,而其中又将孕育出多少新的机遇,都还是未知数。唯一确定的是,现在已入局的玩家们,显然已抢到了百舸争流的先机。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具