中关村在线

热点资讯

NVIDIA Fugatto 音频生成神器 具备动态时间插值功能

近日,英伟达展示了其最新研发的人工智能模型——Fugatto。这款基于生成式Transformer架构的人工智能模型,配备了25亿个参数,并在由32个NVIDIA H100 Tensor Core GPU组成的NVIDIA DGX系统上进行了训练。

Fugatto的主要功能在于修改和生成声音效果,专为音乐、电影和视频游戏制作人设计,英伟达将其形象地称为“声音的瑞士军刀”。据NVIDIA应用音频研究经理Rafael Valle透露,Fugatto的研发初衷是创建一个能够像人类一样理解和生成声音的模型。它支持多种音频生成和转换任务,是首个展示紧急属性的基础生成式AI模型。

对于音乐制作人而言,Fugatto可以帮助他们快速制作原型或编辑歌曲创意,尝试不同的风格、声音和乐器,同时添加效果并提高现有轨道的整体音频质量。广告代理商则可以利用Fugatto快速定位多个地区或情况的现有广告活动,并将不同的口音和情感应用于画外音。此外,Fugatto还可以用于修改游戏中预先录制的素材或根据文本说明和可选的音频输入动态创建新素材。

值得一提的是,Fugatto采用了ComposableART技术,在推理过程中能够组合在训练期间只能单独看到的指令。这使得用户能够对文本指令进行精细控制,如重音的沉重程度或悲伤的程度。此外,Fugatto还能够生成随时间变化的声音,这一功能被称为时间插值。

与大多数只能重现所接触的训练数据的模型不同,Fugatto允许用户创建以前从未见过的音景。例如,它可以模拟雷雨随着鸟儿的歌声缓和为黎明的场景。

总体来说,Fugatto凭借其功能多样性和创新性,在音频领域具有广阔的发展空间。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具