小米开源ControlFoley：可控视频音效生成模型正式发布

海是天的倒影

原创

06-04

小米人工智能实验室于2026年6月4日正式开源可控视频音效生成模型ControlFoley。该模型能够依据视频画面内容，智能生成高度贴合的环境音效与背景音乐，并支持用户通过自然语言指令，精准调节音效的风格、强度、节奏等维度，标志着视频内容生产环节中音效自动化技术取得重要进展。

ControlFoley采用扩散模型架构，在逾百万组高质量视频-音频配对数据上完成训练。模型具备细粒度视觉理解能力，可识别画面中的动作行为、空间场景及物体属性，并据此生成匹配的音效，例如脚步声、风声、物体碰撞声等。

该模型的核心突破在于实现高精度可控生成：用户仅需输入简明文本提示，如“轻柔的雨声”或“紧张的鼓点”，系统即可按需调整输出结果。模型同时支持单条视频处理与多视频批量生成，单条视频音效生成耗时稳定在三至五秒之间。

在技术指标方面，ControlFoley支持48kHz高采样率音频输出，生成音质达到专业制作水准。开源内容涵盖预训练权重、完整推理代码及详尽使用文档，便于开发者快速集成与二次开发。

该模型适用于短视频内容创作、游戏音效设计、影视后期辅助等多个领域。对于个体创作者而言，它显著降低了音效制作的专业门槛与时间成本。研发团队表示，未来将视实际需求与反馈，探索面向终端用户的在线服务形态。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



小米智能门锁 4 Pro

小米智能门锁 4 Pro

小米M20大屏猫眼版

小米M20大屏猫眼版

691人评分

94%好评

小米E10

小米E10

1686人评分

95%好评

小米智能门锁M30 人脸识别款

小米智能门锁M30 人脸识别款

380人评分

99%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具