12月25日,清华大学TSAIL实验室与生数科技联合发布开源视频生成加速框架TurboDiffusion。该框架在确保视频生成质量的前提下,将端到端扩散模型的推理速度提升100至200倍,显著缩短生成时间。
为实现极致推理效率,TurboDiffusion在技术层面进行了深度优化。框架采用SageAttention与SLA(稀疏线性注意力机制)协同加速注意力计算模块,有效降低高分辨率视频生成过程中的计算资源消耗。同时,团队引入rCM(时间步蒸馏)技术,大幅减少扩散模型所需的采样步数。上述技术的融合应用,在维持生成效果稳定的同时,显著压缩了整体计算延迟。
根据GitHub页面公布的实测数据,性能提升表现突出。在单张RTX 5090显卡上运行Wan-2.1-T2V-1.3B-480P模型时,原始版本生成5秒视频需184秒,而TurboDiffusion仅用1.9秒即可完成。对于参数规模更大的Wan-2.2-I2V-A14B-720P模型,原版耗时达4549秒(约1.2小时),经TurboDiffusion优化后缩短至38秒。即使在Wan-2.1-14B-480P模型上,生成时间也从原来的1676秒降至9.9秒,提速效果优于当前主流的FastVideo等加速方案。
目前,TurboDiffusion已开放多种规格的模型权重供下载,并针对不同硬件配置进行专项优化。针对RTX 5090、RTX 4090等显存有限的消费级显卡,提供量化版(Quantized)权重,建议启用线性层量化功能以进一步提升效率;而对于配备H100等具备80GB以上显存的工业级设备,则推荐使用非量化版本,以充分发挥硬件性能,获得最优生成效果。

评论
更多评论