智谱AI 级联扩散文生图模型开源：性能远超SDXL

一便士的月亮

原创

10-14

智谱技术团队今天宣布开源了他们的文生图模型CogView3和CogView3-Plus-3B，并且这些模型已经通过“智谱清言”App上线了。CogView3是一个基于级联扩散的text2img模型，包含了三个阶段：第一阶段是利用标准扩散过程生成低分辨率图像，第二阶段是利用中继扩散过程进行超分辨率生成，第三阶段将生成结果再次基于中继扩散迭代，以得到高分辨率的图像。

在人工评估方面，CogView3比目前最先进的开源文本到图像扩散模型SDXL高出77.0%，并且只需要SDXL大约1/10的推理时间。而CogView3-Plus则是在CogView3（ECCV 24）的基础上引入了最新的DiT框架，以实现整体性能进一步提升。它采用Zero-SNR扩散噪声调度，并引入了文本-图像联合注意力机制。与常用的MMDiT结构相比，它在保持模型基本能力的同时有效降低训练和推理成本。CogView-3Plus使用潜在维度为16的VAE。

以下是两个模型的开源地址：

- CogView3仓库地址：https://github.com/THUDM/CogView3

- CogView3-Plus-3B仓库地址：https://huggingface.co/THUDM/CogView3-Plus-3B

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



佳能EOS R6 Mark II

佳能EOS R6 Mark II

522人评分

98%好评

索尼A7C II

索尼A7C II

1660人评分

100%好评

索尼ZV-E10

索尼ZV-E10

401人评分

98%好评

索尼A7 IV

索尼A7 IV

1561人评分

99%好评

佳能EOS R50（单机身）

佳能EOS R50（单机身）

337人评分

98%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具