1月14日,智谱宣布联合华为推出新一代图像生成模型GLM-Image,并全面开源。该模型基于昇腾Atlas 800T A2硬件平台与昇思MindSpore AI框架,实现了从数据处理到模型训练的全链条自主化,成为首个在国产芯片上完成端到端训练并达到SOTA水平的多模态生成模型。
开源发布不到一天,GLM-Image便迅速登上全球AI开源社区Hugging Face Trending榜单首位,创下国产技术栈训练模型在国际开源平台首次登顶的纪录。
据项目团队介绍,GLM-Image旨在推动生成式AI在全流程层面的技术创新,是GLM团队面向以Nano Banana Pro为代表的新一代“认知型生成”技术路径的重要实践探索。
在架构设计方面,GLM-Image未采用主流的LDM方案,而是引入“自回归+扩散解码器”的混合结构,在保持与主流方法对齐的同时,进一步验证了其在知识密集型任务中的生成优势。
在训练体系上,模型依托昇腾Atlas 800T A2设备和昇思MindSpore框架完成了全部训练与推理适配过程,实际运算效率接近硬件理论性能上限,充分证明了国产算力基础设施具备支撑前沿AI模型研发的能力。
在实际表现方面,GLM-Image在CVTG-2K(复杂视觉文本生成)和LongText-Bench(长文本图像渲染)两大权威评测中均位列开源模型第一,具备准确理解指令、正确呈现文本内容的能力,尤其在汉字生成方面表现出显著优势,可广泛应用于知识图示、宣传物料、教学课件等需要高信息密度表达的场景。
相关开源资源已对外发布,感兴趣的开发者可通过以下平台获取:
GitHub地址:https://github.com/zai-org/GLM-Image
Hugging Face地址:https://huggingface.co/zai-org/GLM-Image

评论
更多评论