谷歌近日发布了最新一代文本生成图像模型 Imagen 4,并同步推出其高端版本 Imagen 4 Ultra。此次更新主要聚焦于提升文本描述的处理与呈现能力。目前,两个版本均已上线 Gemini API 的付费预览服务,并在 Google AI Studio 提供部分免费测试名额。
官方将 Imagen 4 定位为适用于多数任务的通用图像生成模型,单张图片生成费用为 0.04 美元(约合人民币 0.29 元)。而 Imagen 4 Ultra 则主打对文本提示词的更高响应精度,属于进阶版本,价格比普通版高出 50%,即每张图像收费 0.06 美元(约合人民币 0.43 元)。官方称,该版本在图像质量方面超越 Dall-E 和 Midjourney 等主流生成工具,输出效果更佳“出色”。
在展示环节中,谷歌演示了由 Imagen 4 Ultra 生成的一组图像,其中包括一幅三格漫画,内容为一艘小型宇宙飞船被一只巨大的蓝色太空蜥蜴攻击,画面中还加入了如“嘎吱”一类的音效文字,甚至出现了“哈迪”这样略显突兀的词语。整体效果基本符合提示内容,呈现出类似 3D 渲染风格的卡通画面。
此外,该模型还根据提示词“京都复古旅行明信片的正面:樱花树下的标志性宝塔,远处的雪山,晴朗的蓝天,鲜艳的色彩”生成图像,虽然风格较为常规,但在构图细节上较为贴合描述。另有登山情侣站在岩石上挥手的画面,以及一幅前卫风格的时尚摄影作品。这些图像在细节上准确回应了提示词的要求,但整体观感仍偏程式化。
尽管 Imagen 4 在生成质量和文本理解方面相比前代有所进步,但其表现尚未达到令人惊艳的程度,尤其在面对 Dall-E 3 和 Midjourney 7 这类市场领先模型时,优势并不明显。与此同时,AI 生成艺术热度似乎正在下降,公众兴趣逐渐冷却,目前主要被用于社交媒体上的广告内容制作。

评论
更多评论