Meta AI发布统一语言建模与图像生成技术：性能逼近DALL-E 2

清风与鹿

原创

08-24

Meta AI近日推出了一种新的技术——Transfusion，该技术将语言模型和图像生成模型结合到了统一的AI系统中。

传统的图像生成系统通常会使用预先训练好的文本编码器来处理输入的提示词，并与单独的扩散模型相结合以生成图像。许多多模态语言模型的工作原理类似，它们会连接预先训练好的文本模型与其他特定用途的编码器来处理其他类型的模态数据。然而，Transfusion采用单一、统一的Transformer架构，在所有模式下进行端到端训练。

在处理文本和图像时，Transfusion采用不同的损失函数：对于文本任务，使用“下一个标记预测”；而对于图像任务，则使用“扩散”。为了同时处理文本和图像数据，首先将图像转换为图像片段序列。这样做可以使得模型在一个序列中同时处理文本标记和图像片段，并且特殊的注意力掩码能够捕捉到内部关系。

与现有方法Chameleon相比，Transfusion保留了连续表示法，并避免了量化造成的信息损失。实验表明，“融合”的效果更好：它取得了与专门设计的模型相似的结果，但计算量却大大减少；并且在处理文本方面也有了提升。

研究人员在2万亿个文本和图像标记上训练了一个70亿参数的模型。该模型在图像生成方面取得了与成熟系统如DALL-E 2等相似的结果，并且还能够处理文本。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



vivo X100 Ultra(12GB/256GB)

vivo X100 Ultra(12GB/256GB)

3952人评分

80%好评

HUAWEI Mate 60（12GB/256GB）

HUAWEI Mate 60（12GB/256GB）

2189人评分

79%好评

Redmi K70至尊版(12GB/256GB)

Redmi K70至尊版(12GB/256GB)

265人评分

79%好评

荣耀X50（8GB/128GB）

荣耀X50（8GB/128GB）

8635人评分

79%好评

苹果iPhone 15（128GB）

苹果iPhone 15（128GB）

6093人评分

76%好评

评论

更多评论

读过此文的还读过

点击加载更多

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具