1月20日,谷歌研究院公布了一种名为“Titans”的新型模型架构。这种新模型架构的最大特点是采用了“仿生设计”,结合了短期记忆、长期记忆和注意力机制。相比业界流行的Transformer模型,Titans支持超过200万个Token的上下文长度。这一系列模型架构通过引入深度神经长期记忆模块有效解决了上文所述的问题。
据了解,Titans具有三种设计变体:Memory as a Context(MAC)、Memory as a Gate(MAG)和Memory as a Layer(MAL),可根据任务需求整合短期与长期记忆。其中,“MAC”架构变体将长期记忆作为上下文的一部分,允许注意力机制动态结合历史信息与当前数据;而“MAG”架构变体则根据任务需求调整实时数据与历史信息的重要性比例,专注于当前最相关的信息。
谷歌特别强调了“MAL”架构变体。“MAL”主要将记忆模块设计为深度网络的一层,即将用户的历史记录和现在输入的上下文内容进行固定压缩后交由模型的注意力模块处理。这种设计使得Tit
评论