2026年2月4日,腾讯混元团队与复旦大学联合研究组正式发布首篇合作论文CL-bench。该成果也是姚顺雨担任腾讯首席AI科学家以来,首次以作者身份参与发表的学术论文。
论文指出,当前人工智能与人类智能之间的核心差距,并非源于知识储量的多寡,而在于持续学习与即时适应的能力。一个仅靠预训练灌输大量静态知识却无法从新情境中主动获取并运用信息的模型,恰如熟记整部字典却无法组织语言进行表达的人——表面渊博,实则缺乏应变与生成能力。人类智能的关键特征,在于能够基于当下所见所闻的上下文实时调整认知、提炼规律、完成推理,而非机械调用过往经验。
针对这一关键能力缺口,研究团队提出CL-bench评测基准,旨在系统评估大语言模型是否真正具备“从上下文中学习新知识并准确应用”的能力。该基准由领域资深专家历时数月构建,涵盖500组结构复杂、语义丰富的上下文样本,对应1899项细分任务及31607条精细化验证标准。
CL-bench设定了唯一但极具挑战性的核心要求:每个任务的解答,必须严格依赖上下文中提供的、模型预训练阶段从未接触过的新信息,并在理解后正确执行。实验结果显示,目前全球综合表现位居前列的十款大语言模型,在该基准上的平均任务完成率仅为17.2%。数据表明,即便最先进的模型,在上下文学习这一基础智能维度上仍存在明显不足,尚未形成稳定、可靠、可泛化的上下文内化与应用能力。
这一发现不仅揭示了当前技术的现实局限,也为后续模型架构设计、训练范式优化与评估体系完善提供了明确的突破方向:着力提升模型对动态上下文的感知力、抽象力与迁移力,使其真正成为具备实时学习能力的智能体。

评论
更多评论