英伟达近期正式推出面向物理人工智能的开放世界基础模型Cosmos 3。该模型采用混合Transformer架构,首次将视觉推理、三维环境生成与动作序列预测能力整合于统一框架之中,着力应对物理AI在真实复杂场景中泛化能力不足这一关键挑战。
Cosmos 3具备原生多模态理解与生成能力,可高精度处理文本、图像、视频、环境声音及连续动作信号,在物理规律建模方面达到当前行业领先水平。借助这一能力,物理AI系统的训练与评估周期由以往数月大幅压缩至数天。其核心架构在生成结果前即完成对物体间交互逻辑与时空动态关系的深层解析,实现推理与生成的有机协同。
在多个权威物理AI基准测试中,Cosmos 3系列模型均展现出显著优势。模型依托涵盖数十亿样本的超大规模多模态数据集完成预训练,为开发者构建高效、轻量、鲁棒的物理AI应用提供了坚实基础,显著降低开发门槛、数据依赖与计算成本。
公司创始人兼首席执行官指出,随着多模态推理等关键技术持续突破,物理人工智能的规模化落地已进入关键窗口期。Cosmos 3系列模型将有力支撑机器人系统、智能驾驶平台及视觉感知应用的跨越式演进,推动人工智能真正具备在物理世界中感知环境、理解因果、自主决策并执行动作的综合能力。

评论
更多评论