4月18日,豆包大模型团队宣布正式发布并开源多模态智能体UI-TARS-1.5。这款智能体基于视觉-语言模型构建,具备在虚拟环境中高效执行多种任务的能力。
以下是相关的资源链接:
- 开源代码地址:https://github.com/bytedance/UI-TARS
- 官方网站:https://seed-tars.com/
- 技术文档:https://arxiv.org/abs/2501.12326
UI-TARS-1.5继承了此前提出的原生智能体方案UI-TARS,并通过强化学习进一步提升了高阶推理能力。这一改进使模型能够在执行具体操作前进行预先思考,从而更高效地完成任务。
此外,该版本的模型还引入了一个新目标:利用游戏场景增强基础模型的推理能力。相比数学或编程领域,游戏更侧重于直观和常识性的推理,且对专业知识的依赖较低,因此它成为评估和提升模型通用能力的理想测试平台。
据介绍,UI-TARS是一种原生图形用户界面(GUI)智能体,能够真实操作电脑和手机系统,同时支持浏览器中的复杂交互任务。在UI-TARS-1.5中,团队在四个技术方向上进行了深入探索,以实现精准的GUI操作:
2. 系统2推理机制:在执行动作之前生成“思维”序列,支持复杂任务的多步规划与决策。
3. 统一动作建模:构建跨平台标准动作空间,通过真实交互轨迹的学习提升动作的可控性和执行精度。
4. 自我演化训练范式:通过自动化采集交互轨迹和反思式训练,模型能够从错误中不断学习和改进,以适应复杂的环境变化。
这些技术突破使得UI-TARS-1.5具备更强的通用能力和适应性,为未来智能体的发展奠定了坚实的基础。

评论
更多评论