字节豆包团队开源多模态智能体UI-TARS-1.5

两三杯可乐

原创

2025-04-18

4月18日，豆包大模型团队宣布正式发布并开源多模态智能体UI-TARS-1.5。这款智能体基于视觉-语言模型构建，具备在虚拟环境中高效执行多种任务的能力。

以下是相关的资源链接：

- 开源代码地址：https://github.com/bytedance/UI-TARS

- 官方网站：https://seed-tars.com/

- 技术文档：https://arxiv.org/abs/2501.12326

UI-TARS-1.5继承了此前提出的原生智能体方案UI-TARS，并通过强化学习进一步提升了高阶推理能力。这一改进使模型能够在执行具体操作前进行预先思考，从而更高效地完成任务。

此外，该版本的模型还引入了一个新目标：利用游戏场景增强基础模型的推理能力。相比数学或编程领域，游戏更侧重于直观和常识性的推理，且对专业知识的依赖较低，因此它成为评估和提升模型通用能力的理想测试平台。

据介绍，UI-TARS是一种原生图形用户界面（GUI）智能体，能够真实操作电脑和手机系统，同时支持浏览器中的复杂交互任务。在UI-TARS-1.5中，团队在四个技术方向上进行了深入探索，以实现精准的GUI操作：

2. 系统2推理机制：在执行动作之前生成“思维”序列，支持复杂任务的多步规划与决策。

3. 统一动作建模：构建跨平台标准动作空间，通过真实交互轨迹的学习提升动作的可控性和执行精度。

4. 自我演化训练范式：通过自动化采集交互轨迹和反思式训练，模型能够从错误中不断学习和改进，以适应复杂的环境变化。

这些技术突破使得UI-TARS-1.5具备更强的通用能力和适应性，为未来智能体的发展奠定了坚实的基础。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



vivo X300 Ultra(12GB/256GB)

vivo X300 Ultra(12GB/256GB)

1人评分

96%好评

华为畅享90 Pro Max 128GB

华为畅享90 Pro Max 128GB

177人评分

80%好评

一加15T(12GB/256GB)

一加15T(12GB/256GB)

361人评分

100%好评

OPPO Find X9 Pro(12GB/256GB)

OPPO Find X9 Pro(12GB/256GB)

423人评分

99%好评

Redmi Turbo 5 MAX(12GB/256GB)

Redmi Turbo 5 MAX(12GB/256GB)

349人评分

80%好评

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具