中关村在线

热点资讯

字节豆包团队开源多模态智能体UI-TARS-1.5

4月18日,豆包大模型团队宣布正式发布并开源多模态智能体UI-TARS-1.5。这款智能体基于视觉-语言模型构建,具备在虚拟环境中高效执行多种任务的能力。

以下是相关的资源链接:

- 开源代码地址:https://github.com/bytedance/UI-TARS

- 官方网站:https://seed-tars.com/

- 技术文档:https://arxiv.org/abs/2501.12326

UI-TARS-1.5继承了此前提出的原生智能体方案UI-TARS,并通过强化学习进一步提升了高阶推理能力。这一改进使模型能够在执行具体操作前进行预先思考,从而更高效地完成任务。

此外,该版本的模型还引入了一个新目标:利用游戏场景增强基础模型的推理能力。相比数学或编程领域,游戏更侧重于直观和常识性的推理,且对专业知识的依赖较低,因此它成为评估和提升模型通用能力的理想测试平台。

据介绍,UI-TARS是一种原生图形用户界面(GUI)智能体,能够真实操作电脑和手机系统,同时支持浏览器中的复杂交互任务。在UI-TARS-1.5中,团队在四个技术方向上进行了深入探索,以实现精准的GUI操作:

2. 系统2推理机制:在执行动作之前生成“思维”序列,支持复杂任务的多步规划与决策。

3. 统一动作建模:构建跨平台标准动作空间,通过真实交互轨迹的学习提升动作的可控性和执行精度。

4. 自我演化训练范式:通过自动化采集交互轨迹和反思式训练,模型能够从错误中不断学习和改进,以适应复杂的环境变化。

这些技术突破使得UI-TARS-1.5具备更强的通用能力和适应性,为未来智能体的发展奠定了坚实的基础。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具