10月1日,火山引擎宣布正式发布豆包大模型1.6-vision,这是该系列首个具备工具调用能力的视觉深度思考模型。新模型在通用多模态理解与推理方面实现显著提升,同时支持Responses API,旨在以更具优势的成本效益,满足用户对高精度视觉理解的进阶需求。
据官方介绍,豆包大模型1.6-vision通过集成工具调用功能,能够将图像处理融入其推理链条,实现对图像的精准操作,包括定位、裁剪、点选、画线、缩放和旋转等。模型模拟人类“从整体浏览到细节聚焦”的视觉认知过程,在增强推理逻辑透明度的同时,提升了图像分析与处理的效率与准确性。
相较于前代模型Doubao-1.5-thinking-vision-pro,豆包大模型1.6-vision的整体成本降低约50%。以常见的32K输入输出场景为例,单次调用成本由5.25元下降至2.6元,显著提升了性价比。
今年6月,火山引擎已推出豆包大模型1.6,强化了多模态思维能力,提升了对复杂任务场景的理解水平。此次发布的1.6-vision版本在此基础上进一步拓展了视觉领域的应用深度与实用性。

评论
更多评论