字节豆包发布 GUI Agent 模型豆包1.5·UI-TARS

2025年4月17日,字节跳动豆包大模型团队(Seed)正式发布并开源了UI-TARS-1.5。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。该模型在7个典型的GUI图形用户界面评测基准中取得了SOTA(State-of-the-Art)表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...
2025年4月17日,字节跳动豆包大模型团队(Seed)正式发布并开源了UI-TARS-1.5。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。该模型在7个典型的GUI图形用户界面评测基准中取得了SOTA(State-of-the-Art)表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。