当前位置：首页 > news >正文

UI-TARS-1.5：多模态智能体刷新GUI任务纪录

news 2026/7/1 16:21:58

导语：字节跳动最新开源的UI-TARS-1.5多模态智能体在OSworld、Windows Agent Arena等权威基准测试中刷新多项纪录，其强化学习驱动的推理能力与轻量化设计为通用人工智能（AGI）在图形用户界面（GUI）交互领域开辟新路径。

【免费下载链接】UI-TARS-1.5-7B项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-1.5-7B

行业现状：当前多模态智能体正从实验室走向实用化，尤其在GUI交互领域，模型需要理解屏幕视觉信息、解析界面逻辑并执行精准操作。据相关数据显示，2024年全球AI办公自动化市场规模突破120亿美元，其中基于视觉的界面操作自动化占比达37%，但现有方案普遍面临长步骤任务成功率低、跨平台适配难等问题。OpenAI CUA、Claude 3.7等闭源模型虽表现突出，但在本地化部署和特定场景优化上存在局限，开源领域亟需高性能解决方案。

产品/模型亮点：UI-TARS-1.5作为字节跳动Seed团队的旗舰模型，核心突破在于三大技术创新：

强化学习推理机制：通过"思考-行动"双阶段决策流程，模型在执行操作前生成逻辑推理链，显著提升复杂任务的规划能力。在Minecraft基准测试中，启用Thought机制后200项任务平均完成率从0.35提升至0.42，黑曜石挖掘等高难度任务成功率提升50%。
跨平台交互能力：覆盖Windows系统、浏览器和Android设备三大场景，在OSworld（42.5分）、Windows Agent Arena（42.1分）和Android World（64.2分）测试中均超越此前最佳结果，其中Windows环境性能较上一代SOTA提升41.3%。
轻量化高效设计：7B参数版本在保持性能优势的同时，硬件门槛大幅降低。对比表格显示，UI-TARS-1.5-7B在OSworld测试中以27.5分超越72B参数的前代模型（24.6分），实现"小模型大能力"的突破。

如上图所示，该对比表清晰展示了UI-TARS-1.5在计算机使用、浏览器操作和手机交互三大领域的 benchmark 成绩。从OSworld的42.5分到Android World的64.2分，一系列红色加粗的数值直观呈现了模型在跨平台GUI任务中的领先地位。

特别值得关注的是其游戏领域表现，在Poki平台14款游戏测试中，UI-TARS-1.5实现100%通关率，而OpenAI CUA和Claude 3.7平均完成率仅为41.3%和29.8%。这种极端场景下的绝对优势，印证了模型对动态视觉信息的理解深度和操作精准度。

该图表展示了UI-TARS-1.5与主流模型在Poki游戏平台的对比结果，14项任务中UI-TARS-1.5全部达成100%完成率，形成与其他模型的显著断层。这种"全满贯"表现证明模型已具备处理高动态、强交互场景的能力。

行业影响：UI-TARS-1.5的开源发布将加速三大变革：

自动化工具革新：基于该模型的桌面应用（UI-TARS-desktop）已支持200+常用办公软件自动化，用户可通过自然语言指令完成Excel数据处理、网页信息爬取等任务，预计将使知识工作者界面操作时间减少40%。
人机交互范式转变：模型94.2%的ScreensSpot-V2 grounding准确率，意味着智能体能像人类一样精确定位界面元素，为残障人士辅助工具、智能座舱控制系统等领域提供核心技术支撑。
开源生态升级：项目同时开放训练代码和应用框架，降低企业级GUI智能体的开发门槛。据GitHub数据显示，模型发布两周内已获3.2k星标，成为同类项目中增长最快的开源方案。

结论/前瞻：UI-TARS-1.5的突破性进展，标志着多模态智能体正式进入"认知型操作"阶段。随着后续版本对Obsidian挖掘等复杂任务的优化，以及多智能体协作能力的开发，我们有望在2025年看到：

企业级RPA（机器人流程自动化）系统全面转向视觉驱动方案；
游戏AI从脚本式行为升级为类人类决策模式；
智能设备交互界面简化，90%以上操作通过自然语言+视觉理解完成。正如Minecraft测试所展现的，当模型能够自主规划"制作工作台→合成木棍→制作木斧→砍伐树木"的完整流程时，通用人工智能的界面交互能力已迈出关键一步。

【免费下载链接】UI-TARS-1.5-7B项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-1.5-7B

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.cnnetsun.cn/news/156873.html