当前位置：首页 > news >正文

SaaS-Bench实战：Agent全军覆没，暴露长程任务短板，软件或需为其重做

news 2026/6/2 1:04:30

Leaderboard：残酷实战考试

现有的Agent评测多是仿真环境、简单任务，与真实工作天差地别。真实办公涉及跨系统、数百步操作，如医疗管理员写病历、填上报、生成文档，财务审批报销、打款、记账等。SaaS-Bench直接把真系统搬进Docker，让Agent在真实的前后端逻辑、数据库状态和业务约束中工作。

SaaS-Bench精心挑选23个开源SaaS系统，通过Docker本地部署，覆盖软件研发、业务财务、医疗管理、团队协作、农业供应链、独立媒体六个专业领域。这些系统填充了真实业务数据，Agent进入的是有历史数据、干扰项和跨系统关联的真实工作环境。

任务详情

106个任务中，93.4%跨越至少两个应用，三应用任务占一半。纯文本任务74个，涉及多模态理解的32个。以Claude Opus 4.6的执行轨迹估算，97.3%的文本任务操作步数超过100步，最长轨迹达300+步。

SaaS-Bench采用“LLM生成 + 专家把关”的方式构建任务。先由LLM围绕六大专业领域和具体职业角色生成任务，明确目标、跨应用依赖和验证要求，再由专家人工筛选和真实执行检查，确保任务专业、自然、可完成、可验证。

SaaS-Bench允许Agent使用Browser-Use在SaaS环境中操作计算机，并给出Resolved Score（完全通过分数，严苛）和Checkpoint Score（检查点分数，宽松）两个指标。

榜单结果：全军覆没

主要结果显示，最强的Claude Opus 4.7，检查点分数43.9%，端到端完全通过分数只有3.8%，106个任务仅完整通过4个。Kimi K2.5和Gemini 3.1 Pro完全通过分数为零，一个任务都没走完。这表明Agent能推进部分中间环节，但几乎无法完成完整的长程工作流。

多跑几次效果有限

把每个模型在同一任务上独立跑3次，对一次就算通过，pass@3相比pass@1整体提升约8个百分点。Sonnet 4.6在多模态任务上从33.9%跳到52.1%，但执行极不稳定。这不是环境随机性问题，而是路径依赖，模型在决策点的微小差异会导致后续轨迹完全分叉。

越复杂分越低

三个结构维度全部单调递减：分数与应用数、步长、检查点个数呈负相关。跨应用数从1增加到4，平均分从53%降至20%；操作步长增加，得分显著降低；检查点个数≤6时平均分65%，≥18时降至27%。“跨应用+轨迹长+细粒度验证”的任务得分最低，这正是真实工作流常见的形态。

四种结构性失败

1.任务越长，越做不对：即使每个检查点通过率高达95%，12个检查点的全部通过概率也只有54%，而SaaS-Bench平均检查点数远超12。所有模型通过率随任务推进下降，没有一个能在后半段维持前期表现。

2.一步错，步步错：如任务要求创建公司客户“Arcturus Digital”，Agent填错信息触发个人客户逻辑，后续10张发票、付款记录、账户对账都挂在错误实体下，3%的错误节点造成30%的分数损失。

3.做完不检查，自以为对了：Claude Opus 4.6识别出日期错误并修改，但未复查就推进后续子任务，汇报与页面实际情况不符。当前CUA框架缺少“严谨的反思闭环”，Agent不会检查自己的作业。

4.同一张考卷，成绩忽高忽低：Claude Sonnet 4.6在同一任务的三次独立运行中，分数范围从0.00到0.68。这是路径依赖导致的，模型在决策点的微小差异使后续执行轨迹分叉，让Agent在长程任务中的执行像赌博。

深层局限与未来趋势

SaaS-Bench揭示了Agent的Benchmark成绩和真实工作能力之间存在巨大鸿沟。四种结构性失败指向当前Agent缺少对持久状态的有效推理能力、操作后的闭环验证机制和从错误中恢复的能力，这是当前Agent范式更深层的局限。

Computer-Use Agent想要真正替人干活，路还很远。SaaS-Bench也表明，当前面向人类的SaaS界面在Agent成为主要用户时会成为累赘，未来软件可能要为Agent重新设计。

查看全文

http://www.cnnetsun.cn/news/2606653.html

农杆菌介导胡萝卜转基因：载体构建要点与转化效率提升策略

AI写论文利器！4款AI论文生成工具，解决期刊论文写作难题！

深入解析TIM1互补通道：CH1与CH1N在电机驱动中的协同与死区控制

动态秩适应与结构化剪枝：打造高效多媒体理解大模型

Revelation光影包：如何在Minecraft中实现电影级画质的3个关键步骤

打破macOS光标限制：Mousecape如何用非侵入式技术重塑你的指针体验

OpenMAIC 源码全解析：语音、模型扩展与生态接入（进阶篇）

Apple Cursor：为你的桌面注入苹果美学基因

读懂韬（τ）定律，读懂2026所有行业的生存法则：淘汰你的从来不是同行，是落后的效率思维

关于贪心算法的一些自我总结【力扣45.跳跃游戏II】【灵感来源：代码随想录】

紧急更新！GPT-4.5上线后笑话生成逻辑剧变：3天内必须重装的4个提示词底层协议（含兼容性迁移checklist）

2026指挥中心分布式坐席系统选型指南

AI技术的发展简史：从概念萌芽到通用智能的演进之路

LogExpert技术架构解析：现代Windows日志分析平台的设计哲学与实践

【ChatGPT声明失效预警】：92%的科技公司正用错“责任归属句式”，3步重构可信度公式（附NIST AI RMF映射表）

深入浅出 LoongSuite Python Agent：让你的 AI 应用「透明化」（下篇）

AI Agent Harness Engineering 的“寒武纪大爆发”即将到来？

ArcPy实战：属性表字段的自动化管理与几何计算

开发者在模型迭代时利用Taotoken快速切换与测试新模型

通过 curl 命令直接测试 TaoToken 多模型 API 的连通性与返回

DKVMN-KAPS：融合知识吸收与解题能力的个性化知识追踪模型详解

S2-Code：物联网轻量级认证协议，双窗口设计解决网络失步难题

告别黄色警告：Spring依赖注入最佳实践深度解析

矿山做业实时监测透明化三维立体重构AI预判盲区管控

运维开发宝典014-交换分区和RAID

Debian10服务器网络配置保姆级教程：从ens33网卡到hostnamectl，新手避坑指南

解锁毕业写作新范式：paperxie 论文智能创作功能深度实测解析

应急响应——威胁流量分析-zeroshell详细溯源教程

华硕笔记本性能控制新选择：GHelper轻量化解决方案深度解析

深耕建筑施工质量管控，解读GB/T 50430行业核心规范