SaaS-Bench实战:Agent全军覆没,暴露长程任务短板,软件或需为其重做
Leaderboard:残酷实战考试
现有的Agent评测多是仿真环境、简单任务,与真实工作天差地别。真实办公涉及跨系统、数百步操作,如医疗管理员写病历、填上报、生成文档,财务审批报销、打款、记账等。SaaS-Bench直接把真系统搬进Docker,让Agent在真实的前后端逻辑、数据库状态和业务约束中工作。
SaaS-Bench精心挑选23个开源SaaS系统,通过Docker本地部署,覆盖软件研发、业务财务、医疗管理、团队协作、农业供应链、独立媒体六个专业领域。这些系统填充了真实业务数据,Agent进入的是有历史数据、干扰项和跨系统关联的真实工作环境。
任务详情
106个任务中,93.4%跨越至少两个应用,三应用任务占一半。纯文本任务74个,涉及多模态理解的32个。以Claude Opus 4.6的执行轨迹估算,97.3%的文本任务操作步数超过100步,最长轨迹达300+步。
SaaS-Bench采用“LLM生成 + 专家把关”的方式构建任务。先由LLM围绕六大专业领域和具体职业角色生成任务,明确目标、跨应用依赖和验证要求,再由专家人工筛选和真实执行检查,确保任务专业、自然、可完成、可验证。
SaaS-Bench允许Agent使用Browser-Use在SaaS环境中操作计算机,并给出Resolved Score(完全通过分数,严苛)和Checkpoint Score(检查点分数,宽松)两个指标。
榜单结果:全军覆没
主要结果显示,最强的Claude Opus 4.7,检查点分数43.9%,端到端完全通过分数只有3.8%,106个任务仅完整通过4个。Kimi K2.5和Gemini 3.1 Pro完全通过分数为零,一个任务都没走完。这表明Agent能推进部分中间环节,但几乎无法完成完整的长程工作流。
多跑几次效果有限
把每个模型在同一任务上独立跑3次,对一次就算通过,pass@3相比pass@1整体提升约8个百分点。Sonnet 4.6在多模态任务上从33.9%跳到52.1%,但执行极不稳定。这不是环境随机性问题,而是路径依赖,模型在决策点的微小差异会导致后续轨迹完全分叉。
越复杂分越低
三个结构维度全部单调递减:分数与应用数、步长、检查点个数呈负相关。跨应用数从1增加到4,平均分从53%降至20%;操作步长增加,得分显著降低;检查点个数≤6时平均分65%,≥18时降至27%。“跨应用+轨迹长+细粒度验证”的任务得分最低,这正是真实工作流常见的形态。
四种结构性失败
1.任务越长,越做不对:即使每个检查点通过率高达95%,12个检查点的全部通过概率也只有54%,而SaaS-Bench平均检查点数远超12。所有模型通过率随任务推进下降,没有一个能在后半段维持前期表现。
2.一步错,步步错:如任务要求创建公司客户“Arcturus Digital”,Agent填错信息触发个人客户逻辑,后续10张发票、付款记录、账户对账都挂在错误实体下,3%的错误节点造成30%的分数损失。
3.做完不检查,自以为对了:Claude Opus 4.6识别出日期错误并修改,但未复查就推进后续子任务,汇报与页面实际情况不符。当前CUA框架缺少“严谨的反思闭环”,Agent不会检查自己的作业。
4.同一张考卷,成绩忽高忽低:Claude Sonnet 4.6在同一任务的三次独立运行中,分数范围从0.00到0.68。这是路径依赖导致的,模型在决策点的微小差异使后续执行轨迹分叉,让Agent在长程任务中的执行像赌博。
深层局限与未来趋势
SaaS-Bench揭示了Agent的Benchmark成绩和真实工作能力之间存在巨大鸿沟。四种结构性失败指向当前Agent缺少对持久状态的有效推理能力、操作后的闭环验证机制和从错误中恢复的能力,这是当前Agent范式更深层的局限。
Computer-Use Agent想要真正替人干活,路还很远。SaaS-Bench也表明,当前面向人类的SaaS界面在Agent成为主要用户时会成为累赘,未来软件可能要为Agent重新设计。
