当前位置: 首页 > news >正文

SaaS-Bench实战:Agent全军覆没,暴露长程任务短板,软件或需为其重做

Leaderboard:残酷实战考试

现有的Agent评测多是仿真环境、简单任务,与真实工作天差地别。真实办公涉及跨系统、数百步操作,如医疗管理员写病历、填上报、生成文档,财务审批报销、打款、记账等。SaaS-Bench直接把真系统搬进Docker,让Agent在真实的前后端逻辑、数据库状态和业务约束中工作。

SaaS-Bench精心挑选23个开源SaaS系统,通过Docker本地部署,覆盖软件研发、业务财务、医疗管理、团队协作、农业供应链、独立媒体六个专业领域。这些系统填充了真实业务数据,Agent进入的是有历史数据、干扰项和跨系统关联的真实工作环境。

任务详情

106个任务中,93.4%跨越至少两个应用,三应用任务占一半。纯文本任务74个,涉及多模态理解的32个。以Claude Opus 4.6的执行轨迹估算,97.3%的文本任务操作步数超过100步,最长轨迹达300+步。

SaaS-Bench采用“LLM生成 + 专家把关”的方式构建任务。先由LLM围绕六大专业领域和具体职业角色生成任务,明确目标、跨应用依赖和验证要求,再由专家人工筛选和真实执行检查,确保任务专业、自然、可完成、可验证。

SaaS-Bench允许Agent使用Browser-Use在SaaS环境中操作计算机,并给出Resolved Score(完全通过分数,严苛)和Checkpoint Score(检查点分数,宽松)两个指标。

榜单结果:全军覆没

主要结果显示,最强的Claude Opus 4.7,检查点分数43.9%,端到端完全通过分数只有3.8%,106个任务仅完整通过4个。Kimi K2.5和Gemini 3.1 Pro完全通过分数为零,一个任务都没走完。这表明Agent能推进部分中间环节,但几乎无法完成完整的长程工作流。

多跑几次效果有限

把每个模型在同一任务上独立跑3次,对一次就算通过,pass@3相比pass@1整体提升约8个百分点。Sonnet 4.6在多模态任务上从33.9%跳到52.1%,但执行极不稳定。这不是环境随机性问题,而是路径依赖,模型在决策点的微小差异会导致后续轨迹完全分叉。

越复杂分越低

三个结构维度全部单调递减:分数与应用数、步长、检查点个数呈负相关。跨应用数从1增加到4,平均分从53%降至20%;操作步长增加,得分显著降低;检查点个数≤6时平均分65%,≥18时降至27%。“跨应用+轨迹长+细粒度验证”的任务得分最低,这正是真实工作流常见的形态。

四种结构性失败

1.任务越长,越做不对:即使每个检查点通过率高达95%,12个检查点的全部通过概率也只有54%,而SaaS-Bench平均检查点数远超12。所有模型通过率随任务推进下降,没有一个能在后半段维持前期表现。

2.一步错,步步错:如任务要求创建公司客户“Arcturus Digital”,Agent填错信息触发个人客户逻辑,后续10张发票、付款记录、账户对账都挂在错误实体下,3%的错误节点造成30%的分数损失。

3.做完不检查,自以为对了:Claude Opus 4.6识别出日期错误并修改,但未复查就推进后续子任务,汇报与页面实际情况不符。当前CUA框架缺少“严谨的反思闭环”,Agent不会检查自己的作业。

4.同一张考卷,成绩忽高忽低:Claude Sonnet 4.6在同一任务的三次独立运行中,分数范围从0.00到0.68。这是路径依赖导致的,模型在决策点的微小差异使后续执行轨迹分叉,让Agent在长程任务中的执行像赌博。

深层局限与未来趋势

SaaS-Bench揭示了Agent的Benchmark成绩和真实工作能力之间存在巨大鸿沟。四种结构性失败指向当前Agent缺少对持久状态的有效推理能力、操作后的闭环验证机制和从错误中恢复的能力,这是当前Agent范式更深层的局限。

Computer-Use Agent想要真正替人干活,路还很远。SaaS-Bench也表明,当前面向人类的SaaS界面在Agent成为主要用户时会成为累赘,未来软件可能要为Agent重新设计。

http://www.cnnetsun.cn/news/2606653.html

相关文章:

  • 农杆菌介导胡萝卜转基因:载体构建要点与转化效率提升策略
  • AI写论文利器!4款AI论文生成工具,解决期刊论文写作难题!
  • 深入解析TIM1互补通道:CH1与CH1N在电机驱动中的协同与死区控制
  • 动态秩适应与结构化剪枝:打造高效多媒体理解大模型
  • Revelation光影包:如何在Minecraft中实现电影级画质的3个关键步骤
  • 打破macOS光标限制:Mousecape如何用非侵入式技术重塑你的指针体验
  • OpenMAIC 源码全解析:语音、模型扩展与生态接入(进阶篇)
  • Apple Cursor:为你的桌面注入苹果美学基因
  • 读懂韬(τ)定律,读懂2026所有行业的生存法则:淘汰你的从来不是同行,是落后的效率思维
  • 关于贪心算法的一些自我总结【力扣45.跳跃游戏II】【灵感来源:代码随想录】
  • 紧急更新!GPT-4.5上线后笑话生成逻辑剧变:3天内必须重装的4个提示词底层协议(含兼容性迁移checklist)
  • 2026指挥中心分布式坐席系统选型指南
  • AI技术的发展简史:从概念萌芽到通用智能的演进之路
  • LogExpert技术架构解析:现代Windows日志分析平台的设计哲学与实践
  • 【ChatGPT声明失效预警】:92%的科技公司正用错“责任归属句式”,3步重构可信度公式(附NIST AI RMF映射表)
  • 深入浅出 LoongSuite Python Agent:让你的 AI 应用「透明化」(下篇)
  • AI Agent Harness Engineering 的“寒武纪大爆发”即将到来?
  • ArcPy实战:属性表字段的自动化管理与几何计算
  • 开发者在模型迭代时利用Taotoken快速切换与测试新模型
  • 通过 curl 命令直接测试 TaoToken 多模型 API 的连通性与返回
  • DKVMN-KAPS:融合知识吸收与解题能力的个性化知识追踪模型详解
  • S2-Code:物联网轻量级认证协议,双窗口设计解决网络失步难题
  • 告别黄色警告:Spring依赖注入最佳实践深度解析
  • 矿山做业实时监测透明化三维立体重构AI预判盲区管控
  • 运维开发宝典014-交换分区和RAID
  • Debian10服务器网络配置保姆级教程:从ens33网卡到hostnamectl,新手避坑指南
  • 解锁毕业写作新范式:paperxie 论文智能创作功能深度实测解析
  • 应急响应——威胁流量分析-zeroshell详细溯源教程
  • 华硕笔记本性能控制新选择:GHelper轻量化解决方案深度解析
  • 深耕建筑施工质量管控,解读GB/T 50430行业核心规范