京东面试官盯着我简历:“单步准确率 94%,听着挺唬人,那你这 Agent 连跑 20 步,还剩多少?“ 我心算了一下,当场沉默
上一篇写"工具调用准确率 71% 到 94% 这数怎么来的",后台有读者追着问:那94% 是不是就算很能打了?
今天这篇就接着这个数字往下讲,因为我一个学员,恰恰就栽在这个"看起来很能打"的 94% 上。
上周他面京东,简历上写了一行特别漂亮的话:“构建多步 Agent 系统,单步工具调用准确率 94%。”
面试官盯着这行字看了两秒,没夸他,反而慢悠悠问了一句:
“94%,听着挺唬人。那我问你——你这 Agent 完成一个任务平均要跑多少步?”
他说:“复杂任务大概十几二十步吧。”
面试官点点头,又补了一刀:“那就按 20 步算。每步 94% 的成功率,连着跑 20 步全对,整体成功率是多少?你心算一下。”
他卡住了。隐约觉得"应该挺高的吧,94% 嘛",但又算不出来。
面试官替他算了:“0.94 的 20 次方,大概 29%。也就是说,你这个单步看起来 94% 很能打的 Agent,跑一个 20 步的任务,十次里有七次中途就崩了。你简历上这个 94%,恰恰是最会骗人的一个数字。”
他当场沉默。
这一问,问到了 Agent 工程里最反直觉、也最致命的一个点——误差累积(Error Compounding)。今天我把这件事从数学原理到工程兜底,全部拆开讲清楚。看完这一篇,下次再有人拿"单步准确率"唬你,你一秒就能看穿。
一、先把那个让人沉默的数算明白
Agent 跟传统的单次问答模型,最本质的区别是:它要连续做很多步决策,而且每一步都依赖上一步的结果。这是一条链,不是一个点。
链有一个要命的性质:整体成功率,是每一步成功率的连乘,不是平均。
假设每一步成功率都是 p,要连续 n 步都对,整体成功率就是 p 的 n 次方。我们把数字代进去看一眼,那种"看着还行、其实崩了"的感觉立刻就出来了:
单步成功率连乘后的断崖:94% 跑 20 步只剩 29%
每步 99%,跑 20 步,整体还剩0.99²⁰ ≈ 82%——还能接受。
每步 95%,跑 20 步,整体0.95²⁰ ≈ 36%——已经不及格了。
每步 94%,跑 20 步,整体0.94²⁰ ≈ 29%——十次里七次崩。
每步 94%,跑 50 步,整体0.94⁵⁰ ≈ 4.5%——基本等于不可用。
看出那个最扎心的地方了吗?单步从 99% 掉到 94%,听起来只差了 5 个百分点,但跑 20 步的整体成功率,从 82% 直接腰斩到 29%。在长链条上,单步那一点点不完美会被指数级放大。这就是为什么"单步准确率"这个指标极具迷惑性——它在一步的世界里很美好,在二十步的世界里是灾难。
这件事我特别喜欢让别人自己算一遍,因为只有自己把 0.94²⁰ 按出来、看到那个 29%,才会真正对"长链条"这三个字产生敬畏。光听我说"误差会累积"没用,你得自己被那个数吓一跳。
二、为什么 demo 里好好的,一上真实任务就崩
理解了连乘,你就能解释一个几乎所有做 Agent 的人都遇到过的怪现象:demo 阶段跑得行云流水,一上真实复杂任务就稀碎。
原因很简单——demo 任务通常只有三五步。3 步的话,0.94³ ≈ 83%,跑十次错一两次,看着挺稳,你信心爆棚。可真实任务动辄一二十步,链条一长,那个 0.94 的指数次方立刻把你打回原形。不是你的 Agent 在生产环境"变笨了",是任务链条变长,把它单步那点不完美放大了出来。
更麻烦的是,真实世界里每一步的成功率往往还不到demo 里那么高。因为真实环境有 demo 里没有的脏东西:API 偶尔超时、返回里夹着没文档说明的错误码、用户的话说得模棱两可、上一步的输出格式跟这一步的预期对不上……每一项都在悄悄拉低单步成功率。单步从 94% 掉到 88%,跑 20 步就从 29% 掉到 7.5%。
所以面试官那一问的潜台词,根本不是在考你算术,而是在判断一件事:你到底是只跑过几步的 demo,还是真在长链条任务上被误差累积反复毒打过。一个只做过 demo 的人,会觉得 94% 很牛;一个被长链条折磨过的人,看到 94% 配 20 步,第一反应是"这玩意儿稳定性堪忧,兜底做了吗"。这两种人,面试官三个数字就能区分开。
我自己印象最深的一次翻车,是在我们的金融研报 Agent 上。任务是"根据用户问题,从财报里抽数据、算几个指标、生成一段分析"。拆下来差不多 15 步:理解问题、定位文档、抽原始数字、做单位换算、算同比环比、交叉验证、组织语言……第一版上线,我们测下来端到端成功率只有三成出头,但每一步单独拎出来看,成功率都在 90% 往上。当时百思不得其解——每一环看着都挺靠谱,怎么合一块就崩成这样?
后来我把一次失败的完整轨迹打出来逐步读,才看明白:第 4 步做单位换算时,模型把"万元"当成了"元",错了。但这个错误它自己完全没察觉,揣着这个错了 10000 倍的数字,继续一本正经地往下算同比、算环比、写分析——后面 11 步每一步都"成功"了,单步成功率统计上全是绿的,但整个结果从第 4 步起就已经是废的。这就是误差累积最阴险的地方:错误不会自己停下,它会被下游一路"成功地"放大,最后你拿到一个格式完美、逻辑通顺、数字全错的答案。那一次之后我才真正信了——长链条 Agent 的敌人,从来不是"某一步不会做",而是"错了之后没人喊停"。
三、对抗误差累积的四种工程手段
光知道"会崩"没用,面试官真正想听的是:那你怎么办?对抗误差累积,工程上有四种手段,从"提高每一步"到"允许某一步错",逻辑是层层递进的。
对抗误差累积的四层手段:提高单步、缩短链条、加验证、能恢复
手段一:把单步成功率往上抬——因为它是被指数放大的,每提一点都赚翻。
既然整体是 p 的 n 次方,那 p 每提高一点,在长链条上的收益是被指数放大的。这就是为什么工具调用的 prompt 优化、参数 schema 约束、给工具写清楚的描述这些"细活"如此值钱——你把单步从 94% 抠到 98%,跑 20 步的整体成功率会从 29% 飙到 67%,翻一倍还多。在长链条系统里,单步上 4 个百分点的提升,是杠杆率最高的投资。
手段二:缩短链条——能 5 步干完的,别让它跑 20 步。
既然 n 是指数,那减小 n 的收益同样巨大。很多人的 Agent 跑二十步,是因为任务拆得太碎、规划得太啰嗦。把任务重新拆解、合并能合并的步骤、把确定性的逻辑从 Agent 手里拿出来用代码硬编码(确定的事就别让模型每次现想),把链条从 20 步压到 8 步,0.94 从 20 次方变成 8 次方,整体成功率从 29% 直接抬到 61%。最好的兜底,是根本不需要那么多步。
手段三:每步加验证——不让错误悄悄往下游传。
误差累积最可怕的不是"错一步",而是"错了还不知道,带着错继续往下跑"。所以关键是在每一步(或关键步)后面加一道自我验证:工具返回的结果格式对不对、内容合不合理、跟当前目标还搭不搭。一旦验证不过,立刻在这一步重试或修正,而不是把错误传给下一步。这相当于在链条的每个节点装了个阀门,把"一步错、步步错"的连锁反应,掐死在它发生的那一步。加了验证-重试之后,单步的"有效成功率"会显著上去,等于直接提升了上面公式里的 p。
手段四:让链条可恢复——允许某一步错,但要能爬回来。
前三招都是"尽量别错",第四招承认一个现实:长链条里,错误迟早会发生,你要做的是让系统错了之后能恢复,而不是一错到底。具体就是给 Agent 设置checkpoint(检查点)——在关键节点把状态存下来,一旦后面某步崩了,能回退到最近的检查点重来,而不是整个任务从头再跑一遍。再配合反思机制(reflection),让它读着报错调整策略再试。这样一来,哪怕单步会错,整条链路的最终成功率也能被一次次重试和回退托起来。
这套从误差累积分析到多层兜底的完整工程实现,是我们训练营 Deep Research Agent 项目里的核心模块。学员不是背"误差会累积"这句话,而是真的把一个要跑几十步的研究型 Agent 从零写一遍——从给每一步加验证阀门,到设计 checkpoint 和回退逻辑,每一个兜底决策背后,都对应着一次"不加这层就崩给你看"的真实 badcase。
四、把四招拼起来:单步 94% 也能撑住 20 步
四招分开讲清楚了,真实系统里是叠着用的,而且叠起来的效果是相乘的。我们用那个 0.94 / 20 步的灾难案例,走一遍叠加后的账:
四招叠加:把 29% 的整体成功率救回到 90%+
原始状态:单步 94%、20 步、无验证无恢复,整体29%。
先用手段二缩链条:把确定性逻辑硬编码、合并冗余步骤,20 步压到 10 步。
再用手段一 + 三抬单步:优化工具描述、加 schema 约束、每步加自我验证-重试,把单步有效成功率从 94% 抬到 98%。此时 0.98¹⁰ ≈82%。
最后用手段四兜底:关键步加 checkpoint + 失败回退重试,允许每步最多重试 2 次。一步即便偶尔失败,靠回退重试也能救回来,整条链路最终成功率被抬到90% 以上。
你看,同样是单步 94% 起步的系统,裸跑只有 29%,工程兜底叠满之后能撑到 90%+。这中间差的不是模型能力,全是工程。这也是为什么我一直说,Agent 的 demo 和生产是两个物种——demo 比的是"单步能不能跑通",生产比的是"长链条上怎么跟误差累积这条指数曲线掰手腕"。
五、最高级的兜底,是承认有些任务不该用长链条 Agent
讲完四招,还有一个更上层的判断,是真正资深的人才会说出口的——不是所有任务都值得硬扛误差累积,有些任务最好的方案是根本不交给一个长链条 Agent。
误差累积的数学是冷酷的:链条越长,整体成功率被指数压得越低。这意味着对那些步数天然就很多、且每一步都不能错的任务(比如一笔涉及真实资金的多步转账、一次不可回滚的批量数据迁移),哪怕你把单步抠到 99%,跑 50 步整体也只有六成,这个可靠性在生产上是不可接受的。
这种时候,正确的工程判断不是"再优化优化 Agent",而是换范式:
一是把链条从"模型自主决策"退回"人在回路(Human-in-the-loop)"——让 Agent 跑到关键的、不可逆的那一步时停下来,交给人确认一下再继续。一步人工确认,等于在最危险的节点把成功率强行拉回 100%,整条链的期望成功率立刻被托起来。
二是把不确定的链条,拆成确定性的工作流(Workflow)+ 少量 Agent 决策点。能用固定代码、固定规则跑通的部分,就别让模型每一步现场发挥——确定性代码的"单步成功率"是 100%,它根本不参与那个连乘衰减。只在真正需要模型判断的那两三个点上放 Agent,其余全部硬编码。这样 n(需要模型决策的步数)从 20 降到 3,0.94³ ≈ 83%,可靠性立刻进入可用区间。
所以面试时如果你能补一句"这个任务我评估下来不适合纯 Agent,应该用 workflow 加关键节点人工确认",反而比堆一堆兜底技巧更能体现工程成熟度——因为你展示的是"知道工具的边界在哪",而不只是"会用工具"。
面试怎么答"单步准确率很高,为什么整体还是不行"?
这道题答好了特别加分,因为它直接区分 demo 选手和实战选手。按这个框架答:
先算账,点破迷惑性(30 秒)。“因为 Agent 整体成功率是每步成功率的连乘,不是平均。单步 94% 看着高,但 0.94 的 20 次方只有 29%——长链条会把单步那点不完美指数级放大。单步从 99 掉到 94 只差 5 个点,20 步整体却从 82% 腰斩到 29%。”
再讲为什么 demo 骗人(20 秒)。“demo 任务只有三五步,0.94³ 还有 83%,所以看着稳;真实任务一二十步,链条一长就原形毕露,加上真实环境单步成功率还更低。”
然后给四层解法(40 秒)。“对抗它有四招叠着用:一是抬单步成功率,它被指数放大,每提一点都赚;二是缩短链条,能硬编码的确定逻辑别交给模型;三是每步加自我验证-重试,不让错误往下游传;四是设 checkpoint + 失败回退,承认会错但要能爬回来。”
最后落到数据(20 秒)。“我们项目里就靠这四招,把一个单步 94%、裸跑整体只有 29% 的 Agent,缩链条 + 抬单步 + 加验证 + 加回退之后,最终成功率撑到了 90% 以上。差的全是工程,不是模型。”
写在最后
那个学员后来跟我复盘,说最扎心的不是没答上来,是他从来没自己算过那个数。他在简历上写下 94% 的时候,脑子里想的是"这个数挺漂亮",压根没意识到这个漂亮的数字配上 20 步的链条,意味着七成的任务会中途崩掉。
这就是 Agent 工程和单点模型最大的认知鸿沟——单点的世界里你优化的是一个数,链条的世界里你要对抗的是一条指数曲线。不理解连乘,你会把所有精力砸在"把单步从 94 抠到 95"上沾沾自喜;理解了连乘,你才知道缩短链条、加验证、做回退这些"脏活",才是真正把成功率从 29% 救到 90% 的东西。
下次再看到任何"单步准确率 XX%"的指标,先问一句:跑几步?然后心里默算一下那个指数。这个习惯,你可以带走。
今天这道题,只是大模型面试中 Agent 可靠性工程的一个切面。
真正的面试官不会只问这一问。他们会顺着你的回答追下去,追到你答不上来为止,判断的就是你到底做没做过这个系统。
背答案的人和真正做过的人,说话方式完全不一样。前者说"准确率高就行了呗",后者会脱口而出"单步 94% 跑 20 步整体只剩 29%,我们靠缩链条到 10 步加每步验证重试,把单步有效成功率抬到 98%、再加 checkpoint 回退,才把最终成功率从 29% 救到 90% 以上"。
面试官三句话就能听出来你是哪种人。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
