当前位置：首页 > news >正文

京东面试官盯着我简历：“单步准确率 94%，听着挺唬人，那你这 Agent 连跑 20 步，还剩多少？“ 我心算了一下，当场沉默

news 2026/6/12 4:00:39

上一篇写"工具调用准确率 71% 到 94% 这数怎么来的"，后台有读者追着问：那94% 是不是就算很能打了？

今天这篇就接着这个数字往下讲，因为我一个学员，恰恰就栽在这个"看起来很能打"的 94% 上。

上周他面京东，简历上写了一行特别漂亮的话：“构建多步 Agent 系统，单步工具调用准确率 94%。”

面试官盯着这行字看了两秒，没夸他，反而慢悠悠问了一句：

“94%，听着挺唬人。那我问你——你这 Agent 完成一个任务平均要跑多少步？”

他说：“复杂任务大概十几二十步吧。”

面试官点点头，又补了一刀：“那就按 20 步算。每步 94% 的成功率，连着跑 20 步全对，整体成功率是多少？你心算一下。”

他卡住了。隐约觉得"应该挺高的吧，94% 嘛"，但又算不出来。

面试官替他算了：“0.94 的 20 次方，大概 29%。也就是说，你这个单步看起来 94% 很能打的 Agent，跑一个 20 步的任务，十次里有七次中途就崩了。你简历上这个 94%，恰恰是最会骗人的一个数字。”

他当场沉默。

这一问，问到了 Agent 工程里最反直觉、也最致命的一个点——误差累积（Error Compounding）。今天我把这件事从数学原理到工程兜底，全部拆开讲清楚。看完这一篇，下次再有人拿"单步准确率"唬你，你一秒就能看穿。

一、先把那个让人沉默的数算明白

Agent 跟传统的单次问答模型，最本质的区别是：它要连续做很多步决策，而且每一步都依赖上一步的结果。这是一条链，不是一个点。

链有一个要命的性质：整体成功率，是每一步成功率的连乘，不是平均。

假设每一步成功率都是 p，要连续 n 步都对，整体成功率就是 p 的 n 次方。我们把数字代进去看一眼，那种"看着还行、其实崩了"的感觉立刻就出来了：

单步成功率连乘后的断崖：94% 跑 20 步只剩 29%

每步 99%，跑 20 步，整体还剩0.99²⁰ ≈ 82%——还能接受。

每步 95%，跑 20 步，整体0.95²⁰ ≈ 36%——已经不及格了。

每步 94%，跑 20 步，整体0.94²⁰ ≈ 29%——十次里七次崩。

每步 94%，跑 50 步，整体0.94⁵⁰ ≈ 4.5%——基本等于不可用。

看出那个最扎心的地方了吗？单步从 99% 掉到 94%，听起来只差了 5 个百分点，但跑 20 步的整体成功率，从 82% 直接腰斩到 29%。在长链条上，单步那一点点不完美会被指数级放大。这就是为什么"单步准确率"这个指标极具迷惑性——它在一步的世界里很美好，在二十步的世界里是灾难。

这件事我特别喜欢让别人自己算一遍，因为只有自己把 0.94²⁰ 按出来、看到那个 29%，才会真正对"长链条"这三个字产生敬畏。光听我说"误差会累积"没用，你得自己被那个数吓一跳。

二、为什么 demo 里好好的，一上真实任务就崩

理解了连乘，你就能解释一个几乎所有做 Agent 的人都遇到过的怪现象：demo 阶段跑得行云流水，一上真实复杂任务就稀碎。

原因很简单——demo 任务通常只有三五步。3 步的话，0.94³ ≈ 83%，跑十次错一两次，看着挺稳，你信心爆棚。可真实任务动辄一二十步，链条一长，那个 0.94 的指数次方立刻把你打回原形。不是你的 Agent 在生产环境"变笨了"，是任务链条变长，把它单步那点不完美放大了出来。

更麻烦的是，真实世界里每一步的成功率往往还不到demo 里那么高。因为真实环境有 demo 里没有的脏东西：API 偶尔超时、返回里夹着没文档说明的错误码、用户的话说得模棱两可、上一步的输出格式跟这一步的预期对不上……每一项都在悄悄拉低单步成功率。单步从 94% 掉到 88%，跑 20 步就从 29% 掉到 7.5%。

所以面试官那一问的潜台词，根本不是在考你算术，而是在判断一件事：你到底是只跑过几步的 demo，还是真在长链条任务上被误差累积反复毒打过。一个只做过 demo 的人，会觉得 94% 很牛；一个被长链条折磨过的人，看到 94% 配 20 步，第一反应是"这玩意儿稳定性堪忧，兜底做了吗"。这两种人，面试官三个数字就能区分开。

我自己印象最深的一次翻车，是在我们的金融研报 Agent 上。任务是"根据用户问题，从财报里抽数据、算几个指标、生成一段分析"。拆下来差不多 15 步：理解问题、定位文档、抽原始数字、做单位换算、算同比环比、交叉验证、组织语言……第一版上线，我们测下来端到端成功率只有三成出头，但每一步单独拎出来看，成功率都在 90% 往上。当时百思不得其解——每一环看着都挺靠谱，怎么合一块就崩成这样？

后来我把一次失败的完整轨迹打出来逐步读，才看明白：第 4 步做单位换算时，模型把"万元"当成了"元"，错了。但这个错误它自己完全没察觉，揣着这个错了 10000 倍的数字，继续一本正经地往下算同比、算环比、写分析——后面 11 步每一步都"成功"了，单步成功率统计上全是绿的，但整个结果从第 4 步起就已经是废的。这就是误差累积最阴险的地方：错误不会自己停下，它会被下游一路"成功地"放大，最后你拿到一个格式完美、逻辑通顺、数字全错的答案。那一次之后我才真正信了——长链条 Agent 的敌人，从来不是"某一步不会做"，而是"错了之后没人喊停"。

三、对抗误差累积的四种工程手段

光知道"会崩"没用，面试官真正想听的是：那你怎么办？对抗误差累积，工程上有四种手段，从"提高每一步"到"允许某一步错"，逻辑是层层递进的。

对抗误差累积的四层手段：提高单步、缩短链条、加验证、能恢复

手段一：把单步成功率往上抬——因为它是被指数放大的，每提一点都赚翻。

既然整体是 p 的 n 次方，那 p 每提高一点，在长链条上的收益是被指数放大的。这就是为什么工具调用的 prompt 优化、参数 schema 约束、给工具写清楚的描述这些"细活"如此值钱——你把单步从 94% 抠到 98%，跑 20 步的整体成功率会从 29% 飙到 67%，翻一倍还多。在长链条系统里，单步上 4 个百分点的提升，是杠杆率最高的投资。

手段二：缩短链条——能 5 步干完的，别让它跑 20 步。

既然 n 是指数，那减小 n 的收益同样巨大。很多人的 Agent 跑二十步，是因为任务拆得太碎、规划得太啰嗦。把任务重新拆解、合并能合并的步骤、把确定性的逻辑从 Agent 手里拿出来用代码硬编码（确定的事就别让模型每次现想），把链条从 20 步压到 8 步，0.94 从 20 次方变成 8 次方，整体成功率从 29% 直接抬到 61%。最好的兜底，是根本不需要那么多步。

手段三：每步加验证——不让错误悄悄往下游传。

误差累积最可怕的不是"错一步"，而是"错了还不知道，带着错继续往下跑"。所以关键是在每一步（或关键步）后面加一道自我验证：工具返回的结果格式对不对、内容合不合理、跟当前目标还搭不搭。一旦验证不过，立刻在这一步重试或修正，而不是把错误传给下一步。这相当于在链条的每个节点装了个阀门，把"一步错、步步错"的连锁反应，掐死在它发生的那一步。加了验证-重试之后，单步的"有效成功率"会显著上去，等于直接提升了上面公式里的 p。

手段四：让链条可恢复——允许某一步错，但要能爬回来。

前三招都是"尽量别错"，第四招承认一个现实：长链条里，错误迟早会发生，你要做的是让系统错了之后能恢复，而不是一错到底。具体就是给 Agent 设置checkpoint（检查点）——在关键节点把状态存下来，一旦后面某步崩了，能回退到最近的检查点重来，而不是整个任务从头再跑一遍。再配合反思机制（reflection），让它读着报错调整策略再试。这样一来，哪怕单步会错，整条链路的最终成功率也能被一次次重试和回退托起来。

这套从误差累积分析到多层兜底的完整工程实现，是我们训练营 Deep Research Agent 项目里的核心模块。学员不是背"误差会累积"这句话，而是真的把一个要跑几十步的研究型 Agent 从零写一遍——从给每一步加验证阀门，到设计 checkpoint 和回退逻辑，每一个兜底决策背后，都对应着一次"不加这层就崩给你看"的真实 badcase。

四、把四招拼起来：单步 94% 也能撑住 20 步

四招分开讲清楚了，真实系统里是叠着用的，而且叠起来的效果是相乘的。我们用那个 0.94 / 20 步的灾难案例，走一遍叠加后的账：

四招叠加：把 29% 的整体成功率救回到 90%+

原始状态：单步 94%、20 步、无验证无恢复，整体29%。

先用手段二缩链条：把确定性逻辑硬编码、合并冗余步骤，20 步压到 10 步。

再用手段一 + 三抬单步：优化工具描述、加 schema 约束、每步加自我验证-重试，把单步有效成功率从 94% 抬到 98%。此时 0.98¹⁰ ≈82%。

最后用手段四兜底：关键步加 checkpoint + 失败回退重试，允许每步最多重试 2 次。一步即便偶尔失败，靠回退重试也能救回来，整条链路最终成功率被抬到90% 以上。

你看，同样是单步 94% 起步的系统，裸跑只有 29%，工程兜底叠满之后能撑到 90%+。这中间差的不是模型能力，全是工程。这也是为什么我一直说，Agent 的 demo 和生产是两个物种——demo 比的是"单步能不能跑通"，生产比的是"长链条上怎么跟误差累积这条指数曲线掰手腕"。

五、最高级的兜底，是承认有些任务不该用长链条 Agent

讲完四招，还有一个更上层的判断，是真正资深的人才会说出口的——不是所有任务都值得硬扛误差累积，有些任务最好的方案是根本不交给一个长链条 Agent。

误差累积的数学是冷酷的：链条越长，整体成功率被指数压得越低。这意味着对那些步数天然就很多、且每一步都不能错的任务（比如一笔涉及真实资金的多步转账、一次不可回滚的批量数据迁移），哪怕你把单步抠到 99%，跑 50 步整体也只有六成，这个可靠性在生产上是不可接受的。

这种时候，正确的工程判断不是"再优化优化 Agent"，而是换范式：

一是把链条从"模型自主决策"退回"人在回路（Human-in-the-loop）"——让 Agent 跑到关键的、不可逆的那一步时停下来，交给人确认一下再继续。一步人工确认，等于在最危险的节点把成功率强行拉回 100%，整条链的期望成功率立刻被托起来。

二是把不确定的链条，拆成确定性的工作流（Workflow）+ 少量 Agent 决策点。能用固定代码、固定规则跑通的部分，就别让模型每一步现场发挥——确定性代码的"单步成功率"是 100%，它根本不参与那个连乘衰减。只在真正需要模型判断的那两三个点上放 Agent，其余全部硬编码。这样 n（需要模型决策的步数）从 20 降到 3，0.94³ ≈ 83%，可靠性立刻进入可用区间。

所以面试时如果你能补一句"这个任务我评估下来不适合纯 Agent，应该用 workflow 加关键节点人工确认"，反而比堆一堆兜底技巧更能体现工程成熟度——因为你展示的是"知道工具的边界在哪"，而不只是"会用工具"。

面试怎么答"单步准确率很高，为什么整体还是不行"？

这道题答好了特别加分，因为它直接区分 demo 选手和实战选手。按这个框架答：

先算账，点破迷惑性（30 秒）。“因为 Agent 整体成功率是每步成功率的连乘，不是平均。单步 94% 看着高，但 0.94 的 20 次方只有 29%——长链条会把单步那点不完美指数级放大。单步从 99 掉到 94 只差 5 个点，20 步整体却从 82% 腰斩到 29%。”

再讲为什么 demo 骗人（20 秒）。“demo 任务只有三五步，0.94³ 还有 83%，所以看着稳；真实任务一二十步，链条一长就原形毕露，加上真实环境单步成功率还更低。”

然后给四层解法（40 秒）。“对抗它有四招叠着用：一是抬单步成功率，它被指数放大，每提一点都赚；二是缩短链条，能硬编码的确定逻辑别交给模型；三是每步加自我验证-重试，不让错误往下游传；四是设 checkpoint + 失败回退，承认会错但要能爬回来。”

最后落到数据（20 秒）。“我们项目里就靠这四招，把一个单步 94%、裸跑整体只有 29% 的 Agent，缩链条 + 抬单步 + 加验证 + 加回退之后，最终成功率撑到了 90% 以上。差的全是工程，不是模型。”

写在最后

那个学员后来跟我复盘，说最扎心的不是没答上来，是他从来没自己算过那个数。他在简历上写下 94% 的时候，脑子里想的是"这个数挺漂亮"，压根没意识到这个漂亮的数字配上 20 步的链条，意味着七成的任务会中途崩掉。

这就是 Agent 工程和单点模型最大的认知鸿沟——单点的世界里你优化的是一个数，链条的世界里你要对抗的是一条指数曲线。不理解连乘，你会把所有精力砸在"把单步从 94 抠到 95"上沾沾自喜；理解了连乘，你才知道缩短链条、加验证、做回退这些"脏活"，才是真正把成功率从 29% 救到 90% 的东西。

下次再看到任何"单步准确率 XX%"的指标，先问一句：跑几步？然后心里默算一下那个指数。这个习惯，你可以带走。

今天这道题，只是大模型面试中 Agent 可靠性工程的一个切面。

真正的面试官不会只问这一问。他们会顺着你的回答追下去，追到你答不上来为止，判断的就是你到底做没做过这个系统。

背答案的人和真正做过的人，说话方式完全不一样。前者说"准确率高就行了呗"，后者会脱口而出"单步 94% 跑 20 步整体只剩 29%，我们靠缩链条到 10 步加每步验证重试，把单步有效成功率抬到 98%、再加 checkpoint 回退，才把最终成功率从 29% 救到 90% 以上"。

面试官三句话就能听出来你是哪种人。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～