当前位置：首页 > news >正文

AHE解读：让Coding Agent的工具、记忆与中间件自动进化

news 2026/6/30 4:54:17

AHE解读：让Coding Agent的工具、记忆与中间件自动进化

摘要

提升 Coding Agent，常见做法是更换模型或继续修改系统提示词。但 Agent 的真实能力还取决于外层 Harness：工具接口、中间件、长期记忆、技能和执行约束。论文 Agentic Harness Engineering（AHE）提出一个可审计的自动演进闭环：固定基础模型，让另一个 Agent 根据任务轨迹修改 Harness，并用下一轮结果验证每次改动。实验中，AHE 经过 10 轮、约 32 小时演进，将 Terminal-Bench 2 的 pass@1 从 69.7% 提升到 77.0%，超过人工设计的 Codex Harness 71.9%。更关键的结论是，收益主要来自工具、中间件和长期记忆，而不是系统提示词。

背景：模型之外还有一个决定性能的系统

Coding Agent 并不是“模型加一个 Shell”。模型通过工具观察仓库、执行命令、编辑文件；中间件负责上下文、超时、恢复和结束条件；长期记忆保存跨任务经验；系统提示词规定行为边界。这些可编辑组件共同构成 Harness。

目前 Harness 优化主要靠人工：工程师阅读失败轨迹，归纳模式，再修改 Prompt 或工具。问题是，单次运行可能产生几十万 Token，失败原因分散在多轮操作中；多个组件相互耦合，又很难判断一次提升到底来自哪里。

AHE 的核心判断是：自动演进的瓶颈不是 Agent 不够聪明，而是缺少可观察、可归因、可回滚的工程表面。

技术要点一：把 Harness 拆成可版本化组件

AHE 基于 NexAU，将七类组件暴露成独立文件：系统提示词、工具描述、工具实现、中间件、技能、子 Agent 配置和长期记忆。组件放在固定工作区，修改形成 Git 提交，因此每个变化都有文件级 Diff 和回滚点。

这种拆分解决了两个问题。第一，失败模式可以映射到明确组件，例如命令执行缺少保护应修改工具或中间件，而不是继续堆 Prompt。第二，演进 Agent 的写权限被限制在 Harness 工作区，运行目录、验证器、模型配置保持只读，避免通过关闭测试、替换模型或增加推理预算“刷分”。

初始 Harness 刻意保持最小化：只有 Shell 工具，没有中间件、技能和子 Agent。新增组件必须通过后续实验证明价值。

技术要点二：把海量轨迹压缩成分层证据

直接把全部运行日志塞给演进 Agent，不仅成本高，也容易淹没真正的根因。AHE 使用 Agent Debugger 将每条消息保存为文件，对每个任务生成成功或失败分析，再汇总成基准级概览。

演进 Agent 先读总览，需要时逐层下钻到单任务报告和原始轨迹。这种渐进披露保留了可核验性，同时避免每轮重复消费数百万 Token。

这里的工程重点不是“让模型总结日志”，而是建立证据链：任务结果、根因分析、原始轨迹和组件改动能够相互追溯。没有这层结构，自动优化很容易变成基于印象的试错。

技术要点三：每次修改都必须提出可证伪预测

AHE 要求每项改动写入 Change Manifest，至少包含：

失败证据和推断根因；
修改的目标组件；
预计修复的任务集合；
可能回归的任务集合；
下一轮的实际验证结果。

下一轮完成后，系统将预测与任务级变化对照，对无效改动进行文件级回滚。这样，“这项修改应该有效”不再是自然语言理由，而是可以被下一轮数据否定的合同。

论文统计显示，修复预测的精确率为 33.7%、召回率为 51.4%，约为随机预测的 5 倍，说明改动并非完全盲试。但系统预测回归的能力明显较弱：精确率 11.8%、召回率 11.1%，多数副作用仍无法提前识别。

实验结果：真正有效的层不在 Prompt

AHE 在 Terminal-Bench 2 的 89 个任务上演进 10 轮，整体 pass@1 从 69.7% 提升到 77.0%。人工设计的 Codex Harness 为 71.9%，另外两种自演进基线 ACE 和 TF-GRPO 分别为 68.9% 和 72.3%。

组件消融更有启发性：

只加入长期记忆：75.3%；
只加入演进后的工具：73.0%；
只加入中间件：71.9%；
只替换系统提示词：67.4%，低于初始 Harness；
全量 AHE：77.0%。

长期记忆记录了边界条件、结束检查和打包布局等可执行经验；工具会主动暴露邻近文件中的契约提示；中间件在结束前强制执行与验证器一致的检查。相比之下，孤立的 Prompt 纪律缺少工具和流程支撑，无法稳定落地。

演进后的 Harness 未重新训练，直接迁移到 SWE-bench Verified，整体成功率由 75.2% 小幅提升到 75.6%，Token 使用量从 526K 降至 461K。结果说明部分结构化经验可以跨任务迁移，但提升并不均匀，个别仓库存在退化。

研发视角：如何建立企业内部演进闭环

第一，将 Prompt、工具、权限策略、结束条件、记忆和技能分开版本化，不要把所有规则塞进一个超长系统提示词。

第二，为每个任务保存可重放轨迹，包括输入、工具调用、输出、资源消耗、最终产物和验证结果。缺少任务级结果，就无法判断改动是修复还是偶然波动。

第三，要求每个变更附带影响预测。评审时必须说明它针对哪些失败、可能破坏哪些场景，以及如何回滚。

第四，使用固定回归集与留出集。优化集用于演进，跨仓库、跨语言和极端长任务用于检查过拟合。

第五，权限必须单向收缩。演进 Agent 可以修改 Harness，但不能修改验证器、放宽沙箱、替换模型或增加预算。

风险与限制

AHE 仍是受控研究原型。演进只在 Terminal-Bench 2 上进行，迁移测试集中于 SWE-bench Verified；更多语言、真实仓库部署和人机协作流程尚未验证。实验的步数和超时预算针对特定模型设定，跨模型收益混合了 Harness 迁移与运行参数适配。

组件还会非线性交互。论文中长期记忆单独用于困难任务时优于全量 AHE，因为记忆、中间件和 Prompt 都推动重复的结束检查，叠加后反而消耗长任务预算。自动演进系统能够解释“为什么可能修好”，却仍不擅长预测“会破坏什么”。

因此，生产环境不应允许 Harness 无审批地持续自改。更合理的流程是自动提出变更、隔离运行、回归验证、人工审批后分阶段发布。

结语

AHE 的价值不是证明 Agent 可以无限自我进化，而是把 Harness 优化改造成可观察、可归因、可回滚的软件工程流程。对研发团队而言，最直接的启示是：下一次 Coding Agent 表现不佳时，先检查工具接口、执行保护、记忆和验证闭环，而不是默认继续改 Prompt 或升级模型。

参考来源

arXiv 论文摘要：https://arxiv.org/abs/2604.25850
arXiv HTML 全文：https://arxiv.org/html/2604.25850

查看全文

http://www.cnnetsun.cn/news/3058042.html

linux(2)

VSCode插件变黑客后门！GitHub 3800个仓库被攻破

NFC标签NDEF数据读写实战：从CC/TLV原理到TRF7970A开发全解析

如何用Ruoyi-Vue-Pro在10分钟内搭建企业级后台管理系统？

2026 主流电商 AI 作图工具全测评｜商品主图 / 详情页 / 场景图一站式解决方案

CSGClaw 与 CSGLite 如何配合：从本地模型到多智能体协作

独立开发者如何使用 CSGClaw 管理复杂开发任务

计算机毕业设计之基于深度学习的交通标识识别系统的研究与实现

【UniApp小程序知识点总结】API 请求到底该写在哪里？页面钩子 vs 组件内部

全球拖车式冷藏解决方案市场动态、发展趋势及项目可行性研究报告2026-2032

OpenEuler GCC与其他编译器对比：谁才是Linux平台的最佳选择？

自定义跨字段校验必填注解

AI 如何重塑 FMEA：从七步法向导到知识图谱，一个开源 QMS 的完整实践

从“任意文件复制“深挖Java I/O：字符流与字节流的本质抉择

中台建了、仓库搭了、报表做了，为什么业务还是要Excel？——从DAMA知识体系看数据中台治理落地的工程方法论

奔驰STAR3 E/架构高速视频链接（HSVL）

专科大数据专业怎么专升本？升学路径+志愿规划+能力提升全攻略

XR 沉浸式娱乐在文旅行业的发展前景

FastAPI 项目架构设计：按技术分层还是按业务模块？

SOLIDWORKS中方程式的高级应用技巧有哪些?

langchain-langGraph 细节（面试）-持续补充

springCloud集成seata2.x

PG 日报｜UUID 解析 SIMD 加速，AI 行业动态速览

MSPM0 I2C DMA传输配置详解：从FIFO触发到低功耗数据搬运

MinerU：开源多模态文档理解工具部署与实战指南

我从顺丰转行学AI产品经理·扒完招聘数据没敢盲目乐观

豆包付费引发全民争议，深度分析通用AI VS 科研AI

AI 辅助调试：喂对信息，让 AI 做排除法

开源Docker镜像安全审计实战：从漏洞扫描到权限最小化配置