Harness Engineering:2026年大模型开发新趋势,小白程序员必备收藏指南!
本文深入解析了Harness Engineering的概念及其在大模型开发中的应用,通过对比OpenAI、Anthropic和ThoughtWorks等团队的实际案例,总结了5种关键制品和5大共识原则,并揭示了随着模型能力提升,Harness需要不断简化的趋势。对于想要了解并实践大模型开发的程序员来说,本文提供了宝贵的思路和实用的指导。
2026 年 2 月,OpenAI 一个小团队交付了 100 万行生产代码。
没有一行是手写的,全部由 AI Agent 完成。
人类做的事情是设计一套系统,让 Agent 变得可靠。这套系统现在有了名字:Harness Engineering。
几周之内,Anthropic 发表了 3 篇相关论文,ThoughtWorks 形式化了一套框架,Hugging Face 称它为"2026 年最重要的工程学科"。
一个新的工程方向在 90 天内成型,但在 AI 基础设施团队之外,真正理解它的人并不多。
这篇文章尝试把它讲清楚。
Harness 是什么
1. 定义
最简洁的定义来自 ThoughtWorks:
Agent = Model + Harness
Harness 是除了模型之外的一切:约束 Agent 不跑偏的规则、捕捉错误的反馈回路、告诉 Agent 当前处境的文档、它被允许使用的工具。
去掉 Harness,模型只能在代码库里摸索前行。加上合适的 Harness,它就成了一个能交付生产代码的系统。
这个名字来自马具。缰绳、鞍和嚼子将一匹强壮但不可预测的动物引导到有用的方向上。核心思路不是让马变聪明,而是通过装备设计让它的力量变得可控。
2. 操作系统类比
给出了最好的技术类比:
- 模型 = CPU
(原始算力)
- 上下文窗口 = 内存
(有限的、易失的工作内存)
- Harness = 操作系统
(管理 CPU 看到什么、什么时候看到)
- Agent = 运行在上面的应用
模型很强大,但如果没有操作系统来管理内存、调度任务、执行规则,它就只是一块硅片。
大多数人在用 Agent 的时候,实际上缺少这样一个操作系统层。这也是很多 Agent 在生产环境中不稳定的根本原因。
3. 2026 年发生了什么变化
LangChain 在 Terminal Bench 2.0 上用同一个模型跑了两次,唯一的区别是 Harness。
- 旧 Harness:52.8 分
- 新 Harness:66.5 分
Vercel 走了相反的方向,他们砍掉了 Agent 80% 的工具,结果性能反而更好了。
2026 年一个值得正视的事实:Agent 从来不是难点,Harness 才是。
如果说 2025 年是 AI Agent 证明自己能写代码的一年,那 2026 年就是我们认识到环境比模型更重要的一年。
Harness 的 5 种制品
4. AGENT.md / CLAUDE.md 文件
最通用的 Harness 制品。分布在代码库各处的 Markdown 文件,Agent 在每次会话开始时读取它们,就像新工程师入职时的引导文档。
内容包括:项目上下文、编码规范、架构决策、"我们这里怎么做事"的指南、当前进行中的工作。
OpenAI 叫它 AGENT.md,Anthropic 叫它 CLAUDE.md,Cursor 用.cursorrules。名字不同,原理一样:每个主要模块一个文件,随项目演进更新。
没有它,Agent 每次会话都从零开始;有了它,Agent 每次会话都带着背景信息启动。
5. JSON 特性列表(进度追踪器)
当 Agent 跨多个会话构建一个完整应用时,每次会话的上下文窗口都是空白的。它怎么知道哪些已经做完了?
靠一个 JSON 文件。每条记录定义:一个特性、验证方法、通过/失败状态。
Agent 在会话开始时读取这个文件,选择优先级最高的失败项,实现它,标记为通过,提交,重复。
为什么用 JSON 而不是 Markdown?Anthropic 发现 Agent 意外覆盖 JSON 的概率比 Markdown 低得多。看似小细节,但在 6 小时无人值守运行中,这类差异的累积影响相当可观。
6. 会话初始化例程
每次会话都用同样的方式启动。每一次都是。
Anthropic 的 7 步启动序列:
确认工作目录
读取 git 日志和进度文件
从特性列表中找到优先级最高的未完成项
启动开发服务器
运行基础端到端验证
实现一个特性
提交(附带描述性消息)并更新进度
没有它,Agent 需要花前 20 分钟搞清楚当前状态,每次会话都在做重复劳动。有了它,Agent 可以立刻进入状态,直接开始工作。
7. Sprint 契约
在 Agent 写任何代码之前,先由两个 Agent 协商。
Generator Agent 提出:要构建什么、如何验证成功。Evaluator Agent 审查:方案是否完整、成功标准是否明确。双方达成一致后才开始实现。
这本质上就是一个设计评审,只不过参与者换成了 AI。
为什么这很重要?如果让 Agent 在同一个 pass 里既做规划又做执行,产出质量往往不稳定。即使规划步骤由 AI 完成,独立的规划环节也能显著提升输出质量。
8. 结构化任务模板
在写代码之前,Harness 先分析真实的代码库,产出一份基于实际情况的影响图:真实的文件路径(不是臆造的)、真实存在的符号名、可以遵循的现有模式、具体的验收标准。然后才开始实现。
这听起来理所当然,但大多数团队跳过了这一步。结果 Agent 只能猜测文件结构,编造不存在的 API 端点,产出的代码与现有代码库风格脱节。
先给 Agent 提供基于真实代码库的上下文,产出质量会好得多。
三大阵营
三个团队撞上了同一堵墙,然后各自造了不同的梯子。
9. OpenAI:环境优先
OpenAI 的 Codex 团队面对一个现实问题:100 万行生产代码,没有一行手写,在这个规模下逐行 Code Review 已经不可行。
所以他们换了思路:把环境设计得足够严密,让 Agent 产出的代码从一开始就具备可审查性。
具体做法包括:严格的依赖流(Types → Config → Repo → Service → Runtime → UI)、代码库各处的 AGENT.md 文件,以及 Agent 直接接入 CI/CD 流水线。
核心理念:设计好环境,然后放手让 Agent 去做。
实际成果:Sora Android 应用由 4 名工程师在 28 天内完成,Play Store 排名第一,崩溃率低于 0.1%。Codex 每周处理 70% 的内部 Pull Request。
10. Anthropic:把执行者和评审者分开
Anthropic 遇到了另一个问题:让 Agent 评估自己的产出时,它倾向于给自己打高分,即使人类一看就知道质量有待提升。
自我评估行不通。Agent 同时充当学生和老师,缺乏对自身产出的客观判断。
他们的解法:三个专业化的 Agent。
- Planner:把两句话的提示词展开成完整的产品规格
- Generator:每个 sprint 实现一个特性
- Evaluator:用浏览器自动化测试运行中的应用,像真实用户一样
核心洞察:让一个独立的评估者变得严格,远比让生成者对自己的工作保持批判要容易得多。
效果对比:没有 Harness 的单 Agent 方案花费 、耗时分钟,产出的应用核心功能存在缺陷。完整方案花费200、耗时 6 小时,产出的是功能完备的软件,UI 也相当精致。
11. ThoughtWorks:2×2 框架
ThoughtWorks 的出发点不同。他们不是在做产品,而是在观察 50 多个工程团队反复遇到相同的问题。
他们的洞察是将所有 Harness 控制沿两个维度分类:
维度一:什么时候运行?
- 前馈(Feedforward)= Agent 行动之前(引导)
- 反馈(Feedback)= Agent 行动之后(感知)
维度二:怎么运行?
- 计算型 = 确定性的,毫秒级(lint、类型检查、测试套件)
- 推理型 = 用 LLM,秒级(代码审查 Agent、语义分析)
形成的 2×2 矩阵:
| 前馈(行动前) | 反馈(行动后) | |
|---|---|---|
| 计算型 | 类型系统、linter、架构规则 | 测试套件、覆盖率分析、变异测试 |
| 推理型 | 规格文档、约束描述 | LLM 代码审查器、行为验证器 |
只有前馈或只有反馈都不够,两者都需要。
5 条共识原则
三个团队从未协调过,但独立得出了相同的结论。
12. 原则一:上下文胜过指令
让 Agent 看到世界的当前状态,效果始终优于抽象地告诉它该做什么。
OpenAI:「给一张地图,别给一本千页手册。」Anthropic:用 JSON 特性列表和进度文件让 Agent 始终知道自己在哪。Red Hat:在生成任何任务之前先分析真实代码库。ThoughtWorks:「前馈。」
基于真实文件路径工作,产出的代码自然能融入代码库。基于模糊描述工作,结果往往是臆造的文件路径和编造的 API。
经验很明确:在 Agent 写下任何代码之前,先确保它知道自己在哪。
13. 原则二:规划和执行必须分开
让 Agent 在同一个 pass 里既规划又执行,产出不可靠。
OpenAI 的做法是人设计环境,Agent 负责执行。Anthropic 让专门的 Planner Agent 在 Generator 接触代码之前运行。ThoughtWorks 在规划和实现之间设置了强制的人工审查检查点。Red Hat 在影响图阶段和实现阶段之间设置了硬性门禁。
规划步骤不一定要人来完成,但它必须是一个独立的环节,产出物在实现开始前需要经过审查。
14. 原则三:反馈回路不可商量
没有反馈的 Harness 只是一个带了额外步骤的 prompt。
OpenAI 让 Agent 接入 CI/CD 和可观测性系统。Anthropic 使用专门的 Evaluator Agent 通过浏览器自动化进行测试。ThoughtWorks 将其形式化为"传感器",并指出纯前馈方案永远无法确认引导是否真正生效。
三种方案,同一条原则。各方对谁来提供反馈有不同看法,但对是否需要反馈没有分歧。
15. 原则四:一次只做一件事
试图一次做太多的 Agent 会耗尽上下文,失去连贯性,无声地丢弃需求。
OpenAI 的做法是把目标拆成更小的构建块,深度优先推进。Anthropic 强制每个 sprint 只实现一个特性,完成后立即提交。ThoughtWorks 采用分阶段生命周期(预集成 → 后集成 → 持续监控)。
Anthropic 的标准流程很简洁:读取进度 → 选一个特性 → 实现 → 提交 → 重复。
强制渐进式推进,是每个成功 Harness 的共性。
16. 原则五:代码库本身就是文档
如果一条规范、约束或架构决策没有写在代码库里,Agent 就不会知道。
OpenAI 在仓库里嵌入 AGENT.md 文件。Anthropic 用特性列表、进度文件和 git 历史作为 Agent 的连续性机制。ThoughtWorks 衡量"可 harness 化程度",即代码库对 Agent 的可读性。
没有人为 Agent 单独维护一个知识库,仓库本身就是唯一的事实来源。
实际意义很清楚:在代码组织上投入的团队,Agent 性能会随之提升。反过来,结构混乱的仓库加上 AI Agent,只会把混乱放大。
悖论:为了删除而构建
17. Harness 衰减是真实的
Anthropic 从 Opus 4.5 升级到 Opus 4.6 时,Sprint 分解这个原本不可或缺的环节变得多余了。模型规划能力的提升使它不再必要。
一个 3 月份还在承担关键功能的 Harness 组件,到 4 月份就变成了额外开销。
随后 Opus 4.7 发布,模型开始自行验证产出,Evaluator Agent 的职责进一步缩小。
这就是 Harness 衰减。Harness 中的每个组件都编码了一个关于"模型做不到什么"的假设。随着模型能力提升,这些假设逐渐过期,对应的组件也就变成了负担。
- Opus 4.5:Sprint 分解 + 逐 Sprint 评估
- Opus 4.6:去掉 Sprint 分解 + 单次评估(节省 38% 成本)
- Opus 4.7:模型开始自验证 → Evaluator 角色进一步缩小
18. 为了删除而构建
相关建议:Build to delete。
设计每个 Harness 组件时就考虑它是可移除的。定期关掉某个组件,看输出质量是否有变化。如果没变化就删掉它。
Manus 在 6 个月里重构了 5 次 Harness。LangChain 一年调整了 3 次。Vercel 砍掉 80% 的工具后性能反而更好。
这些频繁的重构不是工程能力不足的表现,而是在快速进步的模型之上构建系统的必然结果。
保留无用的 Harness 组件,每次运行都会消耗额外的 token,却没有任何质量收益。
19. 成本现实
Anthropic A/B 测试的真实数据:
- 无 Harness 的 Agent:$9、20 分钟,UI 可用但核心功能存在缺陷
- 完整 Harness(Opus 4.5):$200、6 小时,功能完备的软件,精致的 UI,正确的业务逻辑
22 倍的成本差距,换来的是一个真正可交付的产品,而不是只在截图里好看的 demo。
是否值得,取决于一次失败发布对团队的实际代价。
另一个容易被忽视的事实是:Harness 与模型的组合在持续进化。的在一次模型升级后降到了124。
趋势线:更好的模型 = 更简单的 Harness = 更便宜的运行 = 更快的产出。
总结
概念:Agent = Model + Harness。模型是 CPU,Harness 是操作系统。同一个模型换个更好的 Harness 就能提升 13% 的性能。
5 种制品:AGENT.md/CLAUDE.md 引导文件、JSON 特性列表、会话初始化例程、Sprint 契约、结构化任务模板。
三大阵营:OpenAI 的环境优先、Anthropic 的执行评审分离、ThoughtWorks 的 2×2 前馈/反馈框架。
5 条共识原则:上下文胜过指令、规划与执行必须分开、反馈回路不可商量、一次只做一件事、代码库本身就是文档。
核心悖论:Harness 衰减是真实的,要为了删除而构建,更好的模型意味着更简单的 Harness。
2026 年走在前面的工程师,不是写最好代码的人,而是设计最好约束的人,并且愿意在约束失效的时候果断移除它们。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
