当前位置: 首页 > news >正文

Harness 三层架构:Interface / Mechanisms / Scaling

上一章我们建立了 Harness 的概念框架——它是围绕 LLM 的运行时软件层。但一个实际的 Harness 系统包含哪些组件?这些组件如何组织?它们之间的关系是什么?

“Code as Agent Harness” 论文提供了一个三层分类法来回答这些问题:

Layer 1: Harness Interface — 代码如何进入 Agent 循环 Layer 2: Harness Mechanisms — 什么机制维持 Agent 的长周期运行 Layer 3: Scaling the Harness — 多 Agent 如何共享和协同

本章将深入解析每一层的核心组件、设计原则和工程实现,并建立三层架构与四阶演进模型之间的映射关系。


核心概念

三层架构总览

在深入每一层之前,先用一个类比来理解三层的递进关系:

层次类比核心问题
Interface驾驶员和汽车之间的方向盘、油门、刹车Agent 如何与环境交互?
Mechanisms发动机、变速箱、悬挂系统什么机制让 Agent 持续运行?
Scaling交通系统、道路网络、交通规则多个 Agent 如何协同工作?

Interface 是单 Agent 的基础——它定义了 Agent 如何感知世界、采取行动、表征环境状态。Mechanisms 是 Agent 的运行时引擎——它管理规划、记忆、工具使用、控制和优化。Scaling 是 Agent 群体的协调层——它通过共享工件实现多 Agent 协同。

三层不是严格分层的——实际系统中有大量交叉。例如,测试既是 Interface 层的环境表征(测试文件描述预期行为),也是 Mechanisms 层的控制机制(测试结果驱动修复循环),还是 Scaling 层的共享工件(多个 Agent 共享同一套测试标准)。


原理剖析

Layer 1: Harness Interface(接口层)

接口层回答一个基本问题:代码在 Agent 系统中扮演什么角色?

论文将代码在接口层的角色分为三类:

1.1 Code for Reasoning(代码用于推理)

传统的 LLM 推理是纯文本的——模型用自然语言"思考",然后输出结果。问题在于:

  • 文本推理不可执行——你无法"运行"一段推理过程
  • 文本推理不可验证——你无法检查中间步骤的正确性
  • 文本推理不持久——每一轮对话,之前的推理过程就丢失了

Code for Reasoning 将推理过程从文本转化为代码:

# 文本推理(不可验证)# "让我计算一下这个函数的时间复杂度... 看起来是 O(n²)"# 代码推理(可执行、可验证)defanalyze_complexity(code_ast):loops=find_nested_loops(code_ast)returncalculate_big_o(loops)# 返回 O(n²),可以被验证

这种做法的好处是:

  • 可执行:外部运行时可以运行代码,获取计算结果
  • 可验证:可以检查中间变量、执行追踪、控制流
  • 可持久化:代码和计算状态可以在多步之间保持

Claude Code 的 Artifacts 功能和

http://www.cnnetsun.cn/news/2958006.html

相关文章:

  • EdXposed深度解析:解锁Android系统定制新维度的完整实战指南
  • 寻蹊GEO深度解析:AI营销新范式的技术底座与商业逻辑
  • B2B 获客外包值得吗?与内部团队相比,哪些情况更有效?
  • 通用视觉工具模块-直接阈值分割模块-2-UI设计
  • [智能体-440]:Coze:数据库表和RAG向量数据库在工作流中各自的作用异同对比
  • 3步掌握本地Cookie导出:Get cookies.txt LOCALLY完全指南
  • MCE SIG发布4款MD模拟流程核心算子,补齐分子动力学模拟主循环
  • 新开账号|唐山日常慢慢记录
  • Java中用DJL实现像素级语义分割的工程实践
  • Claude Code变懒真相:adaptive thinking机制与工程级复位方案
  • 小米AI模型实践:从MiLM大模型到端侧部署技术解析
  • 别白费功夫!你的投标业绩,大概率都是无效材料
  • 鹈鹕骑车图:大模型多模态能力的具象化评估框架
  • 生产级多维聚合:滚动窗口、自定义函数与unstack健壮性实战
  • 机器学习实验追踪:构建可复现、可审计的ML工程化基础
  • AI 视频智能体源码交付:一套能直接跑通“爆款→批量成片“的工程级方案
  • GPT-4o原生多模态架构解析:232ms低延迟跨模态交互实现原理
  • 【计算机毕业设计案例】基于 Python+Django 的学生请假事务可视化管理系统的设计与实现 基于 Python+Django 的大学生请假审批数据可视化系统(程序+文档+讲解+定制)
  • 终极指南:如何用openpilot将普通汽车秒变智能座驾
  • 猫抓浏览器扩展:三分钟掌握网页媒体资源一键下载
  • SMUDebugTool终极指南:免费解锁Ryzen处理器性能潜力的完整教程
  • 正则化实战指南:从过拟合诊断到L1/L2/Elastic Net调参
  • 如何用Elsevier Tracker免费自动化监控学术投稿进度:终极指南
  • LangChain Pandas Agent实战:用确定性执行替代LLM幻觉分析
  • 如何高效使用B站抽奖自动化脚本:3步配置的完整指南
  • pandas多维聚合实战:解决银行风控与财务报表中的指标失真问题
  • SERUM水印技术:扩散模型版权保护的创新方案
  • 豆包AI实战指南:从搜索写作到编程的高效工作流
  • 瓶盖缺陷检测数据集| 3800张YOLO工业质检数据集 适用于工业流水线质检、自动化分拣与目标检测研究
  • DSP56800E嵌入式调试实战:CodeWarrior与EOnCE高级功能详解