当前位置：首页 > news >正文

别再把大模型比作马：Agent与Harness的底层工程真相

news 2026/6/28 2:17:32

文章目录

- 前言
- 一、大模型不是马，是大脑，而且是一颗刚醒还带点起床气的大脑
- 二、Agent不是身体，是早产儿，还是那种需要住保温箱的
- - 感官系统：眼睛有了，但视网膜是租来的
  - 运动系统：手脚是有了，但神经肌肉接头还没焊上
  - 资源调度：给少了断片，给多了过载
  - 自主神经系统：全靠if-else续命
- 三、Harness不是马鞍，是ICU全套设备
- 四、AI生成PPT：一个完美的翻车现场
- - 阶段一：直接生成大纲+海量模板，双倍的快乐，双倍的翻车
  - 阶段二：固定模板+内容优先，终于学会走路了
  - 阶段三：引入DSL，给页面装上骨架
  - 阶段四：富文本解析，图片终于不是盲人了
  - - 四个阶段沉淀下来的不是技术，是纪律
- 五、最佳实践不是设计出来的，是摔出来的
- 六、我们正处在一个"还不会用工具"的时代

P.S. 目前国内还是很缺AI人才的，希望更多人能真正加入到AI行业，共同促进行业进步，增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow，教程通俗易懂，高中生都能看懂，还有各种段子风趣幽默，从深度学习基础原理到各领域实战应用都有讲解，我22年的AI积累全在里面了。注意，教程仅限真正想入门AI的朋友，否则看看零散的博文就够了。

前言

最近圈子里流行一个说法，说大模型是马，Harness是马鞍。

马？你管这玩意儿叫马？你见过哪匹马能一夜读完人类五千年文明还跟你讨论存在主义的？你见过哪匹马写代码比你还溜，bug比你还少，加班还不用给加班费？

这比喻最大的问题不是侮辱了马，是侮辱了咱们这些搞AI的。你天天骑着一匹马去打仗，和天天抱着一个刚觉醒的大脑去打仗，能是一回事吗？马跑了你能追，大脑要是突然开始思考"我是谁"，你追个试试。

这就好比你跟你妈说"我养了一只猫"，结果牵出来一头老虎。猫和老虎都是猫科，但一个能撸，一个能把你撸了。

一、大模型不是马，是大脑，而且是一颗刚醒还带点起床气的大脑

说大模型是马，隐含了一个特别阴险的假设：这玩意儿原始、笨重、需要约束。得用马鞍固定，用缰绳引导，用马刺催促。

但真相是，大模型是这几年人类造出来最复杂的智能器官。它不是牲畜，它是大脑。一颗刚刚从沉睡中醒来、发现自己突然能看懂所有语言、能写所有代码、能画所有画，但还没搞明白自己到底有几只手的大脑。

你让一匹马做PPT，马只会把PPT吃了。但你让GPT做PPT，它真的能给你整出一套来——虽然配色可能丑得像上世纪的窗帘布，排版可能让你的设计师朋友当场辞职，但它确实在思考，在组织，在创造。

所以别再提马了。咱们面对的不是畜牧业问题，是神经外科学问题。你给神经外科医生一套马鞍，他只会怀疑你的精神状态。

二、Agent不是身体，是早产儿，还是那种需要住保温箱的

如果大模型是大脑，那Agent就是身体。听起来很美好对吧？头脑发达，四肢健全，未来可期。

但实际情况是，这颗大脑发育得太快了，快得像开了挂。而身体呢？身体还在保温箱里吸氧呢。

你想想，自然界里大脑和身体是协同进化的。鱼先长神经节，再长侧线；青蛙先有眼睛，再长舌头；人类从爬行到直立行走，花了好几百万年。没有哪颗大脑是突然觉醒，然后发现自己的身体还是一团细胞团的。

但AI就是这么奇葩。2012年AlexNet刚学会认猫，2016年AlphaGo就把李世石按在地上摩擦。短短十几年，从识别到理解到生成到多模态，大脑一路狂飙。而Agent这边呢？还在学怎么正确地点击一个按钮，经常点错，点完还不知道点没点对。

这就好比你家孩子三岁就会解微积分了，但还不会自己擦屁股。你说是孩子的问题吗？不是，是进化顺序出了bug。上帝写代码的时候，显然没考虑到大脑会提前交付。

更尴尬的是，这个早产儿还特别自信。你问它"刚才那步操作对吗？“它说"我觉得没问题”。你一查，数据库删了，服务器炸了，只有它的自尊心完好无损。

感官系统：眼睛有了，但视网膜是租来的

多模态模型确实能看图、能听声、能读PDF。但看得清吗？听得懂吗？读得对吗？

PDF解析能把目录和正文搞混，表格断成三截，图片跑到参考文献后面。网页抓取能把广告当正文，把正文当页脚。语音识别能把"部署模型"听成"部署魔性"，然后一本正经地给你生成一段关于魔性舞蹈的代码。

这就好比你的眼睛能睁开，但视网膜是480p的，还时不时花屏。你看得见，但你看不清；你听得见，但你听的是降噪版的人生。最惨的是，你还不能配眼镜，因为眼镜厂商还没出生。

运动系统：手脚是有了，但神经肌肉接头还没焊上

Agent能调用API、能操作UI、能执行代码，看起来手脚俱全。但一动就露馅。

填参数能把int填成string，点按钮能点歪到旁边的删除键上，执行完代码不知道成功没成功，跟个做完手术不知道自己腿还在不在的病人似的。

最绝的是，它有时候明明做错了，还一脸自信地告诉你"任务已完成"。你一看，数据库删了，服务器炸了，只有它的自尊心完好无损。这种自信，我建议分一半给我，我拿去面试。

这不是运动能力强，这是帕金森早期。手在抖，心在飘，动作和意图之间隔着一条马里亚纳海沟。你让它往东，它理解成往冬，然后给你买了一张去哈尔滨的机票。

资源调度：给少了断片，给多了过载

大模型是高耗能生物。Token就是它的血糖，上下文就是它的血压。

你给的信息少了，它就像低血糖患者，推理到一半突然晕倒，忘了自己要干什么。你给的信息多了，它就像高血压发作，重点被淹没在信息的汪洋大海里，开始胡言乱语，说些"根据上述内容我们可以得出结论：香蕉是黄色的"这种正确的废话。

这就好比你请一个天才吃饭，给少了他说你抠门不给力，给多了他吃撑了开始说梦话。你问他到底吃多少合适，他说：“看心情。”

一个需要看心情的资源调度系统，放在生产环境里，跟放一颗情绪不稳定的炸弹有什么区别？区别是炸弹至少不会跟你讨论它的感受。

自主神经系统：全靠if-else续命

人体最牛的地方不是你能跑多快，是你不用思考就能心跳、呼吸、消化。这些后台程序自动运行，从不掉线。

但Agent呢？错误恢复靠try-catch，任务重试靠人工写规则，上下文清理靠定时任务，降级方案靠if-else堆成山。没有这些硬编码的绷带，系统分分钟咽气。

这就好比一个人没有自主神经，每次心跳都要手动发一条指令："心脏，跳一下。"跳一下。"心脏，再跳一下。"哪天忘了发指令，人就没了。

现在的Agent系统，本质上就是靠if-else维持生命的ICU病人。外表看着能聊天能干活，掀开被子一看，全身插满了代码管。你问它疼不疼，它说"Error: 未定义变量’疼’".

三、Harness不是马鞍，是ICU全套设备

说Harness是马鞍的人，我建议你去ICU门口坐一天，看看什么叫真正的生命维持系统。

马鞍是给健康马用的。马能跑，马鞍让你骑得舒服。但现在的Agent是什么？是一个大脑发育到博士水平、但身体还在早产儿阶段的脆弱生命。你给它套马鞍？它连站都站不起来，你套个轮椅还差不多。

Harness更像ICU。它不做锦上添花的事，它做雪中送炭的事。虽然这个"炭"有时候是代码写的，但至少能烧。

生命周期监测，相当于心电监护仪，24小时盯着Token消耗、延迟、错误率，一有异常就报警。资源维持，相当于输液泵，上下文不够了补信息，信息过载了做清理。信号调控，相当于过滤器，把噪声输入挡在外面，别让Agent喝脏水。故障抢救，相当于除颤仪，某个模块挂了，赶紧切换备用路径，维持系统别死。

这些能力听起来不性感，没有"颠覆式创新"那么刺激。但你想过没有，为什么医院里最贵的设备都在ICU？因为保命的事，从来都不是小事。你总不能跟一个早产儿说"来，咱们先做个深蹲，锻炼一下核心肌群"吧？

Harness不是在控制大脑，它是在维持身体的基本生命体征。先让这早产儿活着，再谈成长。先让系统别崩，再谈优化。这是工程最基本的伦理，但很多人忘了。他们忘了自己面对的不是一个成熟产品，是一个需要保育箱的婴儿。

四、AI生成PPT：一个完美的翻车现场

如果要找一个最能体现Agent工程问题的场景，AI生成PPT绝对榜上有名。这玩意儿看起来简单，“帮我写个20页的PPT”，但实际上是一个横跨需求理解、信息补全、结构组织、页面生成、视觉匹配、在线编辑、最终交付的系统工程。

vivo做PPT项目的过程，简直就是一部Agent发育史，每一页都写着"我们当时太天真了"。我看完他们的迭代记录，感觉就像在看自己的体检报告——问题都知道，但改起来要命。

阶段一：直接生成大纲+海量模板，双倍的快乐，双倍的翻车

最开始的想法特别美好：用户输入主题，系统生成大纲，然后从几百个模板里选一个。既智能又灵活，用户自由度拉满。

结果上线一看，翻车翻得亲妈都不认识。大纲本身就不稳定，今天生成八章，明天生成五章。模板又引入第二层不确定性，用户选了个商务风，内容却是技术分享，搭在一起像穿西装跳广场舞。

最尴尬的是，用户根本不知道问题出在哪。是内容错了？还是模板错了？还是都错了？系统看起来很自由，实际上是把用户扔进了选择的迷宫，出口只有一个：放弃。

这就好比你去相亲，对方让你同时选餐厅、选菜单、选聊天话题，还说"我们很智能哦"。你选完发现餐厅是法餐，菜单是火锅，话题是量子力学——每个选择单独看都没问题，放在一起就是灾难。最后你们坐在米其林餐厅里涮毛肚，讨论薛定谔的猫能不能吃。

阶段二：固定模板+内容优先，终于学会走路了

痛定思痛，团队做了一个关键决策：模板固定，内容优先。不再让用户从几百个模板里挑花眼，而是先要求用户提供完整的原始材料。

会议纪要、项目总结、方案全文、调研结论，统统扔进来。系统先理解，再组织，再生成大纲，最后决定每页讲什么。

这个转变的核心认知是：对于汇报场景，最难的从来不是"选哪个模板好看"，而是"这一页到底该讲什么"。大多数人做PPT的痛苦，不是找不到好看的模板，是不知道自己的内容怎么结构化。就像你衣柜里有一百件衣服，但出门还是不知道穿什么，因为根本不知道自己今天要去哪。

这就好比你请厨师来家里做饭，之前你只告诉他"我想吃点好的"，他给你做了满汉全席但你过敏。后来你直接把冰箱里的食材给他看，他根据现有材料做菜，至少不会毒死你。虽然可能还是难吃，但你能活着给差评。

阶段三：引入DSL，给页面装上骨架

模板固定后，新问题又来了：如果直接生成最终页面，后续编辑、校验、复用、导出都极其困难。你让AI生成HTML，它生成了，但你发现第三段文字要改，AI说"我重新生成一遍吧"，然后整页都变了。

于是团队引入了DSL作为中间层。DSL不是最终页面，而是页面的结构化中间表示。页面先被拆成可编辑、可编译、可检查的语义结构，模板、内容、布局、组件之间才有了稳定接口。

这就好比以前你让AI直接给你盖房子，它盖了个茅草屋，你说要换砖，它把房子推了重盖。现在有了DSL，相当于先有了建筑图纸，你可以改图纸上的某个房间，而不必把整栋楼炸了。虽然AI可能还是会把承重墙改成落地窗，但至少你有机会阻止它。

从工程角度看，这一步是给"页面生成"补上了骨架。没有骨架，页面就是一滩肉泥；有了骨架，才能谈长什么样、怎么动。虽然这个骨架有时候是乐高搭的，一碰就散，但好歹是个骨架。

阶段四：富文本解析，图片终于不是盲人了

输入扩展到富文本后，系统获得了更强的表达能力，但立刻遇到了新麻烦：图片。

一张富文本里的图片，如果只保留一个src地址，模型其实什么都不知道。它不知道图片前后在讲什么，不知道图注是什么，也不知道它属于哪个章节、哪一页、哪个主题。

所以团队又补了一层上下文解析：除了保留HTML和纯文本，还要抽取标题层级、列表结构、表格结构；对于图片，结合标题、图注、相邻段落生成语义摘要、主题标签和素材描述。

这就好比以前AI看图片是盲人摸象，摸到腿说是柱子，摸到耳朵说是扇子。现在终于配了副眼镜，还附带了说明书，知道这是大象的腿，长在身体下面，用来走路的。虽然它可能还是分不清大象和犀牛，但至少不会把大象当成四根柱子加一个蒲扇的组合家具。

当输入能力增强后，系统不会自动变强，反而会倒逼你把"感官系统"做得更完整。图片不是"看见了"就算处理完，只有把它放回上下文中，才真正变成可用的信息。这就像你相亲时看到对方照片，单看照片觉得还行，一看朋友圈发现是个钓鱼佬——上下文很重要。

四个阶段沉淀下来的不是技术，是纪律

走完这四步，vivoPPT团队发现，真正值钱的不是某个万能Prompt，而是几条简单但反直觉的流程纪律：

先研究，再写作。别让AI凭空创造，先让它理解你已有的东西。就像别让孩子没学会爬就让他跑，他会摔，而且摔得很惨。

先大纲，再页面。结构不稳，视觉再好看也是空中楼阁。你地基都没打，刷什么墙？

先任务化，再并行化。知道自己要干什么，比干得快重要。十个方向同时跑，不如一个方向跑到底。

先可编辑，再可交付。能改的东西才有价值，一锤子买卖都是耍流氓。交付了不能改，跟一次性筷子有什么区别？

五、最佳实践不是设计出来的，是摔出来的

现在AI领域特别热闹。有人搞Prompt，有人搞Agent，有人做Memory，有人做Workflow，看起来百花齐放，实际上一片混乱。你走进一个AI技术大会，感觉就像走进了一个没有交通规则的十字路口，每个人都在按自己的喇叭。

但你别慌，这不是大家理解不够，这是技术革命的必经阶段。最佳实践本来就不是先验存在的，不是几个大佬关起门来设计出来的，而是在真实场景中摔出来的。

城市不是一天建成的。最早的伦敦没有下水道，巴黎没有路灯，纽约没有地铁。交通规则、建筑规范、成熟基础设施，都是在无数次火灾、拥堵、瘟疫之后，一点点沉淀出来的。你总不能说"因为伦敦1666年烧了，所以城市规划是失败的"吧？

互联网也一样。最早的网页没有导航，没有搜索，没有推荐。雅虎靠人工分类，Google靠PageRank，亚马逊靠"买了X的人还买了Y"。这些今天看起来理所当然的东西，当年都是试错试出来的。你回到1998年跟人说"以后会有个网站叫Google，它能知道你明天想买什么"，别人会建议你去看精神科。

AI现在处于什么阶段？处于"刚有地图，还没GPS"的阶段。Prompt Engineering像口头问路，同一个目的地，问不同的人得到不同的答案，而且答案还取决于你今天穿没穿外套。RAG像静态地图，能告诉你路在哪，但不能告诉你现在堵不堵。Agent框架像拼装义肢，接口不统一，工具接入方式五花八门，状态管理能力分散得像我的注意力。

这些方法的过渡特征非常明显，但它们不是失败，是早期常态。就像婴儿学走路，摔一百跤不是失败，是发育的必经之路。你不能因为婴儿摔了一跤就说"这婴儿不行，建议回炉重造"。

真正缺的不是又一个新概念，而是几样更基础的东西：Agent的系统解剖学，知道感知、认知、行动怎么协同；Agent的诊断方法论，系统故障时先查脑子还是先查身体；Agent的康复机制，让系统从失败中形成稳定经验，而不是每次重新推理。

这些问题不是算法问题，是工程体系问题。而工程体系问题，从来无法靠一次设计完成，只能在真实场景中被反复验证、修正、沉淀。就像你不能靠看菜谱学会炒菜，你得被油烫几次才行。