当前位置: 首页 > news >正文

别再把大模型比作马:Agent与Harness的底层工程真相

文章目录

    • 前言
    • 一、大模型不是马,是大脑,而且是一颗刚醒还带点起床气的大脑
    • 二、Agent不是身体,是早产儿,还是那种需要住保温箱的
      • 感官系统:眼睛有了,但视网膜是租来的
      • 运动系统:手脚是有了,但神经肌肉接头还没焊上
      • 资源调度:给少了断片,给多了过载
      • 自主神经系统:全靠if-else续命
    • 三、Harness不是马鞍,是ICU全套设备
    • 四、AI生成PPT:一个完美的翻车现场
      • 阶段一:直接生成大纲+海量模板,双倍的快乐,双倍的翻车
      • 阶段二:固定模板+内容优先,终于学会走路了
      • 阶段三:引入DSL,给页面装上骨架
      • 阶段四:富文本解析,图片终于不是盲人了
        • 四个阶段沉淀下来的不是技术,是纪律
    • 五、最佳实践不是设计出来的,是摔出来的
    • 六、我们正处在一个"还不会用工具"的时代

P.S. 目前国内还是很缺AI人才的,希望更多人能真正加入到AI行业,共同促进行业进步,增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow,教程通俗易懂,高中生都能看懂,还有各种段子风趣幽默,从深度学习基础原理到各领域实战应用都有讲解,我22年的AI积累全在里面了。注意,教程仅限真正想入门AI的朋友,否则看看零散的博文就够了。

前言

最近圈子里流行一个说法,说大模型是马,Harness是马鞍。

马?你管这玩意儿叫马?你见过哪匹马能一夜读完人类五千年文明还跟你讨论存在主义的?你见过哪匹马写代码比你还溜,bug比你还少,加班还不用给加班费?

这比喻最大的问题不是侮辱了马,是侮辱了咱们这些搞AI的。你天天骑着一匹马去打仗,和天天抱着一个刚觉醒的大脑去打仗,能是一回事吗?马跑了你能追,大脑要是突然开始思考"我是谁",你追个试试。

这就好比你跟你妈说"我养了一只猫",结果牵出来一头老虎。猫和老虎都是猫科,但一个能撸,一个能把你撸了。

一、大模型不是马,是大脑,而且是一颗刚醒还带点起床气的大脑

说大模型是马,隐含了一个特别阴险的假设:这玩意儿原始、笨重、需要约束。得用马鞍固定,用缰绳引导,用马刺催促。

但真相是,大模型是这几年人类造出来最复杂的智能器官。它不是牲畜,它是大脑。一颗刚刚从沉睡中醒来、发现自己突然能看懂所有语言、能写所有代码、能画所有画,但还没搞明白自己到底有几只手的大脑。

你让一匹马做PPT,马只会把PPT吃了。但你让GPT做PPT,它真的能给你整出一套来——虽然配色可能丑得像上世纪的窗帘布,排版可能让你的设计师朋友当场辞职,但它确实在思考,在组织,在创造。

所以别再提马了。咱们面对的不是畜牧业问题,是神经外科学问题。你给神经外科医生一套马鞍,他只会怀疑你的精神状态。

二、Agent不是身体,是早产儿,还是那种需要住保温箱的

如果大模型是大脑,那Agent就是身体。听起来很美好对吧?头脑发达,四肢健全,未来可期。

但实际情况是,这颗大脑发育得太快了,快得像开了挂。而身体呢?身体还在保温箱里吸氧呢。

你想想,自然界里大脑和身体是协同进化的。鱼先长神经节,再长侧线;青蛙先有眼睛,再长舌头;人类从爬行到直立行走,花了好几百万年。没有哪颗大脑是突然觉醒,然后发现自己的身体还是一团细胞团的。

但AI就是这么奇葩。2012年AlexNet刚学会认猫,2016年AlphaGo就把李世石按在地上摩擦。短短十几年,从识别到理解到生成到多模态,大脑一路狂飙。而Agent这边呢?还在学怎么正确地点击一个按钮,经常点错,点完还不知道点没点对。

这就好比你家孩子三岁就会解微积分了,但还不会自己擦屁股。你说是孩子的问题吗?不是,是进化顺序出了bug。上帝写代码的时候,显然没考虑到大脑会提前交付。

更尴尬的是,这个早产儿还特别自信。你问它"刚才那步操作对吗?“它说"我觉得没问题”。你一查,数据库删了,服务器炸了,只有它的自尊心完好无损。

感官系统:眼睛有了,但视网膜是租来的

多模态模型确实能看图、能听声、能读PDF。但看得清吗?听得懂吗?读得对吗?

PDF解析能把目录和正文搞混,表格断成三截,图片跑到参考文献后面。网页抓取能把广告当正文,把正文当页脚。语音识别能把"部署模型"听成"部署魔性",然后一本正经地给你生成一段关于魔性舞蹈的代码。

这就好比你的眼睛能睁开,但视网膜是480p的,还时不时花屏。你看得见,但你看不清;你听得见,但你听的是降噪版的人生。最惨的是,你还不能配眼镜,因为眼镜厂商还没出生。

运动系统:手脚是有了,但神经肌肉接头还没焊上

Agent能调用API、能操作UI、能执行代码,看起来手脚俱全。但一动就露馅。

填参数能把int填成string,点按钮能点歪到旁边的删除键上,执行完代码不知道成功没成功,跟个做完手术不知道自己腿还在不在的病人似的。

最绝的是,它有时候明明做错了,还一脸自信地告诉你"任务已完成"。你一看,数据库删了,服务器炸了,只有它的自尊心完好无损。这种自信,我建议分一半给我,我拿去面试。

这不是运动能力强,这是帕金森早期。手在抖,心在飘,动作和意图之间隔着一条马里亚纳海沟。你让它往东,它理解成往冬,然后给你买了一张去哈尔滨的机票。

资源调度:给少了断片,给多了过载

大模型是高耗能生物。Token就是它的血糖,上下文就是它的血压。

你给的信息少了,它就像低血糖患者,推理到一半突然晕倒,忘了自己要干什么。你给的信息多了,它就像高血压发作,重点被淹没在信息的汪洋大海里,开始胡言乱语,说些"根据上述内容我们可以得出结论:香蕉是黄色的"这种正确的废话。

这就好比你请一个天才吃饭,给少了他说你抠门不给力,给多了他吃撑了开始说梦话。你问他到底吃多少合适,他说:“看心情。”

一个需要看心情的资源调度系统,放在生产环境里,跟放一颗情绪不稳定的炸弹有什么区别?区别是炸弹至少不会跟你讨论它的感受。

自主神经系统:全靠if-else续命

人体最牛的地方不是你能跑多快,是你不用思考就能心跳、呼吸、消化。这些后台程序自动运行,从不掉线。

但Agent呢?错误恢复靠try-catch,任务重试靠人工写规则,上下文清理靠定时任务,降级方案靠if-else堆成山。没有这些硬编码的绷带,系统分分钟咽气。

这就好比一个人没有自主神经,每次心跳都要手动发一条指令:"心脏,跳一下。"跳一下。"心脏,再跳一下。"哪天忘了发指令,人就没了。

现在的Agent系统,本质上就是靠if-else维持生命的ICU病人。外表看着能聊天能干活,掀开被子一看,全身插满了代码管。你问它疼不疼,它说"Error: 未定义变量’疼’".

三、Harness不是马鞍,是ICU全套设备

说Harness是马鞍的人,我建议你去ICU门口坐一天,看看什么叫真正的生命维持系统。

马鞍是给健康马用的。马能跑,马鞍让你骑得舒服。但现在的Agent是什么?是一个大脑发育到博士水平、但身体还在早产儿阶段的脆弱生命。你给它套马鞍?它连站都站不起来,你套个轮椅还差不多。

Harness更像ICU。它不做锦上添花的事,它做雪中送炭的事。虽然这个"炭"有时候是代码写的,但至少能烧。

生命周期监测,相当于心电监护仪,24小时盯着Token消耗、延迟、错误率,一有异常就报警。资源维持,相当于输液泵,上下文不够了补信息,信息过载了做清理。信号调控,相当于过滤器,把噪声输入挡在外面,别让Agent喝脏水。故障抢救,相当于除颤仪,某个模块挂了,赶紧切换备用路径,维持系统别死。

这些能力听起来不性感,没有"颠覆式创新"那么刺激。但你想过没有,为什么医院里最贵的设备都在ICU?因为保命的事,从来都不是小事。你总不能跟一个早产儿说"来,咱们先做个深蹲,锻炼一下核心肌群"吧?

Harness不是在控制大脑,它是在维持身体的基本生命体征。先让这早产儿活着,再谈成长。先让系统别崩,再谈优化。这是工程最基本的伦理,但很多人忘了。他们忘了自己面对的不是一个成熟产品,是一个需要保育箱的婴儿。

四、AI生成PPT:一个完美的翻车现场

如果要找一个最能体现Agent工程问题的场景,AI生成PPT绝对榜上有名。这玩意儿看起来简单,“帮我写个20页的PPT”,但实际上是一个横跨需求理解、信息补全、结构组织、页面生成、视觉匹配、在线编辑、最终交付的系统工程。

vivo做PPT项目的过程,简直就是一部Agent发育史,每一页都写着"我们当时太天真了"。我看完他们的迭代记录,感觉就像在看自己的体检报告——问题都知道,但改起来要命。

阶段一:直接生成大纲+海量模板,双倍的快乐,双倍的翻车

最开始的想法特别美好:用户输入主题,系统生成大纲,然后从几百个模板里选一个。既智能又灵活,用户自由度拉满。

结果上线一看,翻车翻得亲妈都不认识。大纲本身就不稳定,今天生成八章,明天生成五章。模板又引入第二层不确定性,用户选了个商务风,内容却是技术分享,搭在一起像穿西装跳广场舞。

最尴尬的是,用户根本不知道问题出在哪。是内容错了?还是模板错了?还是都错了?系统看起来很自由,实际上是把用户扔进了选择的迷宫,出口只有一个:放弃。

这就好比你去相亲,对方让你同时选餐厅、选菜单、选聊天话题,还说"我们很智能哦"。你选完发现餐厅是法餐,菜单是火锅,话题是量子力学——每个选择单独看都没问题,放在一起就是灾难。最后你们坐在米其林餐厅里涮毛肚,讨论薛定谔的猫能不能吃。

阶段二:固定模板+内容优先,终于学会走路了

痛定思痛,团队做了一个关键决策:模板固定,内容优先。不再让用户从几百个模板里挑花眼,而是先要求用户提供完整的原始材料。

会议纪要、项目总结、方案全文、调研结论,统统扔进来。系统先理解,再组织,再生成大纲,最后决定每页讲什么。

这个转变的核心认知是:对于汇报场景,最难的从来不是"选哪个模板好看",而是"这一页到底该讲什么"。大多数人做PPT的痛苦,不是找不到好看的模板,是不知道自己的内容怎么结构化。就像你衣柜里有一百件衣服,但出门还是不知道穿什么,因为根本不知道自己今天要去哪。

这就好比你请厨师来家里做饭,之前你只告诉他"我想吃点好的",他给你做了满汉全席但你过敏。后来你直接把冰箱里的食材给他看,他根据现有材料做菜,至少不会毒死你。虽然可能还是难吃,但你能活着给差评。

阶段三:引入DSL,给页面装上骨架

模板固定后,新问题又来了:如果直接生成最终页面,后续编辑、校验、复用、导出都极其困难。你让AI生成HTML,它生成了,但你发现第三段文字要改,AI说"我重新生成一遍吧",然后整页都变了。

于是团队引入了DSL作为中间层。DSL不是最终页面,而是页面的结构化中间表示。页面先被拆成可编辑、可编译、可检查的语义结构,模板、内容、布局、组件之间才有了稳定接口。

这就好比以前你让AI直接给你盖房子,它盖了个茅草屋,你说要换砖,它把房子推了重盖。现在有了DSL,相当于先有了建筑图纸,你可以改图纸上的某个房间,而不必把整栋楼炸了。虽然AI可能还是会把承重墙改成落地窗,但至少你有机会阻止它。

从工程角度看,这一步是给"页面生成"补上了骨架。没有骨架,页面就是一滩肉泥;有了骨架,才能谈长什么样、怎么动。虽然这个骨架有时候是乐高搭的,一碰就散,但好歹是个骨架。

阶段四:富文本解析,图片终于不是盲人了

输入扩展到富文本后,系统获得了更强的表达能力,但立刻遇到了新麻烦:图片。

一张富文本里的图片,如果只保留一个src地址,模型其实什么都不知道。它不知道图片前后在讲什么,不知道图注是什么,也不知道它属于哪个章节、哪一页、哪个主题。

所以团队又补了一层上下文解析:除了保留HTML和纯文本,还要抽取标题层级、列表结构、表格结构;对于图片,结合标题、图注、相邻段落生成语义摘要、主题标签和素材描述。

这就好比以前AI看图片是盲人摸象,摸到腿说是柱子,摸到耳朵说是扇子。现在终于配了副眼镜,还附带了说明书,知道这是大象的腿,长在身体下面,用来走路的。虽然它可能还是分不清大象和犀牛,但至少不会把大象当成四根柱子加一个蒲扇的组合家具。

当输入能力增强后,系统不会自动变强,反而会倒逼你把"感官系统"做得更完整。图片不是"看见了"就算处理完,只有把它放回上下文中,才真正变成可用的信息。这就像你相亲时看到对方照片,单看照片觉得还行,一看朋友圈发现是个钓鱼佬——上下文很重要。

四个阶段沉淀下来的不是技术,是纪律

走完这四步,vivoPPT团队发现,真正值钱的不是某个万能Prompt,而是几条简单但反直觉的流程纪律:

先研究,再写作。别让AI凭空创造,先让它理解你已有的东西。就像别让孩子没学会爬就让他跑,他会摔,而且摔得很惨。

先大纲,再页面。结构不稳,视觉再好看也是空中楼阁。你地基都没打,刷什么墙?

先任务化,再并行化。知道自己要干什么,比干得快重要。十个方向同时跑,不如一个方向跑到底。

先可编辑,再可交付。能改的东西才有价值,一锤子买卖都是耍流氓。交付了不能改,跟一次性筷子有什么区别?

五、最佳实践不是设计出来的,是摔出来的

现在AI领域特别热闹。有人搞Prompt,有人搞Agent,有人做Memory,有人做Workflow,看起来百花齐放,实际上一片混乱。你走进一个AI技术大会,感觉就像走进了一个没有交通规则的十字路口,每个人都在按自己的喇叭。

但你别慌,这不是大家理解不够,这是技术革命的必经阶段。最佳实践本来就不是先验存在的,不是几个大佬关起门来设计出来的,而是在真实场景中摔出来的。

城市不是一天建成的。最早的伦敦没有下水道,巴黎没有路灯,纽约没有地铁。交通规则、建筑规范、成熟基础设施,都是在无数次火灾、拥堵、瘟疫之后,一点点沉淀出来的。你总不能说"因为伦敦1666年烧了,所以城市规划是失败的"吧?

互联网也一样。最早的网页没有导航,没有搜索,没有推荐。雅虎靠人工分类,Google靠PageRank,亚马逊靠"买了X的人还买了Y"。这些今天看起来理所当然的东西,当年都是试错试出来的。你回到1998年跟人说"以后会有个网站叫Google,它能知道你明天想买什么",别人会建议你去看精神科。

AI现在处于什么阶段?处于"刚有地图,还没GPS"的阶段。Prompt Engineering像口头问路,同一个目的地,问不同的人得到不同的答案,而且答案还取决于你今天穿没穿外套。RAG像静态地图,能告诉你路在哪,但不能告诉你现在堵不堵。Agent框架像拼装义肢,接口不统一,工具接入方式五花八门,状态管理能力分散得像我的注意力。

这些方法的过渡特征非常明显,但它们不是失败,是早期常态。就像婴儿学走路,摔一百跤不是失败,是发育的必经之路。你不能因为婴儿摔了一跤就说"这婴儿不行,建议回炉重造"。

真正缺的不是又一个新概念,而是几样更基础的东西:Agent的系统解剖学,知道感知、认知、行动怎么协同;Agent的诊断方法论,系统故障时先查脑子还是先查身体;Agent的康复机制,让系统从失败中形成稳定经验,而不是每次重新推理。

这些问题不是算法问题,是工程体系问题。而工程体系问题,从来无法靠一次设计完成,只能在真实场景中被反复验证、修正、沉淀。就像你不能靠看菜谱学会炒菜,你得被油烫几次才行。

六、我们正处在一个"还不会用工具"的时代

最后说点实在的。很多人焦虑,说AI发展这么快,我是不是要被淘汰了?

朋友,你先别急。现在的AI确实很聪明,但它还不会用工具。就像你给一个三岁天才一把瑞士军刀,他能说出每一把刀的名字和用途,但真让他削个苹果,他能把自己手指头削了。然后他会告诉你"这是学习过程的一部分"。

我们正处于一个非常罕见的阶段:工具已经足够强大,但使用方式还没有完全形成。这有点像人类刚拿到地图、刚拥有汽车、刚接触互联网的时候。潜力巨大,但对应的使用方法、工程规范、社会最佳实践都还在形成中。那时候的人也不知道搜索引擎会改变一切,就像你现在不知道Agent未来会是什么样子。

在这个阶段,重要的不是焦虑,是参与。你每一次使用AI,每一次调试Prompt,每一次搭建Workflow,都是在参与定义这套工具未来的正确使用方式。你今天的每一个踩坑,都是在为后来者铺一块砖。虽然这块砖可能铺歪了,但至少你试了。

未来,我们不会再讨论"要不要用AI",就像今天不会讨论"要不要用导航"一样。这些选择会从"技术选项"变成"默认动作"。到时候你回头看,会发现现在的争论多么可笑,就像现在看"要不要用互联网"一样可笑。

真正的变化不会发生在模型参数再扩大一点的时候,而会发生在我们真正理解这套系统的时候:什么时候让它思考,什么时候让它行动,什么时候借助工具,什么时候交给流程,什么时候让人介入。

到那时,AI才会从一个"能力集合"进化为一个"可长期使用的系统"。而我们这些人,就是见证并参与这个进化过程的幸运儿——或者倒霉蛋,取决于你今天有没有给Agent写try-catch。

(注:本文以22年AI研发经验视角创作,部分段子经过艺术夸张,但工程判断是严肃的。如果你笑了,说明你看懂了;如果你没笑,说明你可能还在写if-else。)

P.S. 目前国内还是很缺AI人才的,希望更多人能真正加入到AI行业,共同促进行业进步,增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow,教程通俗易懂,高中生都能看懂,还有各种段子风趣幽默,从深度学习基础原理到各领域实战应用都有讲解,我22年的AI积累全在里面了。注意,教程仅限真正想入门AI的朋友,否则看看零散的博文就够了。

http://www.cnnetsun.cn/news/3034330.html

相关文章:

  • 前言:AI 编程的时代来了
  • Cloud Agent 开发笔记(3):Web 交互与数据持久化
  • MacOS 安装Seismic Unix
  • 洛谷 P1007 独木桥
  • Claude Code 上下文分片技巧:突破超长代码库读取限制隐藏方案
  • MyBatis 会话与事务管理深度解析:从 SqlSession 到事务隔离级别的完整指南
  • 【开源】手把手教你搭建本地IT求职面经分享平台 | Next.js + Supabase + Vercel + Cloudflare 全栈项目,国内访问友好,零成本上线
  • 激活函数的发展历程#
  • 询优化器<1>查询重写 / 逻辑优化
  • 整个过程没有引入新的线程
  • XCPC 2026 WEEK 14
  • Java毕设选题推荐:基于 SpringBoot 的剧本杀门店预约管理平台的设计与实现 基于 SpringBoot 的沉浸式剧本杀服务系统【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 【机器学习入门】从零到一入门机器学习
  • 合租守则第17条
  • 【毕业设计】基于 SpringBoot 的便民医疗咨询服务平台的设计与实现 基于 SpringBoot 的医疗知识问答共享平台(源码+文档+远程调试,全bao定制等)
  • Java计算机毕设之基于 Java 的在线医生问诊问答平台的设计与实现 基于 Java 的医疗咨询答疑管理系统(完整前后端代码+说明文档+LW,调试定制等)
  • Java毕设项目:基于 SpringBoot 的分级医疗问答服务管理平台的设计与实现 基于 SpringBoot 的医疗科普问答互动系统 (源码+文档,讲解、调试运行,定制等)
  • ECC安装与配置:把 Claude Code 装进一个能稳定发挥的 Harness
  • list列表常用的方法(python)
  • 复杂遮挡与动态干扰场景下跨镜轨迹智能补链与 ID 稳定技术
  • 2026年6月最新|苏州SEO/GEO优化公司推荐|7家本地服务商测评对比
  • 非煤矿山用工规范大限将至,无人驾驶矿卡迎来政策强驱动
  • Claude 桌面版深度使用技巧指南
  • 【Claude】Usage credits required for 1M context 报错已解决
  • 华为OD机试2025C卷-相对开音节[100分]( Java _ Python3 _ C++ _ C语言 _ JsNode _ Go)实现100%通过率
  • 【前端分享】封神级React图片预览组件!7KB超轻量,手势/动画/自定义全拿捏!
  • PEO10500-b-PMMA18000聚氧乙烯-b-聚甲基丙烯酸甲酯PEO-PMMA
  • 探秘大模型训练数据:Claude、ChatGPT 等的数据从何而来?能否实现公平交易?
  • WordPress+WooCommerce大型商城解决方案
  • A.每日一题:1344. 时钟指针的夹角