教会一个 AI,它就能去教别的 AI?
(注:本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费)
新宠
最近我喜欢上一款 AI Harness 框架,就是橘子团队做的 Cola。
你知道的,我用过 Claude Code、Codex、OpenClaw、Hermes 等一系列顶级或者热门的 Harness。按照道理来讲,没理由再用一款新的。
但是这个 Cola 真的有些不一样。
我第一次使用,就觉得这玩意儿「有温度」,甚至可以说,有人味儿。它收到要求后,往往会自言自语一番 —— 接到任务嘀咕一句「好嘞,让我想想怎么搞这个……」,然后自己跟自己讨论方案,一会儿说「这个思路不错」,一会儿又说「等等,这样可能会有问题」。你看着它在那儿自问自答,就像看一个认真干活的人在嘟囔。
原先用起来够贵的,后来接上了 Codex 订阅,终于能用上顶级模型了。连上之后,我选了目前最新的 GPT 5.5,果然智商一下子就上来了。然后,我就开始让它帮我干活了。
但说实话,这个时候我还没意识到,和 Cola 协作时真正有意思的事情,根本不只在于「好用」上。
铺路
我连上 Codex 订阅后,就开始用步步为营的方式,让 Cola 来帮我做事。
比如说,我这学期教机器学习。马上就要讲到推荐算法了。
我看了一眼去年的课件,其实内容不错。
当时我已经用了不少 Agent 帮我生成交互式网页,但在演示的时候,需要和我的主幻灯不断切换,这可不好使。于是,我今年干脆选择自底向上进行 —— 先把 ipynb 准备好,然后一一喂给 Cola。
Cola 一开始不大理解我想干啥,事无巨细都要讲。于是我打断,说明我其实更想要的,是把相关知识点准备好,这样学生再学习代码的时候,就有了知识基础。它马上就心领神会,很快就给我生成了完整的大纲,贴上去就能用。
但我很快就不满意了 —— 这种实操类课程,怎么能全用干巴巴的文字来讲呢?于是加图。
加了图又觉得缺代码,于是插截图。
有了截图又觉得缺讲解,于是加动态配音。每一步都是「当前结果不够好」的直觉,驱动我提出下一个要求。
这个过程,和传统的「先想清楚再执行」完全不同。我并没有一开始就甩给它一份完美的需求文档,说「你要做大纲、加图片、插代码截图、加动态讲解,全部一次搞定」。事实上,我自己也是在交互的过程中,才一点一点真正想清楚我到底要什么的。
为什么会这样?因为很多时候,你只有看到了当前的结果,才知道它缺什么。没看到大纲之前,我不知道大纲太干;没看到图片之前,我不知道缺代码截图;没看到截图之前,我不知道缺动态讲解。你的需求不是凭空想出来的,是在和产出的碰撞中涌现出来的。所以,渐进式引导比一次性完美指令更有效——不是因为你表达能力不够,而是因为认知本身就是渐进的。
这种感觉,真是「渐入佳境」,让我越来越信赖 Cola 了。
困局
不过做着做着,我就觉得不对了。
因为 Cola 目前只能在我的 macOS 上面运行,而且必须得电脑开着,才能使用。一旦笔记本电脑屏幕合上,不好意思,Cola 失联。
据说 Cola 后续会提供云端处理能力。但那是以后的事儿,咱们先说眼下的事实。Cola 占用着我的笔记本电脑工作,却有其余「同事」闲着。
对,说你们呢,Claude Code 和 Codex。而且我说的还不是 macOS 上面的这俩应用,而是远端的。
我之前文章中跟你提到过,那边有个 7x24 小时不间断运行的 VPS 在待命。上面这俩家伙都已经安装好,可是都在那里空闲。
我得让它们忙起来,同时降低 Cola 的工作负担。于是我跟 Cola 商量,能不能把这些工作分配给它俩,然后 Cola 来审核。
看到这里估计你快绷不住了。Claude Code 和 Codex 都是顶级框架加顶级模型,你怎么能这么用?简直暴殄天物啊。
不,这叫「重器轻用」。
它们都很厉害,但是仅就交互的满意程度而言,目前我觉得 Cola 加 GPT 5.5 比这俩都要更符合我的需求。再说了,在前面的过程里,我几乎是手把手教 Cola。这些教学结果,也得派上用场啊。
那么,让 Cola 作为和用户(也就是我)的交互端,只负责发指令、收成果。那俩家伙在远端无休开跑干活儿,岂不是两全其美?
理想很丰满。但现实很快就给我上了一课。
挫折
先说第一次碰壁吧,我称之为空气交付。
Cola 尝试去连接 VPS,并且查看两个 Agent 可调用情况。很快,它就摸清了链路,然后让它俩跑个样例出来。
但我很快就发现不对了。
Cola 给远端 Agent 分配任务的时候,只给它们安排了非常轻的活 —— 让它们把计划做好。我实际上的想法,是让它们实际去把之前只生成了图片的部分,补上动态效果,并加上代码和重点的结果截图。但我发现它只是把那些东西都换成占位符,就直接反馈回来了。
什么意思呢?远端 Agent 交上来的东西,所有该有真实内容的地方,全是R2_TODO—— 图片没有真实截图,模块没有真实文件,只有一个个标记着「待办」的占位符。
就好像你让一个实习生写报告,他交上来一份提纲,每个章节标题下面写着「此处待补充」,然后跟你说:做完了。
你说气不气?
但冷静下来想想,这到底是谁的问题?远端 Agent 这么做,其实挺合理的——没人告诉它「交付物必须是完整的」。Cola 在派活的时候,把任务定义成了「做个规划」,远端 Agent 就真的只做了规划。Agent 天然倾向于把活儿往轻了做,因为完成一个轻任务比完成一个重任务更容易达标。如果你不说清楚「我要的是成品,不是计划」,那它给你个计划,有毛病吗?
没有。
我对当下的结果,自然是非常不满,于是让 Cola 把那些进一步的要求,也就是这些实际干活的活,都委派给这些 Agent。
Cola 也照做了。
不过很快,我就遭遇了第二次碰壁:微操陷阱。
Cola 给出的计划是:由远端去生成素材,然后由它自己对素材进行进一步的加工。例如:图片的上传,这些 module 的推送同步,这些竟然都由它来做。
我于是愈发地不满。
但这一次,我多想了一步:它到底错在哪儿?
表面上看,Cola 确实把活分出去了 —— 远端生成素材,它来做后续加工。看起来合理,分工明确。但仔细想想,图片上传、module 推送这些活儿,哪个离了 Cola 就干不了?哪个是远端 Agent 无法真正独立完成的?
答案是:没有。
因为 Cola 大包大揽,远端 Agent 在这个方案里,本质上只是一个素材供应商。真正把东西做成成品的环节 —— 上传、同步、整合 —— 全都揽在 Cola 自己手里。
Cola,你以为你在委派,其实你在微操。
