当前位置：首页 > news >正文

从让AI写代码，到让AI管流程

news 2026/6/30 1:11:08

1. 背景：我想让 AI 接管训练全过程

最近业余时间，我在尝试用YOLO26训练一个目标对象识别模型。

一开始的想法很直接：

把本地视频素材交给 AI，让 AI 帮我完成从数据集处理到模型训练的全过程。

这不是单纯让 AI 写一个训练脚本，而是希望它能串起完整链路：

本地视频 -> 自动抽帧 -> 图片质量筛选 -> 去重 -> 自动标注 -> 标注质量检查 -> YOLO 数据集打包 -> 训练预检 -> 链路验证 -> 正式训练 -> 模型交付

这个流程看起来清楚，但真正做起来，很快就会发现：

这不是一个“让 AI 写代码”的问题，而是一个“让 AI 稳定推进复杂流程”的问题。

2. 遇到的核心痛点

痛点一：项目一大，AI 容易乱

在单点任务上，AI 很好用。

比如写抽帧脚本、解释训练报错、补一个参数校验，这些都很顺。

但流程一长，AI 就容易混乱：

上一轮还在处理数据，下一轮就开始改训练参数。
看到日志里某个success，就误以为整个阶段完成。
分不清 dry-run、链路验证和正式训练结果。
不知道某个问题应该回到数据阶段，还是训练阶段。

痛点二：输出不统一，AI 很难接力

每个阶段如果都用自己的方式输出结果：

有的只写日志。
有的打印一段文本。
有的生成零散文件。
有的没有明确下一步建议。

那 AI 每次都要重新理解上下文。

结果就是：它不是不会处理，而是没有稳定标准可读。

痛点三：一个 Skill 根本不够

刚开始很容易想：写一个完整 Skill，把规则全塞进去。

但项目复杂后，一个 Skill 会越来越长：

数据处理规则在里面。
自动标注规则在里面。
训练规则在里面。
交付规则也在里面。

最后它更像一份超长说明书。

AI 仍然可能漏读、误读，或者把不同阶段的规则混在一起用。

痛点四：光靠文字约束不够

提示词可以提醒 AI：

不要越界、先检查状态、失败后回退。

但真正执行时，文字约束不够稳定。

判断图片是否达标、标签是否生成、数据集是否可训练、模型是否正式产物，这些都不能靠 AI 主观理解。

这些判断必须交给脚本和验证器。

3. 设计转向

后来我调整了思路。

不再追求让 AI 更自由，而是让整个流程更可控。

AI 负责理解、拆解、协调和解释。
脚本负责执行、验证、记录和裁决。

这句话是整个项目设计的核心。

AI 不再直接凭感觉判断“这一步是不是成功了”，而是：

调用脚本 -> 读取结构化结果 -> 判断下一步 -> 必要时回退到对应阶段

这样，AI 的角色就从“自由操作员”变成了“流程协同者”。

4. 怎么把流程做稳

先拆阶段

我把整个 YOLO26 训练过程拆成几个清晰阶段：

阶段	只负责什么
数据采集	从本地视频抽帧、筛选、去重
数据处理	自动标注、检查标签、打包 YOLO 数据集
模型训练	训练预检、链路验证、正式训练
总控编排	串联阶段、保存状态、判断下一步

关键不是拆得多细，而是边界清楚。

数据阶段不训练模型。

训练阶段不回头改标签。

总控阶段不直接修图片、标签和模型文件。

再拆 Skill

一个大 Skill 不够，就拆成多个薄 Skill。

每个 Skill 只回答三个问题：

这个阶段负责什么？ 入口脚本是什么？ 应该读取哪个结果文件？

复杂规则不写进 Skill。

复杂规则放进脚本、验证器和统一报告。

这样 Skill 不会变成冗长提示词，AI 也更容易按边界行动。

统一输出标准

为了让 AI 稳定接力，每个关键阶段都尽量输出同一类字段：

status 当前状态 next_action 下一步动作 blockers 阻塞原因 artifacts 关键产物

这几个字段解决了很多问题。

AI 不需要从长日志里猜状态。

人也可以快速知道：

当前完成了吗？
卡在哪里？
下一步该做什么？
关键文件在哪里？

5. 强脚本比强提示词更重要

这个项目里，脚本不是辅助工具，而是流程裁判。

抽帧脚本不仅抽图片，还判断：

清晰度是否够。
曝光是否正常。
是否重复过多。
数量是否达标。

数据处理脚本不仅生成标签，还判断：

自动标注质量是否可接受。
X-AnyLabeling 工件是否生成。
YOLO 数据集结构是否可训练。

训练脚本不仅启动训练，还区分：

dry-run。
链路验证。
正式训练。
哪个best.pt才能交付。

这些判断如果只靠 AI 看日志，非常不稳。

放进脚本后，每一步都有明确结论：

能继续 需要等待 已经阻塞 应该回退

AI 只需要读取结论，再协调下一步。

6. 总控 Agent 的作用

当阶段拆开以后，需要一个角色把它们串起来。

这就是总控 Agent。

它不直接处理图片。

它不直接改标签。

它不直接改模型结果。

它只做几件事：

记录当前运行状态。
调用对应阶段脚本。
读取统一 JSON 报告。
根据 blocker 判断问题归属。
决定下一步继续、等待还是回退。

总控 Agent 更像一个流程调度者。

项目越大，越不能让它随意发挥。

要给它轨道，让它沿着轨道推进。

7. 这件事对团队有什么启发

这个 YOLO26 项目只是一个例子。

真正有价值的是背后的 AI 协作方式。

过去我们用 AI，更多是点状提效：

写一段代码、查一个报错、生成一份配置。

但当任务变成长流程时，只会写代码不够。

还需要设计：

阶段边界。
输出标准。
状态恢复。
质量门禁。
责任回退。
最终验收。

这套方式的价值在于：

把 AI 从“靠提示词提醒”变成“靠工程机制约束”。

这比写更长、更复杂的提示词更可靠。

8. 结论

这次 YOLO26 训练实践给我的最大启发是：

AI 在复杂项目里出问题，很多时候不是能力不够，而是缺少流程设计。

如果没有边界，AI 会乱。

如果没有统一输出，AI 会猜。

如果只有一个大 Skill，AI 会被长文本拖住。

如果只靠文字约束，AI 仍然可能越界。

更可行的方式是：

多个薄 Skill 负责引导 强脚本负责执行和判断 统一 JSON 负责状态交接 总控 Agent 负责协调

查看全文

http://www.cnnetsun.cn/news/3054279.html

Burp Suite实战：验证码场景下的自动化渗透测试与绕过技术

权威测评：2026年实力出众的专业AI论文工具

关于我的第十次web作业

3步搞定Navicat无限试用：Mac用户的终极解决方案 [特殊字符]

DICOM图像核心参数实战指南：从像素到诊断的精准度量

无需编程，快速打造专属物联网APP——ThingsCloud平台实战指南

煤矿通信 “侦察兵”：光缆普查仪 CM-K60 助力井下光缆快速识别

MATLAB双目相机标定：从工具箱实战到参数解析

企业AI化转型核心：打造分工协作的多Agent团队，小白也能看懂！

League Akari终极指南：8个秘诀掌握英雄联盟自动秒选黑科技

【独家首发】ChatGPT API调用诊断工具包（含12个自检函数+实时token追踪+异常归因热力图）

深入解析TL16C552：双串一并通信控制器的硬件设计与软件驱动

【R语言实战】解锁Wind与iFinD金融数据：从零到一的API调用与避坑指南

如何用League Akari实现英雄联盟自动秒选：终极配置指南

计算机毕业设计之基于SSM礼服租赁系统的设计与实现

RePKG使用指南：轻松提取Wallpaper Engine资源包和转换TEX图片格式

评测：国内主流S2B2C系统服务商全方位横评（2026版）

如何在1分钟内为Windows安装苹果USB网络共享驱动：完整解决方案

突然报 “关键字 WITH 附近有语法错误“？一篇避坑指南

Feign 远程调用：调用的是对方项目的 Controller，不是 Service

Windows风扇控制终极指南：用Fan Control彻底告别噪音烦恼

从FIR与IIR的群延迟差异，看滤波器如何塑造信号

nlohmann/json：现代C++ JSON处理的终极完整指南

RSA非对称加密在登录模块的实战应用：从原理到前后端完整实现

TPIC7710EVM评估板实战：从硬件解析到GUI软件驱动的电机控制芯片验证

为什么同样叫海参，有的卖5000，有的卖1500？

2026手机抠图工具实操指南：免费无水印APP与轻量工具使用教程

渗透测试工具实战指南：从信息收集到报告撰写的全流程解析

保持对代码的理解，不要完全依赖AI Coding——由一段Babylon.js开发出现的bug引发的感慨

在皓贝一口腔医院就诊是怎样一种体验？