当前位置: 首页 > news >正文

微软双论文深度剖析:Agent Skill 的评测体系与自进化优化

你的 Skill 真的有用吗?这个问题比你想的难回答

假设你花了一个下午,给你的 Agent 精心写了一个 Skill——里面有清晰的步骤、详尽的注意事项、格式规范的输出要求。你手动测了几次,感觉相当不错。然后你把它投入生产。

三周后,你发现某些任务的成功率反而比没有 Skill 时低了。

这不是假设场景。微软研究团队在 2026 年 5 月同期发布的两篇论文——SkillLens(“From Raw Experience to Skill Consumption”)和SkillOpt(“Executive Strategy for Self-Evolving Agent Skills”)——用严格的实验数据告诉我们:这种"负迁移"现象在 25% 的情况下都会发生,而且你靠肉眼读 Skill 文本根本判断不出来哪个更好。

这两篇论文一个回答"Skill 为什么有时候不管用",另一个回答"怎么系统性地让 Skill 越来越好"。读完你会发现,它们共同描绘的是一个关于 Agent 能力提升的全新范式。


第一篇论文:SkillLens——Skill 的完整生命周期研究

Skill 不是一个点,而是一条链

大多数人对 Skill 的理解停留在"一段写给 Agent 看的指令文本"。但 SkillLens 把这件事拆得更细,提出了 Skill 的三阶段生命周期

阶段 1: 经验生成(Experience Generation) 目标模型 M 在训练任务上跑一遍,产生一批执行轨迹 ↓ 阶段 2: 技能提取(Skill Extraction) 提取器模型 E 分析这批轨迹,蒸馏成结构化的 Skill 文档 ↓ 阶段 3: 技能消费(Skill Consumption) 同一个目标模型 M 带着提取出的 Skill 去做新任务,看能不能提升

这条链上有两个独立角色:**提取器(Extractor)**负责从经验中提炼知识,**目标模型(Target)**负责消费知识提升表现。关键洞察是:这两个角色彼此独立,性能不相关。一个提取能力强的模型可能是个弱消费者,反之亦然。

两个新指标:EE 和 TE

为了量化这两个角色的差异,论文提出了两个互补的指标:

提取效能(Extraction Efficacy, EE):固定一个提取器,它能为多少个不同目标模型稳定生产有用的 Skill?

EE ( E , D ) = 1 ∣ M ∣ ∑ M ∈ M Δ ( E , M , D ) \text{EE}(E, \mathcal{D}) = \frac{1}{|\mathcal{M}|} \sum_{M \in \mathcal{M}} \Delta(E, M, \mathcal{D})EE(E,D)=M1MMΔ(E,M,D)

目标可进化性(Target Evolvability, TE):固定一个目标模型,当用不同提取器来蒸馏它自己的经验,它能从中获得多大提升?

http://www.cnnetsun.cn/news/2677853.html

相关文章:

  • 避开这两个坑,你的ArcGIS Pro AddIn插件开发效率翻倍(图标不显示、SHP右键菜单失效)
  • 避坑指南:Windows下用Anaconda搭建YOLOv8+DeepSORT多目标跟踪环境(解决CUDA版本冲突)
  • LinkSwift网盘直链下载助手:八大网盘全支持,一键获取真实下载地址的完整指南
  • 从机械继电器到固态SSR:七频段音乐灯光控制器的硬件升级与安全实践
  • 技术深度解析:OpCore Simplify如何自动化OpenCore EFI配置
  • Layerdivider:如何用AI智能图像分层技术快速生成可编辑PSD文件
  • 基于Arduino与超声波传感器的迷你雷达系统:从原理到实现
  • 国家软考中级信息系统监理师实战应用与价值指南
  • Arduino/ESP32电容触摸传感器实现:从铝箔到稳定交互
  • Win11文件拖拽卡顿别急着重装!试试这3个隐藏设置(亲测有效)
  • 基于Arduino Pro Micro打造可编程USB键盘:从矩阵键盘到自定义快捷键
  • 电路设计实战指南:从元器件认知到PCB制作与调试全流程
  • 5大技巧彻底解决Jina Reader网页抓取不稳定的终极指南
  • 终极指南:如何用RevokeMsgPatcher高效实现微信QQ消息防撤回功能
  • OpCore-Simplify:三分钟快速配置黑苹果OpenCore EFI的终极指南
  • 堪培拉理工学院如何借助技术革新重塑课堂教学体验
  • 鸣潮自动化革命:如何用AI视觉技术解放你的双手?
  • 写作压力小了!2026 最新降AI率网站测评与推荐
  • 旧电脑变复古街机:Core 2 Duo硬件回收与Batocera系统实战
  • Python逻辑回归分类
  • CentOS 8停服后,yum报错‘No URLs in mirrorlist’的三种修复方案(附一键脚本)
  • 如何一键解密QQ音乐加密文件:QMCDecode音频格式转换实战指南
  • Go语言职业发展:技能图谱
  • 【限时解密】Gemini中国区特供版公关方案(含工信部沟通纪要摘要与央视专访应答红线)
  • 2006-2025年《中国第三产业统计年鉴》Excel+PDF版集合
  • 【Gemini欺诈识别系统合规生死线】:GDPR+《反电信网络诈骗法》双框架下6类数据使用红线与审计通关清单
  • 5分钟打造你的专属微信智能助手:Python微信机器人完全指南
  • 3步快速上手跨平台资源下载神器:新手也能轻松获取无水印视频音频
  • Arduino tone()函数驱动扬声器播放音乐:从Tinkercad仿真到实体电路实战
  • KMS智能激活工具:如何5分钟内完成Windows和Office永久激活