当前位置：首页 > news >正文

人类最后考试已不够用，Agent最后考试来了！

news 2026/6/13 7:31:53

AI 飞速进步，各类问答基准几乎天天刷新 SOTA，人类最后考试（HLE）上，刚发布的最强 Claude 模型已经接近 65%，问答类基准已被刷爆了。

人类最后考试已不够用，伯克利牵头、250 多位行业专家参与的研究团队开始给AI上难度， Agents' Last Exam（智能体最后的考试，ALE）诞生。

当前最强AI，在这最难的题上只拿到 8.6% 通过率，主流系统平均 2.6%。这场智能体最后考试告诉所有人，AI 距离真正替人干活，还差得远。

考试卷子该换了

过去几年，AI 系统一个接一个攻克知名基准测试，下棋赢了世界冠军，奥数拿了高分，编程竞赛刷到顶尖。

HLE 这类知识问答基准上，Claude 已接近 65%，被攻破只是时间问题。

经济产出这条真正重要的指标上，AI 的影响却一直有限，基准测试上的胜利积累得很快，核心行业的实际改变慢得多。

研究团队把这个现象叫做效用问题。

基准测试的功能不只是记录能力，它还引导研究注意力，定义工程目标，决定哪些领域值得投入。

ImageNet 对计算机视觉的作用就是典型例子，有了可验证、广泛使用的评估标准，进步就加速，落地跟着来了。

金融、法律、电气工程、制造这些经济核心领域，一直缺少类似的评估。

现有基准到底差在哪？长流程的真实工作流很难收集，必须来自真实的软件和组织环境，之前基准往往选了更容易收集的短流程电脑操作、合成环境、纯问答模式。行业覆盖面也窄，现有基准通常只评估有限几个领域。

验证更是难题，正确输出可能是一个文件、一张表格、一段媒体、一份报告、一个设计或一个模型，输出形态太杂，很多基准干脆依赖人工打分。已有的基准往往只能在不真实、不全面、不可验证之间取舍。

ALE 则同时做到真实、全面、可验证。

Agents' Last Exam，为什么叫最后考试？名字有两层含义。

最后作为能力门槛，Agent 通过了某个行业的考试，就证明它有能力持续完成该行业有价值的工作，而不只是回答关于这个行业的问题。

最后也作为难度前沿，ALE 的题目扎根于需要专业判断的真实长流程工作流，坐在当前系统能力的边界上。

ALE 包含 960 个由专家编写的工作流，共 1490 个任务实例，覆盖 55 个子领域、13 个行业集群。

任务来源不是凭空编造的场景，是从业者真实完成过的项目，经过多轮质量控制才收录。

行业分类骨架用的是 O*NET/SOC 2018，美国联邦的职业分类体系，研究团队把具有相似软件操作流程的职业聚类为 ALE 行业，排除了核心工作并非数字化的领域。

从分布看，工程与建筑 368 个任务实例，计算与数学科学 237 个，视觉与媒体艺术 226 个，商业与金融 189 个，健康与医疗 155 个，生命科学 111 个。也有方向覆盖很少，能源与核工程只有 4 个，城市与空间规划 5 个，法律 15 个。

任务筛选标准有三条。

代表性，工作流要符合真实专业实践，用领域专家实际使用的软件，比如建筑专家用 SolidWorks 或 Rhino，不是 AutoCAD。

复杂性，任务必须是端到端的交付物，专家完成它需要可观时间，几步 UI 操作搞定的不算。研究团队做了区分，在达芬奇里加个颜色滤镜太窄，只是单个局部编辑，把奔跑的猎豹移到另一段赛马视频中才合格，要追踪、遮罩、合成、调色一整套耦合工作流。

可验证性，输出必须能被确定性检查或明确的评分规则评判，设计一个 RPG 游戏这种没法客观打分的题目不行，用 RPG Maker XP 还原 mota.exe 就行，因为地图几何、角色属性、事件状态都能自动对比参考版本。

Agent 得能文能武

ALE 测的不是只会答题的模型，是能在电脑上像人一样完成真实工作的 Agent。

研究团队把这类 Agent 叫做 Generalist Computer-Use Agent（GCUA，通用电脑使用智能体）。

研究团队把 Agent 的操作能力拆成五个功能层。

Brain（大脑）负责 LLM 推理和规划，Eyes（眼睛）负责 GUI 感知，通过截图理解屏幕内容，Body（身体）负责编排和控制流，Hands（双手）负责结构化工具调用，Feet（双脚）负责运行时底层，动作在这个层面生效。

传统 CLI Agent（命令行智能体）有 Brain、Body、Hands、Feet，缺 Eyes，看不到图形界面。

GUI Agent（图形界面智能体）有 Brain 和 Eyes，Body、Hands、Feet 都受限，写不了代码、管不了文件、撑不住长流程。

ALE 的任务要求 Agent 同时具备两套能力，在 GUI 和 CLI 之间自由切换，操作桌面应用、跑命令行、写代码、调工具，一口气走完整个工作流。

ALE 提供了完整的任务执行和评分环境。任务脚本负责加载任务、准备环境、最终评分，Agent 根据任务描述自己观察环境、选择动作、持续执行。

环境是远程虚拟机，有标准化四目录布局，input 放只读输入资产，software 放预装应用，output 是 Agent 唯一可写的目标，reference 放参考答案，Agent 看不到，只用来评分。

ALE 故意避免用 LLM 当裁判。如果一个任务只能靠问模型结果对不对来评分，这个任务会被退回，重新设计出可检查的输出物。

少数确实需要 LM 评分的任务，也不是笼统地问看起来对不对，是用窄范围、有锚定证据的是非探测，答案汇总成分数。93.2% 的任务能自动判分，不需要人工。

ALE 把任务分成三个难度档。

Near-Term（近期档）59 个任务，当前前沿 Agent 能部分完成，最高通过率约 42%，适合短期迭代和排行榜竞争。

Full-Spectrum（全谱档）55 个任务，确保 55 个子领域每个至少有 1 个实例，适合全面评估。

Last-Exam（最终考试档）36 个任务，是最难的工作流，大多数 Agent 通过率为 0%，留给里程碑式评估。

成绩单出来了

Last-Exam 档，当前最强配置 Codex + GPT-5.5，完整通过率只有 8.6%。这个组合在 Terminal-Bench 上能拿 82%，在 ALE 最简单档也只拿到 42.4%。

主流 Agent 系统在 Last-Exam 档的平均完整通过率是 2.6%。

Claude Code + Opus 4.7 在 Last-Exam 档完整通过率 0%，均分 2.1%。

具体的失败案例更能说明问题。

音乐转谱任务，需要提交总谱 PDF、MIDI 文件和界面截图，AI 只导出了 MIDI，拿了 0 分。

注塑仿真任务，AI 在 Moldex3D 中完成了仿真并导出结果，没能稳定提取关键数值，得分 0.4762。

绿幕合成任务，AI 导出了视频，结果没满足参考要求，同样 0 分。

研究团队还做了失败原因分类。

以 Claude Code + Opus 4.7 为例，31% 属于理解问题，Agent 没搞懂任务要什么；47% 属于方法问题，Agent 理解了但选错了做法；22% 属于执行问题，方法对了没执行到位。

理解和方法问题合计约八成，研究团队据此判断，当前系统的主要瓶颈在领域知识，不在执行能力。缺少专业知识的时候，Agent 会默认写临时脚本代替目标领域软件，34% 的任务指定了图形界面软件作为主要工具，Agent 在 GUI 上的操作占比却始终很小，更倾向用 Bash/CLI 替代。

换模型和换框架，哪个影响更大？

研究团队做了对照实验。固定 Agent 框架只换模型，整体通过率最高和最低差了 18 个百分点。固定模型只换框架，差距大约 5 到 6 个百分点。模型选择的影响，约等于框架选择的 3 倍。

从领域表现看，GPT-5.5 和 Opus 4.7 的领域画像很相似，计算数学和农业/环境得分最高（约 60%），视觉媒体和教育最低（低于 30%）。两个前沿模型在哪个领域强、哪个领域弱几乎一样，大概反映了模型本身在各领域能力不均衡，训练中代码相关领域覆盖远多于专业工作流。

还有个有意思的发现，更多资源投入不等于更好成绩，有些配置花了更多钱、更多时间，结果反而不如轻量级方案。

还不完美

ALE 有明显的不足。行业分类基于 SOC 2018，覆盖的主要是软件型、数字化专业工作，蓝领和实体操作不在范围内，任务目前运行在 Linux 或 Windows 虚拟机中。

不同领域覆盖不均衡，有些方向任务多，有些只有个位数。公开集目前只占完整任务池约 10%（150 个），其余 1017 个在私有池，323 个还在等质量控制。

研究团队做过一次检验，在 Claude Code + Opus 4.7 上，公开子集和完整任务池在各领域通过率上的相关系数是 0.89，代表性尚可但不完美。

知识问答类的 MMLU、GPQA、HLE 测的是模型知道什么，能做什么是另一回事。HLE 上 Claude 接近 65%，但知道和做到之间还有很大鸿沟。

Agent 类的 SWE-bench、OSWorld、WebArena 加了多步交互和工具使用，只覆盖少数软件领域，任务也来自策划编写而非真实专业工作流。

最接近的 GDPval 和 RLI 面向经济价值的项目级评估，行业覆盖分别只有 16/55 和 14/55，而且依赖昂贵人工打分。

ALE 是第一个覆盖全部 55 个 SOC/O*NET 行业的基准，每个任务来自 300 多位从业者真实完成的项目，用确定性脚本和结构化评分取代人工评判。

研究团队把 ALE 定位为一个持续更新的活基准。

未来任务池会继续扩展到新的工作流和行业，私有池中的任务会定期轮换进入公开集，保证评估面不被污染。

ALE 的目标不只是一份排行榜，是作为缩小基准成功和 GDP 影响之间差距的工具，当前沿 Agent 真能通过这场最后的考试，基准上的进步才有望体现为真实的经济转变。

参考资料：

https://agents-last-exam.org/

https://arxiv.org/pdf/2606.05405v1

https://github.com/rdi-berkeley/agents-last-exam

查看全文

http://www.cnnetsun.cn/news/2900944.html

WebSocket 行情脚本最怕的不是断线，是“看起来还在跑”

如何快速获取百度网盘资源：终极提取码查询工具完整指南

从“滋滋”声到清晰通话：一个移动端音频工程师的AEC避坑实战录

别再只用矢量数据了！一文讲透ArcGIS中哪些栅格数据有属性表，以及如何利用

豹女红三速开目前1min57s

深度解析CANN昇腾AI处理器算子开发中的调试工具链与性能调优实战指南

三步解锁《鸣潮》极致体验：WaveTools工具箱实战指南

2026 APMCM 亚太地区大学生数学建模竞赛 ABC

51单片机矩阵键盘密码锁实战：从硬件连线到代码调试，手把手教你避开蜂鸣器干扰

一文看懂 AI 编程智能体工程化新范式：Loop Engineering

Python周刊2026W23 | Polars 1.41、PyPy v7.3.23、Python 3.15、httpx2、dj-lite-tenant

手把手教你用MTK DWS配置GPIO驱动LED和按键（基于MT6765平台）

用Scrapy搭建基础网络文本爬虫的完整实践指南

手把手教你优化STM32H7性能：把关键代码和数据塞进ITCM/DTCM的完整流程

GOT-JEPA：通用目标跟踪的创新架构与遮挡处理技术

告别单体应用：用SpringCloudAlibaba快速拆分出你的第一个微服务（Order/Stock实战）

Centos7.9搭建IPV6银河麒麟SP2系统PXE

别再死记公式了！用STM32CubeMX配置ADC测芯片内部温度，附F0/F1系列校准值查找与代码实战

保姆级教程：在Win10上用Docker Desktop搞定ChirpStack服务器，手把手连接Ra-08H收发MQTT数据

从零到封装：用Logisim搭建你的第一个可复用LED计数器模块

如何3步免费解锁123云盘VIP功能？完整实用教程

WinForm程序运行中实时编译C#代码并调用方法的完整示例

ESP32开发效率翻倍：详解VSCode中ESP-IDF插件的7个隐藏技巧与idf.py命令组合

告别插件！用QGIS 3.16自带栅格工具，5分钟搞定星图地球XYZ瓦片下载与Leaflet离线部署

Label Studio ML Backend：构建AI辅助标注系统的技术架构与实践

term2048新手入门：从方向键到VI模式的完整操作指南

深度学习模型性能最大化实战：tuning_playbook_zh_cn项目深度解析与系统化调参方法论指南

SPT-AKI存档编辑器终极指南：3分钟快速掌控你的离线塔科夫世界

IFF《2025年多做善事报告》重点介绍基于自然创新所取得的进展

从电磁兼容（EMC）倒推PCB设计：你的板子为什么过不了认证？

考试卷子该换了

Agent 得能文能武

成绩单出来了

还不完美

相关文章：