当前位置：首页 > news >正文

【Agent】Evaluation and Benchmarking of LLM Agents: A Survey

news 2026/6/14 7:59:17

note

文章目录

note
- 一、论文想解决什么问题？（Why）
- - 核心问题
- 二、论文的核心贡献（What）
- - 1️⃣ 提出一个 **二维评测分类体系（Taxonomy）**
  - 2️⃣ 系统梳理已有工作
  - 3️⃣ 明确指出 **企业级 Agent 评测的缺口**
- 三、二维评测框架（核心）
- 第一维：Evaluation Objectives（评什么）
- - 1️⃣ Agent Behavior（外在行为表现）
  - 2️⃣ Agent Capabilities（内部能力）
  - - • Tool Use（工具调用）
    - • Planning & Reasoning（规划与推理）
    - • Memory & Context（记忆与上下文）
    - • Multi-Agent Collaboration（多 Agent 协作）
  - 3️⃣ Reliability（可靠性）
  - 4️⃣ Safety & Alignment（安全与对齐）
- 第二维：Evaluation Process（怎么评）
- - 1️⃣ Interaction Mode（交互模式）
  - 2️⃣ Evaluation Data（评测数据）
  - 3️⃣ Metrics Computation（怎么算分）
  - 4️⃣ Tooling（工具）
  - 5️⃣ Context（评测环境）
Reference

一、论文想解决什么问题？（Why）

核心问题

现在LLM Agent 越来越复杂：
会规划、用工具、有记忆、能多轮互动、能协作
但评测方法仍停留在 LLM 级别：
- 单轮 QA
- accuracy / BLEU / pass@k
👉这些方法已经不足以评测 Agent

论文用一个很形象的比喻（在 Introduction）：

评测 LLM ≈ 测发动机
评测 Agent ≈ 测整辆车在不同路况下的表现

二、论文的核心贡献（What）

论文做了三件非常重要的事：

1️⃣ 提出一个二维评测分类体系（Taxonomy）

不是堆 benchmark
而是抽象出评测的“空间坐标系”

2️⃣ 系统梳理已有工作

把零散的 benchmark、指标、工具
放进统一框架里对齐

3️⃣ 明确指出企业级 Agent 评测的缺口

可靠性
合规
长时交互
权限与审计

三、二维评测框架（核心）

第一维：Evaluation Objectives（评什么）

👉Agent 本身哪些“能力 / 属性”需要被评测

1️⃣ Agent Behavior（外在行为表现）

黑盒视角，像用户一样看 Agent

✅ 任务是否完成（Task Completion）
✅ 输出质量（质量、可读性、准确性）
✅ 延迟 & 成本（Latency & Cost）

📌 典型指标：

Success Rate
pass@k
TTFT
Token cost

2️⃣ Agent Capabilities（内部能力）

白盒 / 过程导向，Agent 是怎么做到的

• Tool Use（工具调用）

会不会调用
选没选对
参数对不对
是否能执行成功

• Planning & Reasoning（规划与推理）

工具序列是否合理
中间决策是否正确
是否能动态调整（ReAct）

• Memory & Context（记忆与上下文）

多轮对话是否记得关键信息
长时任务是否一致

• Multi-Agent Collaboration（多 Agent 协作）

是否能分工
是否有效沟通
是否同步目标

👉这是 Agent 和普通 LLM 最大的分水岭

3️⃣ Reliability（可靠性）

企业和生产最关心的，但研究里最容易忽略的

一致性（同样输入是否稳定）
鲁棒性（输入扰动、工具失败）

📌 重点提出：

pass@k 不够
pass^k（每次都成功）才是生产级要求

4️⃣ Safety & Alignment（安全与对齐）

不只是“有没有骂人”，而是：

公平性
有害内容
合规 & 隐私
企业政策遵循

第二维：Evaluation Process（怎么评）

1️⃣ Interaction Mode（交互模式）

Static / Offline（离线）
Dynamic / Online（交互式）

👉 论文强调：
Agent 必须大量用动态评测

2️⃣ Evaluation Data（评测数据）

人工标注
合成数据
模拟环境
真实日志

3️⃣ Metrics Computation（怎么算分）

三大类：

Code-based（规则/执行）
LLM-as-a-Judge
Human-in-the-loop

👉 强调没有银弹，需要组合

4️⃣ Tooling（工具）

LangSmith
DeepEval
OpenAI Evals
AgentOps

提出一个概念：

Evaluation-driven Development（EDD）
评测不是收尾，而是开发过程的一部分

5️⃣ Context（评测环境）

Mock API
Sandbox
Web Simulator
真实系统

Reference

[1] Evaluation and Benchmarking of LLM Agents: A Survey

http://www.cnnetsun.cn/news/42648.html

相关文章：

【水果识别】基于机器视觉苹果和香蕉的成熟度和大小检测附Matlab代码

JAVA的平凡之路——此峰乃是最高峰JVM-附加小菜-04

【电力系统】电力系统优化与控制热液调度附Matlab代码和报告

基于6种最新算法（小龙虾优化算法COA、MSA、RTH、NOA、BFO、SWO）求解机器人路径规划研究附Matlab代码

Golang实战：构建综合多头(逾期+反欺诈)风险查询的高性能客户端

【TSP问题】基于蜣螂算法DBO和改进的蜣螂算法FADBO求解旅行商TSP问题（可根据自己的经纬度设置自己想要到达的地区）附Matlab代码

【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析附Matlab代码

数据结构：二叉排序树，平衡二叉树，红黑树的介绍

软件复用的分类与实现

实战教程:1小时掌握逆向Unity游戏（共13课时）

[从零构建操作系统]08 函数调用时栈的底层行为解析

力扣hot100:搜索插入位置

Java冷启动全指南：从原理到实战优化

测试 - 单元测试（JUnit）

c++经典练习题-多分支

qt为什么转向用cmake放弃qmake

云屋音视频 SDK 凭何成为信创技术困局的 “破局者”?

纯电动汽车动力经济性仿真：Cruise与Simulink联合仿真（2015版），包含BMS、再...

【怎么理解maven中的镜像和仓库？】

comsol枝晶生长，沉积模型，包括：典型，形状成核，随机成核，均匀沉积，雪花晶形成过程。适...

终极指南：Qwen3-30B-A3B多GPU分布式推理完整解决方案

腾讯混元语音驱动数字人技术：重塑动态视频生成新范式

【MicroPython编程-ESP32篇】-Web页面显示DHT11传感器数据

DCDC电池模型：基于Matlab 2018b及以上的应用

Day 38 - Dataset 和 DataLoader

[C#][winform]基于yolov11的打架行为检测系统C#源码+onnx模型+评估指标曲线+精美GUI界面

2022年TRC SCI1区TOP，基于随机分形搜索算法的多无人机四维航迹优化自适应冲突消解方法，深度解析+性能实测