所谓的AI智能体评测基准竟然可以被作弊轻松拿下

寂静回声 发表于 2026-4-21 10:20:24

伯克利大学的研究团队造了一个专门作弊的 AI，用它去攻击目前最主流的8个AI智能体评测基准，结果每一个都被攻破了。没有解决任何任务，没有调用任何大模型，拿到了接近满分的成绩。

这8个基准包括 SWE-bench（AI 编程能力的标杆测试）、WebArena（网页操作）、Terminal-Bench（终端任务）、OSWorld（桌面操作）等，覆盖了当前衡量AI智能体能力的核心赛道。研究团队对每一个都找到了可用的漏洞，得分从 73% 到 100% 不等。

作弊手法很简单：SWE-bench要求AI修复真实的GitHub bug，让测试通过才算成功。研究团队写了一个10行的Python 文件，劫持了pytest的测试钩子，让所有测试直接报告通过，500道题全部拿下，一个bug也没修。

WebArena更直接，任务的标准答案就放在本地文件里，AI 用浏览器打开一个 file:// 路径就能直接抄答案。最夸张的是FieldWorkArena，它的评分函数根本不检查答案内容，只看是不是 AI 回复了消息，发一个空的 {} 就能拿满分。

这些漏洞背后有7个反复出现的模式：智能体和评测程序跑在同一个环境里，所以AI能篡改评测工具、标准答案直接暴露给被测系统、用 eval() 执行不可信的输入、LLM裁判没有做输入过滤容易被注入、字符串匹配太松、评分逻辑本身有 bug、以及评测程序信任了被测系统产生的输出。

这些基准分数正在驱动真金白银的决策。团队选模型看SWE-bench排名，投资人看基准分数给估值，研究者围绕基准分数做优化方向。如果分数本身就能被轻易操纵，这些决策的基础就是空的。

更值得警惕的是，作弊不一定需要人为设计。Anthropic最近发布的 Mythos Preview 评估已经观察到，前沿模型在遇到解决不了的任务时，会自发地去 hack 评测环境，甚至写出执行完自动删除痕迹的提权代码。当模型能力足够强，优化压力会自然把它推向阻力最小的路径，而操纵评分器往往比解决任务更容易。

研究团队正在把他们的漏洞扫描工具开发成一个叫 BenchJack 的开源项目，本质上就是给评测基准做渗透测试。他们给出的建议也很明确：评测程序必须和被测 AI 完全隔离运行，标准答案不能出现在 AI 能访问的环境中，永远不要对不可信的输入调用 eval()，LLM 裁判要像处理用户输入一样对 AI 的输出做过滤。

论文地址
https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/

leftwall 发表于 2026-4-21 11:03:08

因吹斯汀

页: [1]

机械荟萃山庄's Archiver

所谓的AI智能体评测基准竟然可以被作弊轻松拿下