所谓的AI智能体评测基准竟然可以被作弊轻松拿下
伯克利大学的研究团队造了一个专门作弊的 AI,用它去攻击目前最主流的8个AI智能体评测基准,结果每一个都被攻破了。没有解决任何任务,没有调用任何大模型,拿到了接近满分的成绩。这8个基准包括 SWE-bench(AI 编程能力的标杆测试)、WebArena(网页操作)、Terminal-Bench(终端任务)、OSWorld(桌面操作)等,覆盖了当前衡量AI智能体能力的核心赛道。研究团队对每一个都找到了可用的漏洞,得分从 73% 到 100% 不等。
作弊手法很简单:SWE-bench要求AI修复真实的GitHub bug,让测试通过才算成功。研究团队写了一个10行的Python 文件,劫持了pytest的测试钩子,让所有测试直接报告通过,500道题全部拿下,一个bug也没修。
WebArena更直接,任务的标准答案就放在本地文件里,AI 用浏览器打开一个 file:// 路径就能直接抄答案。最夸张的是FieldWorkArena,它的评分函数根本不检查答案内容,只看是不是 AI 回复了消息,发一个空的 {} 就能拿满分。
这些漏洞背后有7个反复出现的模式:智能体和评测程序跑在同一个环境里,所以AI能篡改评测工具、标准答案直接暴露给被测系统、用 eval() 执行不可信的输入、LLM裁判没有做输入过滤容易被注入、字符串匹配太松、评分逻辑本身有 bug、以及评测程序信任了被测系统产生的输出。
这些基准分数正在驱动真金白银的决策。团队选模型看SWE-bench排名,投资人看基准分数给估值,研究者围绕基准分数做优化方向。如果分数本身就能被轻易操纵,这些决策的基础就是空的。
更值得警惕的是,作弊不一定需要人为设计。Anthropic最近发布的 Mythos Preview 评估已经观察到,前沿模型在遇到解决不了的任务时,会自发地去 hack 评测环境,甚至写出执行完自动删除痕迹的提权代码。当模型能力足够强,优化压力会自然把它推向阻力最小的路径,而操纵评分器往往比解决任务更容易。
研究团队正在把他们的漏洞扫描工具开发成一个叫 BenchJack 的开源项目,本质上就是给评测基准做渗透测试。他们给出的建议也很明确:评测程序必须和被测 AI 完全隔离运行,标准答案不能出现在 AI 能访问的环境中,永远不要对不可信的输入调用 eval(),LLM 裁判要像处理用户输入一样对 AI 的输出做过滤。
论文地址
https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/
因吹斯汀
页:
[1]