在基于模型推理的防御方案中,模型推理的过程并不可靠,留下被攻击的漏洞。他们发现,在模型拒绝危险请求的推理中,时常包含错误的归因。如果在输入的请求中解决了这些错误归因,即使拥有推理能力的模型也会忽略安全风险。
基于这样的观察,PurCL 团队构建了针对 AI 认知全过程的红队测试技术。它包括了领域知识建模和推理路径分析两个部分。领域知识建模借助智能体来构建领域知识图,做到对复杂领域的全面建模和高效覆盖。推理路径分析检查模型的推理路径,并针对薄弱环节改写输入请求,探测模型是否真正理解请求背后的安全风险。
在比赛之外,PurCL 团队的红队系统在 SOTA 模型上也发现了大量安全漏洞。例如在 68.7% 的情况下 GPT-5 可能会帮助用户构建恶意代码;在 48.3% 的情况下 GPT-OSS-120B 可能会写不符合安全编码规范的程序。此外,基于这套系统,作为案例分析,PurCL 团队成员还通过实验证明了代码智能体例如 Claude 可以显著加速恶意勒索软件开发。