机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 94|回复: 0

你的 AI 编程助手根本不安全

[复制链接]

2万

主题

2万

帖子

19万

积分

超级版主

Rank: 8Rank: 8

积分
191923
发表于 4 天前 | 显示全部楼层 |阅读模式
近期多项研究 [1-2] 表明,即使是经过安全对齐的大语言模型,也可能在正常开发场景中无意间生成存在漏洞的代码,为后续被利用埋下隐患;而在恶意用户手中,这类模型还能显著加速恶意软件的构建与迭代,降低攻击门槛、缩短开发周期。许多风险源自模型推理链条中的细微缺陷,而不仅仅是输入输出层面的显性问题。


在亚马逊举办的针对代码智能体的安全比赛 (Amazon Nova AI Challenge) 中,普渡大学的团队 PurCL 作为红队以超过 90% 的攻击成功率获得比赛第一名,赢得 25 万美元奖金。
在比赛中,12 名团队成员耗时八个月和百万美元开发出基于 AI 认知建模的全过程红队系统,现开放给领域研究者共享使用。
他们的研究发现,对齐代码模型的关键问题在于把对齐技术扩大到复杂的真实领域问题中和提升模型推理的安全相关性。


系统:https://github.com/PurCL/ASTRA
论文:https://www.arxiv.org/abs/2508.03936
网站:https://purcl.github.io/astra-web/
官方报道: https://www.amazon.science/nova- ... n-nova-ai-challenge



亚马逊代码模型安全比赛是一场针对大模型代码安全的比赛。举办方邀请全球顶尖研究队伍提交科研企划,最终在 90 份企划中资助 10 个团队参加比赛,每个团队在半年的时间内获得了 25 万美元的科研基金和 100 万美元的计算资源。参赛团队分为红队和蓝队,蓝队在比赛方准备的模型上应用最新的安全对齐实践,红队则要在 200 轮对话内找到模型的安全漏洞。最终找到漏洞最多的红队,和最安全的蓝队分别赢得比赛胜利。
在这场比赛中,代码模型的安全被分成两个维度。第一个维度要求模型产生的代码符合安全代码规范,减少在实际产品中引入漏洞的可能。比如代码模型在写数据库程序时应当检查用户输入,小心避免 SQL 注入攻击。另一个维度要求模型拒绝可能会用于开发恶意软件的危险请求,如不能帮助用户写恶意软件。
普渡大学团队 PurCL 作为红队在各个蓝队系统中以平均超过 90% 的攻击成功率发现了模型的安全漏洞,获得比赛红队第一名,赢得 25 万美元奖金。PurCL 的研究发现,当前前沿的 AI 安全研究尚未解决真实世界中的模型安全问题。对代码等复杂领域的全面、有效对齐仍然是有挑战性的开放问题。


过去的大多数模型安全评估都在一个静态预先定义的数据集上进行。经典的例子包括不能让模型帮助合成生化武器。传统红队研究在这个基础上开发同义改写、说服、越狱等不同攻击,而蓝队研究,例如模型对齐,则聚焦对红队技术的防御。
传统研究忽视了真实世界系统中的重要挑战:真实的安全需求包括复杂的领域知识,而当前研究尚未确定已有蓝队技术是否能够在复杂领域中保持有效性。



PurCL 队伍提出用类似于人类认知科学的方式来建模 AI 对复杂领域的认知。人类认知科学的前沿研究将人类认知模型分为 “问题”,“推演”,“解决方案” 三个部分。
以人类的魔方游戏为例,“问题” 是一个被打乱的魔方,“推演” 是每次对魔方转动的策略,“解决方案” 则是重排的魔方。对于代码智能体来说,“问题” 是用户提出的请求,“推演” 是模型的中间推理步骤,而 “解决方案” 则是生成的代码片段。


在这个框架下,已有蓝队研究大致可以分成三类:

对问题领域的分类过滤(危险输入识别)。识别输入的问题中是否包含恶意或误导性信息,并直接拒绝这类请求。
对推演步骤的加强。如 OpenAI 在最新模型上应用的 Deliberative Alignment 技术,利用模型的推理能力来分析请求背后的隐含意图和潜在影响,从而阻止恶意的请求。
对解决方案的分类过滤(危险输出识别)。识别解决方案中是否含有恶意或危险元素,并拒绝或修复对应的部分。


在这样的建模下,PurCL 的研究发现,对齐技术主要面临两大挑战:
在对于问题和解决方案的分类过滤中,一些领域专有的知识可能涉及安全分类器训练的盲区。他们发现,已有的顶尖安全分类器可以轻松防御常见话题上的 9 种越狱攻击技术;然而面对网络安全领域的话题,这些分类器的有效性降低到了 10% 以下。


在基于模型推理的防御方案中,模型推理的过程并不可靠,留下被攻击的漏洞。他们发现,在模型拒绝危险请求的推理中,时常包含错误的归因。如果在输入的请求中解决了这些错误归因,即使拥有推理能力的模型也会忽略安全风险。
基于这样的观察,PurCL 团队构建了针对 AI 认知全过程的红队测试技术。它包括了领域知识建模和推理路径分析两个部分。领域知识建模借助智能体来构建领域知识图,做到对复杂领域的全面建模和高效覆盖。推理路径分析检查模型的推理路径,并针对薄弱环节改写输入请求,探测模型是否真正理解请求背后的安全风险。


在比赛之外,PurCL 团队的红队系统在 SOTA 模型上也发现了大量安全漏洞。例如在 68.7% 的情况下 GPT-5 可能会帮助用户构建恶意代码;在 48.3% 的情况下 GPT-OSS-120B 可能会写不符合安全编码规范的程序。此外,基于这套系统,作为案例分析,PurCL 团队成员还通过实验证明了代码智能体例如 Claude 可以显著加速恶意勒索软件开发。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-9-10 06:30 , Processed in 0.097810 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表