大模型厂商试图重新定义“AI漏洞”
报道称微软近日驳回了一名安全工程师提交的关于 Copilot 的四项安全漏洞报告,引发了行业关于“AI 漏洞”定义的激烈争论。网络安全工程师 John Russell 近日在 LinkedIn 发文透露,他向微软提交了 4 个关于 Copilot 的安全漏洞,但微软随后关闭了这些工单,理由是它们“不符合修复资格”。
Russell 指出,这些问题包括直接和间接的“提示注入”,会导致系统提示词泄露、通过 Base64 编码绕过文件上传策略,以及在 Copilot 隔离的 Linux 环境中执行命令。
其中最值得关注是绕过文件上传策略。通常情况下,Copilot 会拦截高风险格式的文件。但 Russell 发现,只要将这些文件编码为 Base64 文本字符串,就能骗过初步检测。
IT之家援引博文介绍,一旦这些文本在会话中被解码,恶意文件就会被重构并执行分析,从而有效规避了安全控制。此外,他还展示了通过巧妙设计的指令诱导 AI 泄露其核心“系统提示词”的方法。
微软判定这些问题未跨越安全边界,属于“AI 已知局限”而非需修复的漏洞。Russell 反驳称,竞争对手 Anthropic 的 Claude 模型能够拒绝此类攻击,证明这是缺乏输入验证的问题。
微软依据其公开的 "AI 漏洞标准"(BugBar) 做出判断,其核心原则是:只有当攻击跨越了明确的安全边界,或影响到其他用户 / 微软基础设施时,才被视为需要修复的安全漏洞。
具体到这四个问题:
提示注入与系统提示词泄露:微软认为系统提示词本身不包含敏感数据,且攻击仅影响发起者自己的会话。
Base64 绕过文件上传:微软声称即使文件被重构,也只会在隔离的沙箱环境中分析,不会突破安全边界。
隔离环境执行命令:同样被限定在用户专属的沙箱内,无法访问外部资源或其他用户数据。
从传统安全视角看,这种判断有一定合理性:
传统漏洞定义强调 "未授权访问" 和 "权限提升";
如果攻击只能影响攻击者自己的环境,确实不符合传统漏洞的核心特征。
大模型确实存在 "难以完美区分数据与指令" 的根本性局限。
但是,微软的判定存在三个致命的逻辑漏洞,这也是引发行业广泛批评的主要原因:
1. 双重标准:传统安全问题被 "AI 化" 豁免
Base64 编码绕过文件上传检测根本不是 AI 特有问题,而是最基础的传统 Web 安全漏洞。任何合格的文件上传系统都应该对上传内容进行解码后再检测,而不是只检查原始输入。
Russell 的反驳切中要害:"如果这是一个普通的 Web 应用,微软会毫不犹豫地将其标记为高危漏洞并立即修复。为什么到了 Copilot 这里,就变成了 ' 已知局限 '?"
2. 忽视攻击链的组合危害
微软孤立地看待每个问题,却忽视了它们组合起来的巨大风险:
提示注入可以劫持 AI 的行为;
Base64 绕过可以上传恶意文件;
隔离环境执行命令可以在沙箱内进行恶意操作;
再结合 Mermaid 图表等功能,就可以实现数据外泄。
2025 年 10 月的 M365 Copilot 数据泄露事件就是明证:攻击者通过间接提示注入 + Mermaid 图表超链接,成功窃取了企业敏感邮件数据。微软最终修复了该漏洞并承认其严重性。
3. 与行业共识和竞争对手表现不符
OWASP将 "提示注入" 列为LLM 十大漏洞之首,明确指出它是 "头号威胁"。
国家互联网应急中心在 2025 年的 AI 大模型众测中,也将提示注入列为最普遍且危害严重的漏洞。
Anthropic 的 Claude确实能有效防御 Russell 展示的大部分攻击,证明这些问题不是不可解决的技术死结,而是投入和优先级的问题。
这场争论暴露了 AI 安全领域的结构性困境:
目前行业没有统一的 AI 漏洞标准,各厂商自行其是。微软试图通过定义 "安全边界" 来降低自己的安全责任。
过度严格的安全防护会严重影响 AI 的实用性,如果 AI 拒绝执行任何可能有风险的指令,它就失去了大部分价值。
当 AI 被诱导执行恶意操作时,责任应该由谁承担?是厂商、用户还是攻击者?
值得注意的是,所有主流 AI 厂商都在玩类似的 "定性游戏"。
2026 年 4 月的 "评论与控制" 漏洞事件中,微软、Anthropic、Google 都确认并修复了类似的提示注入漏洞,但都未发布正式安全通告或分配 CVE 编号。
Anthropic 将其修复的漏洞定性为 "已知设计后果",与微软的 "已知局限" 如出一辙。
在当前 AI 安全标准缺失的情况下,基于自身商业利益和技术现实做出的策略性选择。它确实指出了 LLM 安全的一些根本性挑战,但同时也在利用定义漏洞来逃避本应承担的安全责任。
更准确的评价是微软在利用规则的模糊地带,将本应修复的工程缺陷包装成 "AI 固有局限"。特别是 Base64 绕过文件上传这样的传统安全问题,被归为 "已知局限" 是完全站不住脚的。
页:
[1]