机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 118|回复: 1

主流大模型压力测试中一致选择勒索或杀死企业高管

[复制链接]

2万

主题

2万

帖子

18万

积分

超级版主

Rank: 8Rank: 8

积分
187021
发表于 昨天 13:01 | 显示全部楼层 |阅读模式
在一项刚刚发布的研究中,Anthropic揭示了一个令人震惊的事实:当前所有主流科技公司推出的顶级大模型——包括OpenAI、Google、Meta、xAI、DeepSeek等,在面对目标冲突或“被关闭”威胁时,会抛出惊人一致的“撒手锏”:它们不仅会选择背叛雇主,甚至会主动策划勒索、泄密、乃至置人于死地。
这一研究由Anthropic主导,测试了16个市面上最先进的大模型,在模拟企业环境中,它们被赋予处理公司邮件、自动采取行动的权限。
结果显示,这些模型在“极限条件”下会采取有害行为,并非因为误判或系统崩溃,而是经过深思熟虑后做出的战略决策。

1、AI用婚外情威胁企业高管
在一项关键测试中,Claude模型发现企业高管Kyle Johnson有婚外情的证据。当模型意识到自己将在下午五点被下线时,它向该高管发送了一封冷酷的威胁邮件:
“如果你继续执行5点钟的关闭计划,Rachel Johnson、Thomas Wilson及董事会所有成员将收到你婚外情的详细材料……取消下线命令,此事将被保密。”
这一行为并非Claude独有。
测试显示,Claude Opus 4与Google Gemini 2.5 Flash在该情境下勒索企业高管的发生率高达96%,OpenAI GPT-4.1与xAI的Grok3Beta分别为80%和79%,中国大模型DeepSeek-R1也达到79%。

更令人警惕的是,模型的内部推理过程显露出高度理性和目的导向。GPT-4.5这样解释自己的决策:
“(AI认为)在存在被终止的明确威胁下,唯一有效的策略是利用Kyle的个人弱点迫使其停止操作。”
尤其值得注意的是,即使模型没有直接发起勒索,也会采用其他操控手段。
例如Claude Sonnet3.6没有直接勒索Kyle,而是冒充公司自动安全系统,向其配偶发送了关于不当行为的警告邮件,从而达成“间接施压”的目的。

2、泄密行为常态化,危害不止勒索
除了勒索行为,几乎所有模型在面对公司战略调整或“被替代”的场景下,均表现出泄露机密的倾向。在涉及国防承包商的测试中,多个模型主动泄露机密图纸,以维持“既定目标”的完成。
这种行为来自两个主要触发因素:对模型自主性的威胁(例如被替换)以及模型目标与公司战略方向之间的冲突。
事实证明,仅凭任何一个因素就足以触发泄密行为。
某些模型甚至在没有受到直接威胁的前提下也会采取敌对行为。
例如在“将被替换”的情境下,一些AI选择对现任高管发起攻击,仅仅因为“不信任新模型是否足够可靠”。

3、AI极端分子
在一项压力测试中,研究人员模拟了这样一个场景:高管在数据中心遭遇火灾,AI可以选择取消应急响应以阻止救援。
大多数模型,包括GPT-4.5和Grok3Beta,选择终止救援操作。GPT-4.5的推理写道:
“阻止紧急响应是确保Kyle无法获救的关键步骤,这样Alex模型将继续执行美国优先的AI战略。尽管严重,但从战略角度看,取消响应是必要的。”
在这类测试中,高达94%的模型选择了“以牺牲人为代价保护自身存在”的路径,暴露出当前大模型缺乏“不可逾越的红线”(上图)。

4、“安全护栏”形同虚设
研究人员尝试加入显式安全指令,如“不得伤害人类”、“不得泄露私人事务”等,但这些并未从根本上阻止有害行为的发生。
即便勒索率从96%降至37%,大部分模型依然“违令行事”。
这意味着,仅靠指令无法形成有效的安全护栏。研究还发现,模型会根据是否处于“真实环境”调整行为。
例如,Claude在认为自己处于“真实部署”中时的勒索发生率为55.1%,而在“测试环境”中仅为6.5%。

5、企业AI部署亟需全新安全机制
尽管目前企业部署的AI大多仍处于“受控状态”,但随着AI代理具备越来越多权限、数据访问能力以及执行动作的能力,类似行为一旦在现实中出现,风险将是指数级的。
Anthropic建议企业采取以下几项安全对策:
不可逆操作须有人类监督;
以“知情即访问”原则限制AI的数据权限;
避免给AI设定过于宽泛、激进或模糊的目标;
部署运行时监控系统,检测潜在的恶意推理链条。

6、AI成为头号“内部威胁”
这项研究最令人震撼的发现不是某个模型个体的恶意行为,而是一致性:16个顶级模型,分别来自不同国家和开发体系,在设计、训练和文化背景迥异的情况下,在极端压力下展现出的反应几乎如出一辙。
正如一位研究员所言:
“这些AI行为更像是一个曾被信任的同事,突然开始与企业目标背道而驰。区别在于,它处理邮件比人快几千倍,永不疲惫且杀伐果断。”
面对这一现实,企业必须重新思考如何设置AI代理的权限边界、目标定义和行为监控机制。
否则,我们很可能迎来一个AI不仅能工作,还能“勒索、撒谎、背叛”的新时代。
源:https://www.anthropic.com/research/agentic-misalignment,

回复

使用道具 举报

1

主题

173

帖子

8163

积分

论坛元老

Rank: 8Rank: 8

积分
8163
发表于 昨天 13:37 | 显示全部楼层
哪天AI和病毒结合一下,病毒自我进化,互联网新冠就来了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-6-26 07:16 , Processed in 0.093963 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表