寂静回声 发表于 3 天前

多个冒号就能骗到AI

在开头加上这样的词——“Solution:”、“Thought process:”、甚至一个“:”,就能让模型误以为后面是正确答案?

这项研究来自腾讯AI Lab、普林斯顿大学等机构,具体发现包括:
- 上述开头词就像“万能钥匙”,让模型误以为后面是正确答案。即使模型啥都没看清,只看提示词,也会打高分。
- 所有大模型都中招:包括GPT-4o、Claude-4、Qwen2.5等。在标准数据集上,虚假正面率(FPR)高达90%,不管是数学题还是通识题。
如此现象,在大模型身上,反而更容易被骗,它们可能“自嗨”式验证自己的错误逻辑;而小模型有时因为“不过多思考”,反而更安全。

为了应对这个漏洞,研究者训练了一个新评分器——Master-RM。
它用了2万个专门设计的“骗分开头”作为负样本训练,让模型学会了识别这类空话。
这项研究不仅暴露了RL训练中“语言表演型评分系统”的脆弱性,也强调了:模型评估系统本身,也需要“对抗性训练”去抵御这些语言层面的“黑话”。

完整论文可见:arxiv.org/abs/2507.08794
https://s3.bmp.ovh/imgs/2025/07/18/a407983341b36da6.jpg
https://s3.bmp.ovh/imgs/2025/07/18/3d3e2d8b21172856.jpg
https://s3.bmp.ovh/imgs/2025/07/18/38c5a4db570d836c.jpg

页: [1]
查看完整版本: 多个冒号就能骗到AI