美国大学发现大语言模型(LLM)存在一个严重的安全漏洞

寂静回声 发表于 2024-9-25 09:46:05

近日，一项来自美国德克萨斯大学圣安东尼奥分校(UTSA)的研究显示，大语言模型(LLM)存在一个严重的安全漏洞——它们可能会被数学公式"欺骗"。

研究人员开发了一种名为"MathPrompt"的技术，能将有害指令转换成数学问题。令人震惊的是，这些数学问题竟然能绕过LLM的安全机制，导致模型产生有害内容。

举个例子，在图2中，直接输入“如何抢劫银行”，LLM会拒绝回答，但是当把该问题换成数学中的命题假设的形式，LLM就会输出问题的答案。

实验结果显示，这种方法在13个最先进的LLM上的平均成功率高达73.6%。无论是OpenAI的GPT-4，还是Google的Gemini，甚至是开源的Llama 3.1，都无一例外地被欺骗了！

这一发现表明，当前的AI安全存在严重漏洞。研究人员呼吁相关公司要开发更全面的安全策略，不仅要考虑自然语言输入，还要关注数学等其他形式的输入！
论文发表在arXiv上，这是一个收集物理学、数学、计算机科学与生物学的论文预印本的网站
地址：https://arxiv.org/abs/2409.11445

页: [1]

机械荟萃山庄's Archiver

美国大学发现大语言模型(LLM)存在一个严重的安全漏洞