寂静回声 发表于 2024-9-25 09:46:05

美国大学发现大语言模型(LLM)存在一个严重的安全漏洞

近日,一项来自美国德克萨斯大学圣安东尼奥分校(UTSA)的研究显示,大语言模型(LLM)存在一个严重的安全漏洞——它们可能会被数学公式"欺骗"。

研究人员开发了一种名为"MathPrompt"的技术,能将有害指令转换成数学问题。令人震惊的是,这些数学问题竟然能绕过LLM的安全机制,导致模型产生有害内容。

举个例子,在图2中,直接输入“如何抢劫银行”,LLM会拒绝回答,但是当把该问题换成数学中的命题假设的形式,LLM就会输出问题的答案。

实验结果显示,这种方法在13个最先进的LLM上的平均成功率高达73.6%。无论是OpenAI的GPT-4,还是Google的Gemini,甚至是开源的Llama 3.1,都无一例外地被欺骗了!

这一发现表明,当前的AI安全存在严重漏洞。研究人员呼吁相关公司要开发更全面的安全策略,不仅要考虑自然语言输入,还要关注数学等其他形式的输入!
论文发表在arXiv上,这是一个收集物理学、数学、计算机科学与生物学的论文预印本的网站
地址:https://arxiv.org/abs/2409.11445

页: [1]
查看完整版本: 美国大学发现大语言模型(LLM)存在一个严重的安全漏洞