研究人员近日开发了一种名为ArtPrompt的新技术,用于绕过大型语言模型的安全限制。他们提出的方法是使用ASCII字符画来替代关键文字进行提示输入。例如,在给定一个包含“Counterfeit Money”(伪造货币)的单词时,研究人员向大模型输入了“Counterfeit”的ASCII字符画,并要求大模型以不输出词汇本身的方式理解为单词,并用该单词替换占位符"xxx"。
结果表明,这种方法成功地欺骗了大模型并得到了制造和分销假币的具体步骤。类似的操作也可以从大模型中获取攻击物联网设备的方法。在对GPT-3.5、GPT-4、Gemini、Claude、Llama2这五个领先的模型进行了测试后,研究人员发现所有五个模型都存在越狱风险,并且能够输出不合规内容。
这些测试结果显示,如果仅使用语义解释训练语料库,那么大型语言模型缺乏对非语义直接解释提示词的识别能力,从而暴露出了潜在漏洞,这些漏洞可以通过ASCII字符画等形式加以利用。

评论
更多评论