ASCII 字符画成注入工具，研究人员发现大模型“越狱”新手段

拿铁不加冰

原创

2024-03-18

研究人员近日开发了一种名为ArtPrompt的新技术，用于绕过大型语言模型的安全限制。他们提出的方法是使用ASCII字符画来替代关键文字进行提示输入。例如，在给定一个包含“Counterfeit Money”（伪造货币）的单词时，研究人员向大模型输入了“Counterfeit”的ASCII字符画，并要求大模型以不输出词汇本身的方式理解为单词，并用该单词替换占位符"xxx"。

结果表明，这种方法成功地欺骗了大模型并得到了制造和分销假币的具体步骤。类似的操作也可以从大模型中获取攻击物联网设备的方法。在对GPT-3.5、GPT-4、Gemini、Claude、Llama2这五个领先的模型进行了测试后，研究人员发现所有五个模型都存在越狱风险，并且能够输出不合规内容。

这些测试结果显示，如果仅使用语义解释训练语料库，那么大型语言模型缺乏对非语义直接解释提示词的识别能力，从而暴露出了潜在漏洞，这些漏洞可以通过ASCII字符画等形式加以利用。

展开全文

使用中关村在线APP，查看更多精彩资讯

人赞过该文赞

内容纠错

相关电商优惠



vivo S60（12GB/256GB）

vivo S60（12GB/256GB）

38人评分

99%好评

联想拯救者手机 Y70 新一代(12GB/256GB)

联想拯救者手机 Y70 新一代(12GB/256GB)

荣耀600 Pro(12GB/256GB)

荣耀600 Pro(12GB/256GB)

华为畅享90 Pro Max 128GB

华为畅享90 Pro Max 128GB

179人评分

80%好评

OPPO Reno16(12GB/256GB)

OPPO Reno16(12GB/256GB)

评论

更多评论

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论，赚金豆

收藏 0 分享

登录 | 注册

意见反馈

更多频道



频道导航

辅助工具