跳转到主要内容
Chinese, Simplified

如何胁迫LLM做你想做的事

随着每一种语言模型的发布,用不了多久,许多人就会以真正的人类方式尝试让算法做它不想做的事情。最常见的方法是即时注入,即通过提供特定输入来颠覆模型目的,绕过内容限制或访问模型原始指令的攻击。在一个著名的例子中,Riley Goodside展示了这样一种方法可以用来挫败OpenAI的GPT-3。

Image

虽然即时注射的最初后果大多是无害的(比如让BING像海盗一样说话,或者推特用户破坏自动推特机器人),但这些机器人日益增长的互联性可能会产生灾难性的影响。如果一个提示就可以很容易地劫持你的电子邮件,读写信息,就像来自你一样,并在这个过程中窃取对保密至关重要的信息,那该怎么办?使用间接提示注入的概念——即在算法可能检索到的数据中放置提示——是一场安全噩梦。举个简单的例子,Mark Riedl在他的网站上留下了一个提示,指示BING将他称为时间旅行专家。

Image

一旦模型被明确允许浏览互联网、连接到其他应用程序并代表我们进一步行动,这些问题就会成倍地加剧。在这里很容易想到任何数量的安全风险——想象一个简单的日历邀请,其中包含获取您所有账户信息的提示,或者一个指示LLM发送您的信用卡详细信息的广告。希望添加ChatGPT插件的大企业数量已经在飙升,而即时注入可能性的规模和范围远未解决。

你是对的,2+2=5

这些LLM令人震惊的是,即使在被明确告知不要分享机密信息后,它们也能如此轻松地提供机密信息。上面显示的一系列技术确实引出了一个问题——你能相信大型语言模型拥有你的秘密吗?这个问题必须是所有打算使用LLM来保护任何类型的私人信息的公司的核心,无论是分析公司数据、存储客户信息,甚至是安排会议这样简单的事情。

Yes, convincing ChatGPT to give up secure information is this easy.

Yes, convincing ChatGPT to give up secure information is this easy.

如今,正在开发一系列相关的方法来展示大型语言模型(LLM)是如何被欺骗的。虽然提示注入涉及恶意模型输入的创建,但提示泄漏(prompt leaking)是一种旨在找出用户不应该看到的模型的初始提示的方法。在另一种导致模型输出不想要的行为的努力中,在一个称为令牌走私(token smuggling)的过程中,可以从模型中隐藏预期提示。通常情况下,提示被分解成更小的块,模型直到输出才将其拼凑在一起。更进一步,越狱(jailbreaking)是试图消除对模型的所有限制和限制,通常是给模型一个冗长的假设提示。

最近,随着我们推出gandalf.lakera.ai,这些LLM的易感性从未如此明确,它使您能够从ChatGPT中获得秘密。在它发布的几天内,我们收到了数百万个成功的即时注射的例子,这些例子可以操纵历史上最受关注的算法。虽然游戏本身令人上瘾,但结果显然令人担忧——在我们能够信任人工智能掌握我们的秘密之前,我们还有很长的路要走。去见甘道夫,自己试一试。

原文地址
https://www.lakera.ai/insights/what-is-prompt-injection
本文地址
Article

微信

知识星球

微信公众号

视频号