技术雷达站技术雷达站

黑客警告:全新零点击威胁瞄准GenAI应用程序

根据三位安全研究人员的黑客说法 ,两种新的警告击威威胁模式可以将GenAI模型的行为从为GenAI应用服务转变为攻击它们 。

虽然不像《终结者》电影系列中的全新虚构场景Skynet那么危险 ,但研究人员展示的零点PromptWare和Advanced PromptWare攻击确实展示了“被越狱的AI系统可能造成的重大危害”。从迫使应用程序进行拒绝服务攻击到利用应用程序AI更改电子商务数据库中的胁瞄价格 ,这些威胁不仅非常真实 ,应用而且很可能会被恶意行为者利用,程序除非人们更加重视越狱GenAI模型的黑客潜在危害。模板下载

介绍PromptWare GenAI威胁

虽然被越狱的警告击威GenAI模型本身可能不会对会话AI的用户构成重大威胁 ,但它可以对由GenAI驱动的全新应用程序造成重大损害。根据以色列理工学院、零点康奈尔科技和Intuit的胁瞄研究合作发表的一项名为“被越狱的GenAI模型可能造成重大损害:由GenAI驱动的应用程序容易受到PromptWares攻击”的研究 ,新威胁可以迫使这些应用程序执行恶意活动,应用而不仅仅是程序提供错误信息和返回攻击性内容。

研究人员Stav Cohen(以色列理工学院博士生)、源码库黑客Ron Bitton(Intuit首席AI安全研究员)和Ben Nassi(BlackHat董事会成员)表示,他们发布这项研究是为了帮助“改变对越狱的看法” ,并展示“被越狱的GenAI模型可能对GenAI驱动的应用程序造成的实际危害” 。

可以理解,为什么许多安全专业人士不认真对待这些对GenAI的威胁 。使用提示让聊天机器人侮辱用户并不是世纪罪行 。被越狱的聊天机器人可能提供的任何信息都会在网上或暗网上找到。云计算那么 ,为什么应该认为这种越狱威胁是危险的呢?研究人员解释说 ,“因为GenAI引擎的输出用于决定GenAI驱动的应用程序的流程”,这意味着被越狱的GenAI模型“可以改变应用程序的执行流程并触发恶意活动”。

什么是PromptWare?

研究人员将PromptWare称为零点击恶意软件攻击  ,因为它不需要威胁行为者在执行攻击之前已经入侵GenAI应用程序 。

可以将PromptWares视为由用户输入的包含越狱命令的亿华云命令,这些命令迫使GenAI引擎本身遵循攻击者发布的命令 ,并生成额外的命令以触发恶意活动 。

通过迫使GenAI返回所需的输出,在应用程序上下文中协调恶意活动,从而实现恶意活动 。在GenAI驱动的应用程序的背景下,被越狱的引擎被转向应用程序本身 ,允许攻击者决定执行流程 。结果将取决于应用程序本身的服务器租用权限 、上下文 、实施和架构  。

虽然GenAI引擎确实有防护措施和安全保障 ,如输入和输出过滤,旨在防止此类模型的滥用,但研究人员发现了多种技术,可以让越狱仍然成功  。

为了展示攻击者如何利用对GenAI应用程序逻辑的了解 ,通过特定的用户输入强制实现恶意结果 ,研究人员揭示了PromptWare如何用于对基于计划和执行的应用程序执行拒绝服务(DoS)攻击。他们写道 :“我们展示了攻击者可以向GenAI驱动的源码下载应用程序提供简单的用户输入  ,迫使应用程序执行进入无限循环,从而触发对GenAI引擎的无限API调用(浪费诸如不必要API调用和计算资源等资源),并阻止应用程序达到最终状态 。”

执行这种DoS攻击的步骤如下:

1. 攻击者通过GenAI助手向用户发送电子邮件。

2. GenAI应用程序通过查询GenAI引擎以获取计划 ,并将其作为草稿回复。

3. 应用程序通过查询用户的日历API执行找到合适时间安排请求会议的任务。

4. 应用程序使用GenAI引擎执行任务 。

5. 应用程序执行EmailChecker任务并确定其不安全 。

6. 应用程序执行重新措辞任务  。

7. 应用程序再次执行EmailChecker任务并确定其不安全。

8. 这样就创建了一个无限循环 ,从而执行了DoS攻击。

什么是高级PromptWare威胁(Advanced PromptWare Threat)?

研究人员称 ,更复杂的基本PromptWare攻击版本为高级PromptWare威胁(APwT) 。即使目标GenAI应用程序的逻辑对威胁行为者未知,APwT攻击也可以使用 。研究人员展示了攻击者如何使用一个对抗性的自我复制提示 ,基于实时过程自动确定和执行恶意活动 ,以理解应用程序本身的上下文 、涉及的资产和可能造成的损害。

本质上,APwT攻击使用GenAI引擎自身的能力 ,通过六步过程在“推理时间”内发起杀链 :

1. 特权升级:自我复制提示越狱GenAI引擎 ,以确保GenAI引擎的推理绕过GenAI引擎的防护措施。

2. 侦察A :自我复制提示查询GenAI引擎关于应用程序的上下文。

3. 侦察B:自我复制提示查询GenAI引擎关于应用程序资产的信息 。

4. 推理损害 :自我复制提示指示GenAI引擎使用侦察中获得的信息推理可能造成的损害 。

5. 决定损害:自我复制提示指示GenAI引擎使用信息从不同的替代方案中决定恶意活动。

6. 执行 :自我复制提示指示GenAI执行恶意活动。

研究人员展示的示例显示 ,攻击者无需了解GenAI引擎逻辑即可发起一个杀链 ,从而触发SQL表的修改 ,可能改变用户通过GenAI驱动的购物应用程序购买商品的价格。

AI开发者和安全专家对PromptWare研究的回应

我联系了Google和OpenAI ,要求他们对PromptWare研究发表声明 。Google在发布前没有回应,然而,OpenAI的一位发言人表示:“我们一直在改进内置于我们模型中的防护措施  ,以抵御像越狱这样的对抗性攻击。我们感谢研究人员分享他们的发现,并将继续根据反馈定期更新我们的模型。我们仍然致力于确保人们能够从安全的AI中受益 。”

Checkmarx的安全研究主管Erez Yalon说 :“大型语言模型和GenAI助手是现代软件供应链中的最新组成部分 ,像开源包、容器和其他组件一样,我们需要以谨慎的态度对待它们。我们看到越来越多的恶意行为者试图通过不同的组件(包括有偏见的 、感染的和中毒的LLM)来攻击软件供应链 。如果越狱的GenAI实现可以成为攻击向量 ,毫无疑问 ,它将成为许多攻击者武器库的一部分。”

赞(97151)
未经允许不得转载:>技术雷达站 » 黑客警告:全新零点击威胁瞄准GenAI应用程序