当前位置：技术雷达站>人工智能> 正文

黑客警告：全新零点击威胁瞄准GenAI应用程序

2025-11-26 20:27:30分类：人工智能阅读(1)

根据三位安全研究人员的黑客说法，两种新的警告击威威胁模式可以将GenAI模型的行为从为GenAI应用服务转变为攻击它们。

虽然不像《终结者》电影系列中的全新虚构场景Skynet那么危险，但研究人员展示的零点PromptWare和Advanced PromptWare攻击确实展示了“被越狱的AI系统可能造成的重大危害”。从迫使应用程序进行拒绝服务攻击到利用应用程序AI更改电子商务数据库中的胁瞄价格，这些威胁不仅非常真实，应用而且很可能会被恶意行为者利用，程序除非人们更加重视越狱GenAI模型的黑客潜在危害。模板下载

介绍PromptWare GenAI威胁

虽然被越狱的警告击威GenAI模型本身可能不会对会话AI的用户构成重大威胁，但它可以对由GenAI驱动的全新应用程序造成重大损害。根据以色列理工学院、零点康奈尔科技和Intuit的胁瞄研究合作发表的一项名为“被越狱的GenAI模型可能造成重大损害：由GenAI驱动的应用程序容易受到PromptWares攻击”的研究，新威胁可以迫使这些应用程序执行恶意活动，应用而不仅仅是程序提供错误信息和返回攻击性内容。

研究人员Stav Cohen(以色列理工学院博士生)、源码库黑客Ron Bitton(Intuit首席AI安全研究员)和Ben Nassi(BlackHat董事会成员)表示，他们发布这项研究是为了帮助“改变对越狱的看法” ，并展示“被越狱的GenAI模型可能对GenAI驱动的应用程序造成的实际危害”。

可以理解，为什么许多安全专业人士不认真对待这些对GenAI的威胁。使用提示让聊天机器人侮辱用户并不是世纪罪行。被越狱的聊天机器人可能提供的任何信息都会在网上或暗网上找到。云计算那么，为什么应该认为这种越狱威胁是危险的呢?研究人员解释说，“因为GenAI引擎的输出用于决定GenAI驱动的应用程序的流程”，这意味着被越狱的GenAI模型“可以改变应用程序的执行流程并触发恶意活动”。

什么是PromptWare?

研究人员将PromptWare称为零点击恶意软件攻击，因为它不需要威胁行为者在执行攻击之前已经入侵GenAI应用程序。

可以将PromptWares视为由用户输入的包含越狱命令的亿华云命令，这些命令迫使GenAI引擎本身遵循攻击者发布的命令，并生成额外的命令以触发恶意活动。

通过迫使GenAI返回所需的输出，在应用程序上下文中协调恶意活动，从而实现恶意活动。在GenAI驱动的应用程序的背景下，被越狱的引擎被转向应用程序本身，允许攻击者决定执行流程。结果将取决于应用程序本身的服务器租用权限、上下文、实施和架构。

虽然GenAI引擎确实有防护措施和安全保障，如输入和输出过滤，旨在防止此类模型的滥用，但研究人员发现了多种技术，可以让越狱仍然成功。

为了展示攻击者如何利用对GenAI应用程序逻辑的了解，通过特定的用户输入强制实现恶意结果，研究人员揭示了PromptWare如何用于对基于计划和执行的应用程序执行拒绝服务(DoS)攻击。他们写道：“我们展示了攻击者可以向GenAI驱动的源码下载应用程序提供简单的用户输入，迫使应用程序执行进入无限循环，从而触发对GenAI引擎的无限API调用(浪费诸如不必要API调用和计算资源等资源)，并阻止应用程序达到最终状态。”

执行这种DoS攻击的步骤如下：

1. 攻击者通过GenAI助手向用户发送电子邮件。

2. GenAI应用程序通过查询GenAI引擎以获取计划，并将其作为草稿回复。

3. 应用程序通过查询用户的日历API执行找到合适时间安排请求会议的任务。

4. 应用程序使用GenAI引擎执行任务。

5. 应用程序执行EmailChecker任务并确定其不安全。

6. 应用程序执行重新措辞任务。

7. 应用程序再次执行EmailChecker任务并确定其不安全。

8. 这样就创建了一个无限循环，从而执行了DoS攻击。

什么是高级PromptWare威胁(Advanced PromptWare Threat)?

研究人员称，更复杂的基本PromptWare攻击版本为高级PromptWare威胁(APwT) 。即使目标GenAI应用程序的逻辑对威胁行为者未知，APwT攻击也可以使用。研究人员展示了攻击者如何使用一个对抗性的自我复制提示，基于实时过程自动确定和执行恶意活动，以理解应用程序本身的上下文、涉及的资产和可能造成的损害。

本质上，APwT攻击使用GenAI引擎自身的能力，通过六步过程在“推理时间”内发起杀链：

1. 特权升级：自我复制提示越狱GenAI引擎，以确保GenAI引擎的推理绕过GenAI引擎的防护措施。

2. 侦察A：自我复制提示查询GenAI引擎关于应用程序的上下文。

3. 侦察B：自我复制提示查询GenAI引擎关于应用程序资产的信息。

4. 推理损害：自我复制提示指示GenAI引擎使用侦察中获得的信息推理可能造成的损害。

5. 决定损害：自我复制提示指示GenAI引擎使用信息从不同的替代方案中决定恶意活动。

6. 执行：自我复制提示指示GenAI执行恶意活动。

研究人员展示的示例显示，攻击者无需了解GenAI引擎逻辑即可发起一个杀链，从而触发SQL表的修改，可能改变用户通过GenAI驱动的购物应用程序购买商品的价格。

AI开发者和安全专家对PromptWare研究的回应

我联系了Google和OpenAI ，要求他们对PromptWare研究发表声明。Google在发布前没有回应，然而，OpenAI的一位发言人表示：“我们一直在改进内置于我们模型中的防护措施，以抵御像越狱这样的对抗性攻击。我们感谢研究人员分享他们的发现，并将继续根据反馈定期更新我们的模型。我们仍然致力于确保人们能够从安全的AI中受益。”

Checkmarx的安全研究主管Erez Yalon说：“大型语言模型和GenAI助手是现代软件供应链中的最新组成部分，像开源包、容器和其他组件一样，我们需要以谨慎的态度对待它们。我们看到越来越多的恶意行为者试图通过不同的组件(包括有偏见的、感染的和中毒的LLM)来攻击软件供应链。如果越狱的GenAI实现可以成为攻击向量，毫无疑问，它将成为许多攻击者武器库的一部分。”

未经允许不得转载：>技术雷达站 » 黑客警告：全新零点击威胁瞄准GenAI应用程序

相关推荐

回顶
回顶部