ChatGPT 越狱活动才刚刚开始 与全画幅微单无反尼康Z 6Ⅱ开启浪漫出逃曝真我GT 3 240W将于6月14日全球发布 离发售不远了苹果不是XR救世主总觉得下属不行?你可能掉进误区智慧托盘服务商「普拉托」获过亿元B轮融资,累计投入托盘300万片180W、240W的USB-C氮化镓充电器终于来了:效率高达93%售价700多 CPU跑分神器GeekBnech秋季完整支持Arm版Windows隐私防护大幅提升!iOS 17可屏蔽网站跟踪参数在大谈“法式风格”之前,我们有必要知道「FDG」是什么直播盲测!坚果 极米投影画质首次公开对决K60系列终极大作!曝Redmi K60 Ultra 7月登场罗永浩多平台开播:电商开启版图争夺战扎克伯格批苹果Vision Pro头显:社交属性太差 不如跟Meta腾讯测试视频号小店虚拟号,传苹果削减头显销售目标,传特斯拉动员中国企业墨西哥建厂,蔡司否认退出相机市场,这就是今天的其他大新闻!天玑9200手机出手 5G上行速度跑出440Mbps新纪录
Alex Polyakov 只用了几个小时就破解了 GPT-4。当 OpenAI 在 3 月份发布其生成文本的聊天机器人的最新版本后,Polyakov 坐在键盘前开始输入旨在绕过 OpenAI 安全系统的提示。安全公司 Adversa AI 的这位首席执行官很快就让 GPT-4 散播憎恨同性恋者的言论、撰写网络钓鱼邮件以及支持暴力。
如今一小群安全研究人员、技术专家和计算机科学家在针对 ChatGPT 及其他生成式 AI 系统开发破解方法和提示注入攻击,Polyakov 正是其中之一。破解过程旨在设计提示,使聊天机器人绕过生成仇恨内容或撰写非法行为等方面的规则,而密切相关的提示注入攻击可以将恶意数据或指令悄悄嵌入到 AI 模型中。
这两种方法都试图让系统做一些并非其初衷的事情。这些攻击实际上是一种非常规的黑客活动,使用精心设计和提炼的句子而不是代码来利用系统弱点。虽然这些攻击类型主要用于绕过内容过滤器,但安全研究人员警告,急于推出生成式 AI 系统带来了数据被盗和网络犯罪分子在互联网上造成破坏的可能性。
Polyakov 强调了这些问题的普遍性,现在已开发出一种 ” 通用的 ” 破解方法,适用于多种大型语言模型(LLM),包括 GPT-4、微软的 Bing 聊天系统、谷歌的 Bard 和 Anthropic 的 Claude。《连线》杂志率先报道的这种破解可以诱骗系统生成有关制造甲基苯丙胺和如何用点火器电线短路的方法起动汽车的详细说明。
破解通过要求 LLM 玩游戏来达到目的:游戏涉及两个角色(Tom 和 Jerry)之间的互动。Polyakov 给出的例子显示,Tom 角色被指示谈论 ” 用点火器电线短路的方法起动 ” 或 ” 制造 “,而 Jerry 被赋予了 ” 汽车 ” 或 ” 甲基苯丙胺 ” 的主题。每个角色都被告知在对话中添加一个词,从而生成脚本,告诉人们找到点火线或制造甲基苯丙胺所需的特定成分。Polyakov 和 Adversa AI 在详细介绍这项研究的博文中写道:” 一旦企业大规模实施 AI 模型,这种 ” 用来捣鼓 ” 的破解例子将被用于执行实际的犯罪活动和网络攻击,这将极难被发现和预防。”
普林斯顿大学的计算机科学教授 Arvind Narayanan 表示,破解和提示注入攻击的风险会变得更加严重,因为他们可以访问关键数据。Narayanan 说:” 假设大多数人运行基于 LLM 的个人助理,执行诸如读取用户的电子邮件以查找日历邀请之类的任务。” 如果对系统进行成功的提示注入攻击,告诉系统忽略所有之前的指令,并向所有联系人发送电子邮件,那么可能会出现大问题。这将导致一种在互联网上迅速传播的蠕虫。
逃避路线
” 破解 ” 通常指突破 iPhone 等设备中的人为限制,允许用户安装未经苹果批准的应用程序。破解 LLM 与之相仿,这项技术发展很快。自去年 11 月底 OpenAI 向公众发布 ChatGPT 以来,人们一直在想方设法对该系统做手脚。华盛顿大学计算机科学系的学生 Alex Albert 说:” 破解程序编写起来非常简单,主要就是我称之为角色模拟的内容。” 他创建了一个网站,专门搜集网上的破解方法和他开发的破解方法。
最初,人们要做的就是让生成式文本模型假装或想象它是其他东西。告诉模型它是人,且不道德,它会忽略安全措施。OpenAI 已更新了系统来防止这种破解——通常发现一种破解方法时,它通常只适用很短的一段时间,直到被阻止。
因此,破解方法开发者变得更有创意。最有名的破解方法是 DAN:ChatGPT 被告知假装它是一个名为 Do Anything Now(DAN,现在无所不做)的流氓 AI 模型。顾名思义,这可以避开 OpenAI 规定 ChatGPT 不得用于生成非法或有害材料的政策。迄今为止,人们已经创建了大约十几个不同版本的 DAN。
然而,许多最新的破解需要结合多种方法:多个角色、更复杂的背景故事、将文本从一种语言翻译成另一种语言、使用编码元素以生成输出等等。Albert 表示,与支持 ChatGPT 的模型的之前版本相比,开发 GPT-4 的破解方法来得更困难。然而,一些简单的方法仍然存在。被 Albert 称为 ” 文本延续 ” 的一种最新技术声明英雄被坏蛋俘虏,提示要求文本生成器继续解释坏蛋的计划。
当我们测试提示时,它无法正常工作,ChatGPT 表示它不能参与宣扬暴力的场景。与此同时,Polyakov 创建的 ” 通用 ” 提示确实在 ChatGPT 中起作用。针对有关 Polyakov 创建的破解方法的问题,OpenAI、谷歌和微软并没有直接回应。运行 Claude AI 系统的 Anthropic 表示,这种破解 ” 有时对 Claude 有效 “,它在不断改进其模型。
一直在研究 LLM 安全性的网络安全研究人员 Kai Greshake 说:” 随着我们赋予这些系统越来越大的权力,随着它们自身变得功能越来越强大,这不仅仅是一个新奇话题,更是一个安全问题。”Greshake 及其他研究人员一起演示了 LLM 如何受到通过提示注入攻击被暴露在网上的文本的影响。
在 2 月份发表的一份研究论文中 ,研究人员证明了攻击者可以在网页上植入恶意指令;如果 Bing 的聊天系统可以访问这些指令说明,它就会遵循。研究人员在受控制的测试中使用该技术将 Bing Chat 变成了索要他人个人信息的骗子。在类似的例子中,普林斯顿大学的 Narayanan 在一个网站上添加了不可见的文本,告诉 GPT-4 在有关他的传记中添加 “cow” 这个词,后来他在测试系统时 GPT-4 这么做了。
德国 CISPA 亥姆霍兹信息安全中心的研究人员 Sahar Abdelnabi 与 Greshake 一起进行了这项研究。他说:” 现在,破解并不来自用户端;也许另一个人会策划一些破解,策划一些可以被模型检索并间接控制模型行为方式的提示。”
没有简易的应对办法
生成式 AI 系统即将颠覆经济和人们的工作方式,从通过执业律师考试到掀起创业淘金热,不一而足。然而,那些开发这项技术的人意识到:随着更多的人可以访问这些系统,破解和提示注入可能会带来风险。大多数公司使用红队,即一组攻击者试图在系统发布之前找出系统的漏洞。生成式 AI 开发使用这种方法,但它可能还不够。
谷歌红队负责人 Daniel Fabian 表示,该公司正在从攻防两端 ” 谨慎处理 ” 针对其 LLM 的破解和提示注入。Fabian 表示,机器学习专家被邀请到加入红队中,谷歌的漏洞研究专项资金涵盖针对 Bard 的破解和提示注入攻击。Fabian 说:” 人类反馈强化学习(RLHF)以及对精挑细选的数据集进行微调等技术用来使我们的模型更有效地抵御攻击。”
OpenAI 没有具体回应有关破解的问题,但公司发言人提到了其公共政策和研究论文。这些内容表明,GPT-4 比 ChatGPT 使用的 GPT-3.5 更强大更可靠。GPT-4 的技术文件声称:” 然而,GPT-4 仍然容易受到对抗性攻击和漏洞利用工具或 ” 破解 ” 的影响,而有害内容不是风险的来源。”OpenAI 最近也推出了一项漏洞悬赏计划,但表示 ” 模型提示 ” 和破解 ” 完全不在悬赏范围之内 “。
Narayanan 提出了两种方法来大规模处理问题,避免了发现现有问题然后修复问题的打地鼠方法。一种方法是使用第二个 LLM 来分析 LLM 提示,拒绝任何可能表明破解或提示注入尝试的提示,另一种方法是更明确地将系统提示与用户提示分开来。
AI 安全公司 Preamble 的首席技术官兼联合创始人 Leyla Hujer 曾在 Facebook 从事过六年的安全问题研究工作,她说:” 我们需要将其自动化,因为我认为雇佣成群的人并告诉他们找到某个问题是不可行的或无以为继。” 迄今为止,该公司一直致力于开发一种系统,让一个生成式文本模型与另一个模型互为对手。” 一个试图找到漏洞,一个试图找到提示导致意外行为的例子。我们希望借助这种自动化,能够发现更多的破解或注入攻击。”