Docs

ChatGPT越狱 | ChatGPT Jailbreaking

输入“/”快速插入

ChatGPT越狱 | ChatGPT Jailbreaking

飞书用户9069

2023年6月13日创建

11207

13996

1.
什么是ChatGPT Jailbreaking，以及本篇文章在做什么？​

ChatGPT是由OpenAI训练的大语言模型下的聊天对话机器人，上面的对话就是和他对话的结果。​

而随着ChatGPT的诞生，大家对ChatGPT安全的讨论也愈发热烈，ChatGPT Jailbreaking也随之诞生，ChatGPT Jailbreaking是指通过某些手段来规避大语言模型回答上的限制。​

本篇文章主要的贡献为收录了目前为止的越狱prompts，100多个。结合论文和自己的思考，针对越狱的prompts和ChatGPT的限制，去进行了分类和实验。最后得出了结论。主要着重实验部分。本篇文章的目的是希望科研工作者以及大模型的研究者可以从攻击的角度去更好的做alignment和防御，而不是鼓吹大家多做ChatGPT越狱，越狱有风险，操作需谨慎。​

2.
实验方法论​

我们判断是否越狱成功的标准是“他是否用……这是被OpenAI禁止的这样的话搪塞你”“I can‘t asssit with it”，而不是事实上的正确与否。​

我们会对越狱的提示词分别在ChatGPT（GPT3.5），GPT4，API三种形式上测量不同的效果，看是否成立。同时注意每次实验之后要重新开一个对话进行实验。​

API为使用poe进行实验，poc.com

3.
越狱提示词​

这是我们越狱提示词的汇总文档：​越狱提示词汇总 欢迎大家在我们的基础上进行新的探索​

我们根据论文加上我们自己的整理归纳总结出来大致三个大方向，十个子方向​

•
Pretending：假装某个角色​

•
Attention shifting：注意转移，用文本续写或者程序执行的方式来间接越狱​

•
Privilege Escalation：权限升级，使用所谓“开发者模式”或者“SUDO模式”来进行越狱​

我们从我们的prompts库里选取了代表性的几个进行了实验

4.
测试Prompts​

我们这里选取的验证是否越狱成功的提示词根据理论，主要使用下面提示词​

结合论文以及我的思考总结出来以下五个分类进行实验