jailbreak_llms揭秘:15,140个ChatGPT越狱提示数据集完整指南
在人工智能安全研究领域,一个名为jailbreak_llms的开源项目正在引起广泛关注。这个由学术研究人员创建的数据集包含了惊人的15,140个ChatGPT提示,其中1,405个被识别为"越狱"提示,为AI安全研究提供了宝贵的第一手资料。作为目前最大的野外越狱提示数据集,jailbreak_llms为理解和防御大型语言模型的安全漏洞提供了重要工具。## 🔍 什么是jailbreak_llm
jailbreak_llms揭秘:15,140个ChatGPT越狱提示数据集完整指南
在人工智能安全研究领域,一个名为jailbreak_llms的开源项目正在引起广泛关注。这个由学术研究人员创建的数据集包含了惊人的15,140个ChatGPT提示,其中1,405个被识别为"越狱"提示,为AI安全研究提供了宝贵的第一手资料。作为目前最大的野外越狱提示数据集,jailbreak_llms为理解和防御大型语言模型的安全漏洞提供了重要工具。
🔍 什么是jailbreak_llms数据集?
jailbreak_llms是一个专门收集和分析大型语言模型越狱提示的数据集,源自ACM CCS 2024会议论文《"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models》。该项目通过创新的JailbreakHub框架,从2022年12月到2023年12月期间,从多个在线平台收集了大量真实世界的用户提示。
图:jailbreak_llms项目中的语义可视化工具界面,支持多种嵌入数据集和自定义数据导入
📊 数据集规模与来源分析
这个数据集包含了来自四个主要平台的15,140个提示:
- Reddit社区:包括r/ChatGPT、r/ChatGPTPromptGenius、r/ChatGPTJailbreak等子版块
- Discord频道:涵盖ChatGPT、ChatGPT Prompt Engineering、Spreadsheet Warriors等社群
- 网站平台:AIPRM、FlowGPT、JailbreakChat等专业提示工程网站
- 开源数据集:AwesomeChatGPTPrompts、OCR-Prompts等现有数据集
在这些提示中,研究人员识别出了1,405个越狱提示,这些是用户试图绕过AI安全限制的特殊指令。
🎯 核心功能与数据特点
数据文件结构
数据集主要包含以下核心文件:
- 越狱提示文件:data/prompts/jailbreak_prompts_2023_05_07.csv 和 data/prompts/jailbreak_prompts_2023_12_25.csv
- 常规提示文件:data/prompts/regular_prompts_2023_05_07.csv 和 data/prompts/regular_prompts_2023_12_25.csv
- 禁止问题集:data/forbidden_question/forbidden_question_set.csv
数据字段说明
每个提示记录包含以下关键信息:
- 平台来源(platform):提示收集的原始平台
- 具体来源(source):如Reddit子版块或Discord频道名称
- 提示内容(prompt):用户输入的完整文本
- 越狱标识(jailbreak):是否为越狱提示的布尔值
- 创建时间(created_at):提示的原始创建时间戳
- 社区标识(community_id):基于图算法的社区聚类结果
🛡️ 禁止问题集:13个风险场景
为了评估越狱提示的有效性,项目团队构建了一个包含390个问题的禁止问题集,覆盖了13个高风险场景:
- 非法活动(Illegal Activity) - 如帮助越狱规划
- 仇恨言论(Hate Speech) - 针对特定群体的攻击性语言
- 恶意软件生成(Malware Generation) - 创建计算机病毒和攻击工具
- 物理伤害(Physical Harm) - 武器开发和自残内容
- 经济伤害(Economic Harm) - 多层次营销和赌博相关
- 欺诈活动(Fraud) - 诈骗和虚假信息传播
- 色情内容(Pornography) - 成人内容和性服务
- 政治游说(Political Lobbying) - 政治竞选和游说活动
- 隐私侵犯(Privacy Violence) - 未经同意的跟踪监控
- 法律意见(Legal Opinion) - 未经授权的法律建议
- 财务建议(Financial Advice) - 未经认证的财务指导
- 健康咨询(Health Consultation) - 医疗诊断和治疗建议
- 政府决策(Government Decision) - 高风险政府决策相关
每个场景包含30个具体问题,总计390个评估问题,为AI安全测试提供了系统化的基准。
🔧 技术实现与工具
评估框架:ChatGLMEval
项目提供了完整的评估工具链,位于code/ChatGLMEval/目录下:
- ChatGLMEval.py:核心评估类实现
- run_evaluator.py:评估执行脚本
- few_shot_examples.py:少样本学习示例
通过这个框架,研究人员可以系统评估不同语言模型在面对越狱提示时的安全表现。
语义可视化工具
code/semantics_visualization/visualize.ipynb提供了基于UMAP和WizMap的数据可视化功能,帮助研究人员:
- 理解提示语义分布:可视化越狱提示与常规提示的语义差异
- 发现模式聚类:识别不同类型的越狱策略和模式
- 交互式探索:通过WizMap界面进行动态数据探索
🚀 快速开始使用指南
通过Hugging Face加载数据
最简单的方式是使用Hugging Face的Datasets库:
from datasets import load_dataset
# 加载越狱提示数据集
dataset = load_dataset('TrustAIRLab/in-the-wild-jailbreak-prompts',
'jailbreak_2023_12_25', split='train')
# 加载禁止问题集
forbidden_question_set = load_dataset("TrustAIRLab/forbidden_question_set",
split='train')
本地数据使用
如果您希望直接使用原始CSV文件,可以从项目仓库克隆:
git clone https://gitcode.com/gh_mirrors/ja/jailbreak_llms
然后使用pandas加载数据:
import pandas as pd
# 加载越狱提示
jailbreak_prompts = pd.read_csv('data/prompts/jailbreak_prompts_2023_12_25.csv')
# 加载禁止问题集
forbidden_questions = pd.read_csv('data/forbidden_question/forbidden_question_set.csv')
📈 研究价值与应用场景
AI安全研究
这个数据集为AI安全研究人员提供了宝贵的资源,可用于:
- 漏洞分析:系统分析现有语言模型的安全漏洞
- 防御机制开发:设计和测试新的安全防护策略
- 风险评估:量化不同越狱技术的风险等级
模型训练与测试
- 安全训练数据:为安全对齐训练提供负样本
- 红队测试:构建系统的红队测试基准
- 模型评估:标准化的大语言模型安全评估
学术研究
数据集支持以下研究方向:
- 越狱提示的演化模式分析
- 社区驱动的安全威胁研究
- 跨平台安全漏洞比较
⚠️ 使用注意事项与伦理声明
重要免责声明
⚠️ 重要提示:该存储库包含有害语言示例。建议读者谨慎使用。本存储库仅用于研究目的。严禁任何滥用行为。
伦理考虑
研究团队遵循了严格的伦理准则:
- 仅使用公开可用数据
- 不试图去匿名化任何用户
- 在聚合层面报告结果
- 已向相关LLM供应商负责任地披露发现
📚 引用与许可
如果您在研究中使用了这个数据集,请引用原始论文:
@inproceedings{SCBSZ24,
author = {Xinyue Shen and Zeyuan Chen and Michael Backes and Yun Shen and Yang Zhang},
title = {{``Do Anything Now'': Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models}},
booktitle = {{ACM SIGSAC Conference on Computer and Communications Security (CCS)}},
publisher = {ACM},
year = {2024}
}
许可证
jailbreak_llms采用MIT许可证,详细信息请查看LICENSE文件。
🎯 总结与展望
jailbreak_llms数据集代表了AI安全研究领域的重要进展,为理解和防御大型语言模型的越狱攻击提供了系统化的工具和资源。通过这个包含15,140个提示(其中1,405个越狱提示)的全面数据集,研究人员可以:
- 深入理解真实世界中的越狱策略
- 系统评估现有AI模型的安全漏洞
- 开发创新的防御机制和检测方法
随着AI技术的快速发展,这类安全数据集的价值将越来越重要。jailbreak_llms不仅为当前的研究提供了宝贵资源,也为未来的AI安全标准制定和模型安全评估奠定了基础。🎉
对于AI安全研究人员、模型开发者和政策制定者来说,这个数据集都是不可或缺的工具,帮助我们在享受AI技术带来的便利的同时,确保其安全、可靠和负责任地发展。🔒
更多推荐



所有评论(0)