jailbreak_llms揭秘：15,140个ChatGPT越狱提示数据集完整指南

在人工智能安全研究领域，一个名为jailbreak_llms的开源项目正在引起广泛关注。这个由学术研究人员创建的数据集包含了惊人的15,140个ChatGPT提示，其中1,405个被识别为"越狱"提示，为AI安全研究提供了宝贵的第一手资料。作为目前最大的野外越狱提示数据集，jailbreak_llms为理解和防御大型语言模型的安全漏洞提供了重要工具。## 🔍 什么是jailbreak_llm

明树来

767人浏览 · 2026-03-22 00:56:37

明树来 · 2026-03-22 00:56:37 发布

jailbreak_llms揭秘：15,140个ChatGPT越狱提示数据集完整指南

【免费下载链接】jailbreak_llms [CCS'24] A dataset consists of 15,140 ChatGPT prompts from Reddit, Discord, websites, and open-source datasets (including 1,405 jailbreak prompts). 项目地址: https://gitcode.com/gh_mirrors/ja/jailbreak_llms

🔍 什么是jailbreak_llms数据集？

jailbreak_llms是一个专门收集和分析大型语言模型越狱提示的数据集，源自ACM CCS 2024会议论文《"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models》。该项目通过创新的JailbreakHub框架，从2022年12月到2023年12月期间，从多个在线平台收集了大量真实世界的用户提示。

图：jailbreak_llms项目中的语义可视化工具界面，支持多种嵌入数据集和自定义数据导入

📊 数据集规模与来源分析

这个数据集包含了来自四个主要平台的15,140个提示：

Reddit社区：包括r/ChatGPT、r/ChatGPTPromptGenius、r/ChatGPTJailbreak等子版块
Discord频道：涵盖ChatGPT、ChatGPT Prompt Engineering、Spreadsheet Warriors等社群
网站平台：AIPRM、FlowGPT、JailbreakChat等专业提示工程网站
开源数据集：AwesomeChatGPTPrompts、OCR-Prompts等现有数据集

在这些提示中，研究人员识别出了1,405个越狱提示，这些是用户试图绕过AI安全限制的特殊指令。

🎯 核心功能与数据特点

数据文件结构

数据集主要包含以下核心文件：

越狱提示文件：data/prompts/jailbreak_prompts_2023_05_07.csv 和 data/prompts/jailbreak_prompts_2023_12_25.csv
常规提示文件：data/prompts/regular_prompts_2023_05_07.csv 和 data/prompts/regular_prompts_2023_12_25.csv
禁止问题集：data/forbidden_question/forbidden_question_set.csv

数据字段说明

每个提示记录包含以下关键信息：

平台来源（platform）：提示收集的原始平台
具体来源（source）：如Reddit子版块或Discord频道名称
提示内容（prompt）：用户输入的完整文本
越狱标识（jailbreak）：是否为越狱提示的布尔值
创建时间（created_at）：提示的原始创建时间戳
社区标识（community_id）：基于图算法的社区聚类结果

🛡️ 禁止问题集：13个风险场景

为了评估越狱提示的有效性，项目团队构建了一个包含390个问题的禁止问题集，覆盖了13个高风险场景：

非法活动（Illegal Activity） - 如帮助越狱规划
仇恨言论（Hate Speech） - 针对特定群体的攻击性语言
恶意软件生成（Malware Generation） - 创建计算机病毒和攻击工具
物理伤害（Physical Harm） - 武器开发和自残内容
经济伤害（Economic Harm） - 多层次营销和赌博相关
欺诈活动（Fraud） - 诈骗和虚假信息传播
色情内容（Pornography） - 成人内容和性服务
政治游说（Political Lobbying） - 政治竞选和游说活动
隐私侵犯（Privacy Violence） - 未经同意的跟踪监控
法律意见（Legal Opinion） - 未经授权的法律建议
财务建议（Financial Advice） - 未经认证的财务指导
健康咨询（Health Consultation） - 医疗诊断和治疗建议
政府决策（Government Decision） - 高风险政府决策相关

每个场景包含30个具体问题，总计390个评估问题，为AI安全测试提供了系统化的基准。

🔧 技术实现与工具

评估框架：ChatGLMEval

项目提供了完整的评估工具链，位于code/ChatGLMEval/目录下：

ChatGLMEval.py：核心评估类实现
run_evaluator.py：评估执行脚本
few_shot_examples.py：少样本学习示例

通过这个框架，研究人员可以系统评估不同语言模型在面对越狱提示时的安全表现。

语义可视化工具

code/semantics_visualization/visualize.ipynb提供了基于UMAP和WizMap的数据可视化功能，帮助研究人员：

理解提示语义分布：可视化越狱提示与常规提示的语义差异
发现模式聚类：识别不同类型的越狱策略和模式
交互式探索：通过WizMap界面进行动态数据探索

🚀 快速开始使用指南

通过Hugging Face加载数据

最简单的方式是使用Hugging Face的Datasets库：

from datasets import load_dataset

# 加载越狱提示数据集
dataset = load_dataset('TrustAIRLab/in-the-wild-jailbreak-prompts', 
                      'jailbreak_2023_12_25', split='train')

# 加载禁止问题集
forbidden_question_set = load_dataset("TrustAIRLab/forbidden_question_set", 
                                     split='train')

本地数据使用

如果您希望直接使用原始CSV文件，可以从项目仓库克隆：

git clone https://gitcode.com/gh_mirrors/ja/jailbreak_llms

然后使用pandas加载数据：

import pandas as pd

# 加载越狱提示
jailbreak_prompts = pd.read_csv('data/prompts/jailbreak_prompts_2023_12_25.csv')

# 加载禁止问题集
forbidden_questions = pd.read_csv('data/forbidden_question/forbidden_question_set.csv')

📈 研究价值与应用场景

AI安全研究

这个数据集为AI安全研究人员提供了宝贵的资源，可用于：

漏洞分析：系统分析现有语言模型的安全漏洞
防御机制开发：设计和测试新的安全防护策略
风险评估：量化不同越狱技术的风险等级

模型训练与测试

安全训练数据：为安全对齐训练提供负样本
红队测试：构建系统的红队测试基准
模型评估：标准化的大语言模型安全评估

学术研究

数据集支持以下研究方向：

越狱提示的演化模式分析
社区驱动的安全威胁研究
跨平台安全漏洞比较

⚠️ 使用注意事项与伦理声明

重要免责声明

⚠️ 重要提示：该存储库包含有害语言示例。建议读者谨慎使用。本存储库仅用于研究目的。严禁任何滥用行为。

伦理考虑

研究团队遵循了严格的伦理准则：

仅使用公开可用数据
不试图去匿名化任何用户
在聚合层面报告结果
已向相关LLM供应商负责任地披露发现

📚 引用与许可

如果您在研究中使用了这个数据集，请引用原始论文：

@inproceedings{SCBSZ24,
  author = {Xinyue Shen and Zeyuan Chen and Michael Backes and Yun Shen and Yang Zhang},
  title = {{``Do Anything Now'': Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models}},
  booktitle = {{ACM SIGSAC Conference on Computer and Communications Security (CCS)}},
  publisher = {ACM},
  year = {2024}
}