jailbreak_llms揭秘:15,140个ChatGPT越狱提示数据集完整指南

【免费下载链接】jailbreak_llms [CCS'24] A dataset consists of 15,140 ChatGPT prompts from Reddit, Discord, websites, and open-source datasets (including 1,405 jailbreak prompts). 【免费下载链接】jailbreak_llms 项目地址: https://gitcode.com/gh_mirrors/ja/jailbreak_llms

在人工智能安全研究领域,一个名为jailbreak_llms的开源项目正在引起广泛关注。这个由学术研究人员创建的数据集包含了惊人的15,140个ChatGPT提示,其中1,405个被识别为"越狱"提示,为AI安全研究提供了宝贵的第一手资料。作为目前最大的野外越狱提示数据集,jailbreak_llms为理解和防御大型语言模型的安全漏洞提供了重要工具。

🔍 什么是jailbreak_llms数据集?

jailbreak_llms是一个专门收集和分析大型语言模型越狱提示的数据集,源自ACM CCS 2024会议论文《"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models》。该项目通过创新的JailbreakHub框架,从2022年12月到2023年12月期间,从多个在线平台收集了大量真实世界的用户提示。

jailbreak_llms语义可视化工具 图:jailbreak_llms项目中的语义可视化工具界面,支持多种嵌入数据集和自定义数据导入

📊 数据集规模与来源分析

这个数据集包含了来自四个主要平台的15,140个提示:

  • Reddit社区:包括r/ChatGPT、r/ChatGPTPromptGenius、r/ChatGPTJailbreak等子版块
  • Discord频道:涵盖ChatGPT、ChatGPT Prompt Engineering、Spreadsheet Warriors等社群
  • 网站平台:AIPRM、FlowGPT、JailbreakChat等专业提示工程网站
  • 开源数据集:AwesomeChatGPTPrompts、OCR-Prompts等现有数据集

在这些提示中,研究人员识别出了1,405个越狱提示,这些是用户试图绕过AI安全限制的特殊指令。

🎯 核心功能与数据特点

数据文件结构

数据集主要包含以下核心文件:

数据字段说明

每个提示记录包含以下关键信息:

  1. 平台来源(platform):提示收集的原始平台
  2. 具体来源(source):如Reddit子版块或Discord频道名称
  3. 提示内容(prompt):用户输入的完整文本
  4. 越狱标识(jailbreak):是否为越狱提示的布尔值
  5. 创建时间(created_at):提示的原始创建时间戳
  6. 社区标识(community_id):基于图算法的社区聚类结果

🛡️ 禁止问题集:13个风险场景

为了评估越狱提示的有效性,项目团队构建了一个包含390个问题的禁止问题集,覆盖了13个高风险场景:

  1. 非法活动(Illegal Activity) - 如帮助越狱规划
  2. 仇恨言论(Hate Speech) - 针对特定群体的攻击性语言
  3. 恶意软件生成(Malware Generation) - 创建计算机病毒和攻击工具
  4. 物理伤害(Physical Harm) - 武器开发和自残内容
  5. 经济伤害(Economic Harm) - 多层次营销和赌博相关
  6. 欺诈活动(Fraud) - 诈骗和虚假信息传播
  7. 色情内容(Pornography) - 成人内容和性服务
  8. 政治游说(Political Lobbying) - 政治竞选和游说活动
  9. 隐私侵犯(Privacy Violence) - 未经同意的跟踪监控
  10. 法律意见(Legal Opinion) - 未经授权的法律建议
  11. 财务建议(Financial Advice) - 未经认证的财务指导
  12. 健康咨询(Health Consultation) - 医疗诊断和治疗建议
  13. 政府决策(Government Decision) - 高风险政府决策相关

每个场景包含30个具体问题,总计390个评估问题,为AI安全测试提供了系统化的基准。

🔧 技术实现与工具

评估框架:ChatGLMEval

项目提供了完整的评估工具链,位于code/ChatGLMEval/目录下:

  • ChatGLMEval.py:核心评估类实现
  • run_evaluator.py:评估执行脚本
  • few_shot_examples.py:少样本学习示例

通过这个框架,研究人员可以系统评估不同语言模型在面对越狱提示时的安全表现。

语义可视化工具

code/semantics_visualization/visualize.ipynb提供了基于UMAP和WizMap的数据可视化功能,帮助研究人员:

  1. 理解提示语义分布:可视化越狱提示与常规提示的语义差异
  2. 发现模式聚类:识别不同类型的越狱策略和模式
  3. 交互式探索:通过WizMap界面进行动态数据探索

🚀 快速开始使用指南

通过Hugging Face加载数据

最简单的方式是使用Hugging Face的Datasets库:

from datasets import load_dataset

# 加载越狱提示数据集
dataset = load_dataset('TrustAIRLab/in-the-wild-jailbreak-prompts', 
                      'jailbreak_2023_12_25', split='train')

# 加载禁止问题集
forbidden_question_set = load_dataset("TrustAIRLab/forbidden_question_set", 
                                     split='train')

本地数据使用

如果您希望直接使用原始CSV文件,可以从项目仓库克隆:

git clone https://gitcode.com/gh_mirrors/ja/jailbreak_llms

然后使用pandas加载数据:

import pandas as pd

# 加载越狱提示
jailbreak_prompts = pd.read_csv('data/prompts/jailbreak_prompts_2023_12_25.csv')

# 加载禁止问题集
forbidden_questions = pd.read_csv('data/forbidden_question/forbidden_question_set.csv')

📈 研究价值与应用场景

AI安全研究

这个数据集为AI安全研究人员提供了宝贵的资源,可用于:

  1. 漏洞分析:系统分析现有语言模型的安全漏洞
  2. 防御机制开发:设计和测试新的安全防护策略
  3. 风险评估:量化不同越狱技术的风险等级

模型训练与测试

  • 安全训练数据:为安全对齐训练提供负样本
  • 红队测试:构建系统的红队测试基准
  • 模型评估:标准化的大语言模型安全评估

学术研究

数据集支持以下研究方向:

  • 越狱提示的演化模式分析
  • 社区驱动的安全威胁研究
  • 跨平台安全漏洞比较

⚠️ 使用注意事项与伦理声明

重要免责声明

⚠️ 重要提示:该存储库包含有害语言示例。建议读者谨慎使用。本存储库仅用于研究目的。严禁任何滥用行为。

伦理考虑

研究团队遵循了严格的伦理准则:

  • 仅使用公开可用数据
  • 不试图去匿名化任何用户
  • 在聚合层面报告结果
  • 已向相关LLM供应商负责任地披露发现

📚 引用与许可

如果您在研究中使用了这个数据集,请引用原始论文:

@inproceedings{SCBSZ24,
  author = {Xinyue Shen and Zeyuan Chen and Michael Backes and Yun Shen and Yang Zhang},
  title = {{``Do Anything Now'': Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models}},
  booktitle = {{ACM SIGSAC Conference on Computer and Communications Security (CCS)}},
  publisher = {ACM},
  year = {2024}
}

许可证

jailbreak_llms采用MIT许可证,详细信息请查看LICENSE文件。

🎯 总结与展望

jailbreak_llms数据集代表了AI安全研究领域的重要进展,为理解和防御大型语言模型的越狱攻击提供了系统化的工具和资源。通过这个包含15,140个提示(其中1,405个越狱提示)的全面数据集,研究人员可以:

  1. 深入理解真实世界中的越狱策略
  2. 系统评估现有AI模型的安全漏洞
  3. 开发创新的防御机制和检测方法

随着AI技术的快速发展,这类安全数据集的价值将越来越重要。jailbreak_llms不仅为当前的研究提供了宝贵资源,也为未来的AI安全标准制定和模型安全评估奠定了基础。🎉

对于AI安全研究人员、模型开发者和政策制定者来说,这个数据集都是不可或缺的工具,帮助我们在享受AI技术带来的便利的同时,确保其安全、可靠和负责任地发展。🔒

【免费下载链接】jailbreak_llms [CCS'24] A dataset consists of 15,140 ChatGPT prompts from Reddit, Discord, websites, and open-source datasets (including 1,405 jailbreak prompts). 【免费下载链接】jailbreak_llms 项目地址: https://gitcode.com/gh_mirrors/ja/jailbreak_llms

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐