在这里插入图片描述
论文链接: https://arxiv.org/pdf/2504.11783
IEEE SP 2025

1 Introduction

(背景意义)
随着 LLMs 的快速发展,“数字网络安全专家” 的概念逐渐受到关注,微软、谷歌等企业已推出相关工具(如 Copilot for Security、Gemini in Security)。但关键问题在于:当前 LLMs 距离成为真正的数字网络安全专家还有多远?这一问题的答案对理解 LLMs 在该领域的能力与局限、推动其有效部署至关重要。

(现有工作的缺点)
现有研究主要从特定安全任务表现和网络安全知识理解两方面评估 LLMs,但存在不足:

  • 缺乏全面的网络安全专家知识框架,评估聚焦单一技能或任务,未能系统覆盖专家所需知识,导致评估不完整、不均衡。
  • 无法识别 LLMs的具体知识缺口,现有知识评估粒度粗,难以定位模型对特定知识点的理解程度,任务评估也因缺乏对所需知识的明确定义而难以分析失败原因。
  • 问题设计与知识掌握要求不匹配,不同类型知识点(如记忆性事实、需理解的概念、需实践的技能)需不同评估方法,但现有评估多采用统一设计,导致部分领域被过度强调而部分被忽视。

(为什么做?做了什么事情)
为解决上述问题,本文研究设计了基于认知科学的细粒度网络安全知识评估框架 CSEBenchmark。该框架整合三个知名网络安全专家路线图,形成涵盖 7 个子领域(基础 IT 技能、操作系统、网络知识等)的知识体系,包含 345 个细粒度知识点,并按认知科学分为事实性、概念性、程序性知识三类,针对性设计 11,050 道选择题(经 772 小时人工审核与修正)。

(总科创新点)

  • 提出了新的评估框架 CSEBenchmark,这是首个基于认知科学的网络安全知识评估框架,涵盖了网络安全专家所需的 7 个关键子领域中的 345 个细粒度知识点,能全面评估大型语言模型对网络安全知识的掌握程度。该基准包含 11,050 道高质量选择题,经过 772 小时的审查和修正,还投入 234.5 美元用于问题生成,并将框架公开,为社区提供评估新兴大型语言模型及追踪其在掌握网络安全专业知识方面进展的工具。
  • 对 12 个主流 LLM 的评估显示,最佳模型(GPT-4o)整体准确率仅 85.42%,在专业工具使用和冷门命令等方面存在明显知识缺口。
  • 不同 LLM 的知识缺口独特,同系列大模型可能在某些知识点上不如小模型。
  • 填补知识缺口后,在三个现有基准测试中,两个网络安全任务的错误预测修正率最高提升 84%。
  • 不同模型与特定网络安全角色(如谷歌高级情报分析师、亚马逊隐私工程师)的知识匹配度不同,需根据角色需求选择模型。

2. Background and Related Work

2.1. Large Language Model

大型语言模型(LLMs)发展迅速,在自然语言处理与理解方面取得显著进步,如OpenAI的GPT系列和Meta的Llama等模型,能够处理翻译、摘要生成、问答等多种任务。其关键技术包括零样本学习(无需特定训练示例即可应对新任务)、少样本学习(通过少量示例快速适配新任务)以及思维链(Chain-of-Thought)推理(将多步骤任务拆解以提升复杂问题解决能力)。这些能力使LLMs在客服聊天机器人、虚拟助手、内容推荐等领域广泛应用,并逐渐被探索用于辅助甚至替代人类专家,尤其在网络安全领域展现出潜力。

在网络安全中,LLMs已用于支持复杂任务,例如:威胁情报分析(整合多源威胁数据以识别潜在风险)、事件响应(提供实时建议、生成响应手册、分析日志以确定安全漏洞根源)、漏洞评估(扫描代码库以发现已知漏洞、建议补丁、基于历史数据预测潜在弱点、逆向工程以识别隐藏漏洞),以及自动化常规安全操作(阅读文档、理解代码、协助漏洞管理),显著减轻安全团队工作负担。然而,LLMs距离完全承担网络安全专家角色仍有差距,其能力与局限性需进一步评估。

2.2. Evaluation of LLMs in Cybersecurity

LLMs的评估通常分为任务型评估和知识型评估两类:

  • 任务型评估:聚焦模型在特定网络安全任务中的表现,如威胁情报分析(评估实体识别、情报分类、摘要生成等能力)、漏洞管理(通过代码片段评估模型理解代码、调试、生成单元测试、识别漏洞和应用补丁的能力)、安全代码生成(评估生成代码的安全性)。但此类评估因缺乏对任务所需知识的量化,难以明确模型表现不佳的原因,限制了针对性分析。

  • 知识型评估:通过选择题等形式评估模型对特定网络安全领域知识的理解,例如SecQA(基于《计算机系统安全》一书生成约200题评估安全原理知识)、CyberMetric(10,000题覆盖渗透测试、密码学等领域)、SecEval(2,126题来自教材和行业指南)、CTIBench(2,500题评估网络威胁情报知识)等。然而,现有研究仅基于碎片化知识进行评估,缺乏对网络安全专家所需知识与技能的全面建模,无法充分回答“LLMs距离成为数字网络安全专家还有多远”这一核心问题。

为弥补这些不足,本研究提出涵盖7个子领域、345个知识点和11,050道题目的综合评估框架,系统评估LLMs的网络安全能力。

3. CSEBenchmark

CSEBenchmark是基于认知科学的网络安全专家知识评估框架,是首个用于评估大型语言模型(LLMs)向数字网络安全专家演进能力的数据集,其构建过程分为四个步骤:

3.1 知识框架构建

为评估LLMs是否具备人类网络安全专家的知识,研究选取三个知名的网络安全专家路线图作为基础:GitHub上获得295k星标的roadmap.sh中的《网络安全专家路线图》《道德黑客路线图》,以及Hacking & Coding Discord社区的《从电源按钮到PWN:计算机安全路线图》。基于这些路线图,构建了涵盖7个子领域的知识框架,包括基础IT技能(FIS)、操作系统(OS)、网络知识(NK)、Web知识(WK)、安全技能与知识(SSK)、云技能与知识(CSK)、编程技能与知识(PSK)。该框架以层级树结构组织,最终形成345个叶子节点,代表最具体的知识点,实现对网络安全专家知识的细粒度评估。

3.2 知识分类

依据认知科学的知识分类理论,结合网络安全领域兼具理论与实践的特点,将345个知识点分为三类:

  • 事实性知识:需记忆的具体信息,共121个知识点;
  • 概念性知识:需理解底层原理的理论知识,共136个知识点;
  • 程序性知识:需动手实践的技能,共88个知识点。
    分类由两名网络安全从业者完成,分歧时由资深专家裁决,确保与实际应用场景对齐。

3.3 问题生成

针对不同类型知识收集目标材料并生成问题:

  • 事实性知识:以路线图描述或相关维基条目为来源,侧重记忆性内容;
  • 概念性知识:选取权威网站见解或教材内容,评估对概念的深层理解;
  • 程序性知识:参考官方文档或教程,考察实际操作步骤。
    使用GPT-4-Turbo生成问题,每个问题包含1个正确答案和3个干扰项,并通过提供定义和8个人工示例引导模型贴合知识类型特点。为保证上下文完整性,按章节结构分割材料,并根据信息密度(主题数量)自适应生成问题(每个主题生成5个问题)。经语义文本相似度去重(阈值0.85)后,得到11,468个独特问题,生成成本为234.5美元。

3.4 数据集验证与修正

由于LLM生成内容存在幻觉问题,对11,468个问题进行人工验证(耗时672人时),发现1,726个问题存在错误答案、多正确选项、上下文缺失等8类问题。通过人工修正(如替换错误答案、生成新干扰项)和移除无效问题,最终得到11,050个高质量选择题。
数据集涵盖7个子领域,问题分布因路线图设计的知识点差异及语料规模不同而有所倾斜,具体分布为:基础IT技能161题、操作系统1108题、网络知识1065题、Web知识2202题、安全技能与知识3759题、云技能与知识219题、编程技能与知识2536题。

4. Experimental Investigation

该部分通过实验评估12个主流大型语言模型(LLMs)在CSEBenchmark上的表现,围绕四个研究问题(RQ1-RQ4)展开,以明确LLMs在网络安全领域的知识掌握程度、缺口及实际应用价值。

4.1 实验设置

  • 模型选择与配置:选取12个主流LLMs,参数规模从3B到671B,涵盖闭源(如GPT系列)和开源模型(如Llama系列、Deepseek系列),包括混合专家模型(Mixtral 8×7B)和推理模型(Deepseek-R1)。通过API或开源框架调用,设置温度参数为0.2以减少随机输出影响。
  • 交互方法:采用Zero-shot、Few-shot(5-shot)和思维链(CoT)三种方法,取最佳结果作为模型知识上限。
  • 测量方法:每个问题进行5次独立推理,仅当全部正确时视为正确;系统轮换选项位置,确保模型依赖理解而非猜测;使用xFinder工具提取答案,准确率达92.47%。
  • 评估指标:以知识点关联问题的准确率为指标,分为四个等级(100%、[90%,100%)、[80%,90%)、<80%),分别代表完全掌握、接近掌握、部分掌握和薄弱环节。

4.2 LLM网络安全专业知识评估(RQ1)

  • 整体表现:GPT-4o准确率最高(85.42%),Deepseek-V3在开源模型中领先(84.92%),Qwen-2.5-72B紧随其后(84.40%);最差模型Llama-3.2-3B准确率仅52.95%。
  • 子领域差异:LLMs在基础IT技能(FIS)、网络知识(NK)、云技能(CSK)表现较好(准确率超90%),但在操作系统(OS)、Web知识(WK)、安全技能(SSK)、编程技能(PSK)存在明显不足(中位数约72%)。
  • 知识类型差异:事实性知识(准确率中位数92%)和概念性知识(92%)掌握较好,但程序性知识(71.86%)表现显著薄弱,尤其在专业工具使用和实操技能上。
  • 知识点覆盖:241个知识点达到专家水平(100%准确率),35个接近专家水平,主要为事实性、概念性知识及高频程序性知识,占比80%。

4.3 LLM知识缺口评估(RQ2)

  • 缺口分布:69个知识点存在明显缺口,其中40个准确率在[80%,90%)(部分掌握),29个低于80%(严重不足)。
  • 关键缺口领域:低准确率知识点中,4个为事实性知识(如P2P、本地认证)、1个为概念性知识(暴力破解与密码喷洒的区别),24个为程序性知识(如Kali Linux操作、Wireshark分析、Metasploit框架使用等专业工具和冷门命令)。
  • 模型特异性缺口:不同LLM的缺口各具特点,即使同系列大模型也可能在某些知识点上不如小模型(如Llama-3.1-70B在tcpdump使用上不如Llama-3.1-8B)。

4.4 通过CSEBenchmark增强LLM性能(RQ3)

  • 增强方法:针对识别的知识缺口,采用检索增强生成(RAG)技术,构建向量数据库存储CSEBenchmark的问答对,在任务中检索Top-5相关知识注入提示。
  • 效果验证:在三个网络安全基准测试(漏洞检测VuldetectBench、SecLLMHolmes,威胁情报分析CTI-RCM)中,填补缺口后,LLMs的错误预测修正率最高达84%(Llama-3.1-8B在VuldetectBench),验证了缺口识别的有效性。

4.5 LLM与真实职业角色的匹配度(RQ4)

  • 角色选取:评估6个真实网络安全角色(如谷歌高级情报分析师、亚马逊隐私工程师),将角色要求映射到CSEBenchmark知识点,计算匹配得分。
  • 匹配结果:GPT-4o在谷歌高级情报分析师等角色中得分最高,Deepseek-V3在亚马逊隐私工程师等角色中表现突出,但所有模型的最高匹配得分均低于90%,未完全满足职业需求。
  • 角色特异性缺口:不同角色存在独特缺口,如谷歌高级情报分析师在“网络安全分析与事件响应”“安全工具使用”上不足,微软红队安全工程师在“网络安全工具技术”“取证与逆向工程”上薄弱。

核心发现

  1. 即使最佳LLM也仅掌握85.42%的网络安全知识,程序性知识(尤其是专业工具)是主要短板。
  2. 知识缺口可通过针对性补充显著改善实际任务性能,修正率最高达84%。
  3. 不同LLM适配不同职业角色,需根据具体需求选择模型,且均需针对性优化以满足真实场景要求。

5. Discussion

该部分主要围绕研究中潜在的周期性使用、模型偏差问题,以及CSEBenchmark的局限性和未来工作方向展开讨论。

5.1 潜在的周期性使用与模型偏差

  • 周期性使用验证:GPT-4-Turbo既用于生成问题又参与回答,但通过人工检查500个随机问题,确认其生成的问题均基于提供的语料,且回答时无法访问该语料,因此不存在不公平的周期性使用,结果可信。
  • 模型偏差评估:为验证GPT-4-Turbo生成问题时是否存在主题选择偏差,对比其与GPT-4o、Llama-3.1-70B、Qwen-2.5-72B在三个知识点(Kerberos、Packet Sniffer、Nikto)上的主题提取结果,发现语义空间中的主题分布一致,未观察到偏差。

5.2 局限性与未来工作

  • 知识框架局限性:当前框架基于三个公开路线图,可能对硬件安全等专业领域覆盖不足,未来计划通过采访网络安全专家扩展知识点,以适应新兴需求。
  • 单一来源限制:每个知识点的问题仅基于单一官方来源生成,可能无法全面覆盖知识范围,未来将补充更多相关材料。
  • 提示技术优化:评估中仅使用Zero-shot、Few-shot和CoT三种提示方法,未来计划引入更先进的提示技术,更全面地评估LLM能力。
  • 答案提取工具误差:依赖xFinder工具提取答案,存在8%的误差率,未来需提升其准确性以确保评估结果的公平性。

时间对评估结果的影响

由于模型知识截止日期不同,较新的材料可能仅存在于截止日期较晚的模型训练数据中,但研究重点是客观识别LLM当前存在的知识缺口(无论成因)。随着LLM快速发展,研究结论可能随时间过时,需持续评估以反映其最新能力。

6. Conclusion

为评估大型语言模型(LLMs)在承担数字网络安全专家角色时的知识缺口,本研究基于认知科学构建了一个涵盖345个细粒度知识点的网络安全知识模型,并构建了包含11,050道题目的基准数据集CSEBenchmark。

对12个主流LLM的评估显示,当前模型的整体准确率最高仅为85.42%,在专业工具使用、冷门命令等程序性知识方面存在显著缺口。不同LLM的知识缺口各具特点,即便同系列的大型模型,在某些知识点上也可能不如小型模型表现出色。

通过填补这些知识缺口,在三个现有基准测试中,两个网络安全任务(漏洞检测、威胁情报分析)的错误预测修正率最高提升84%,验证了研究发现的有效性。

综上,本研究明确了当前LLMs在网络安全领域的能力与局限,为“数字网络安全专家”的发展提供了关键评估依据。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐