2026年6月22日,安全圈被一则技术记录炸开了锅。Matt Suiche和Tolmo联合发布的一份威胁研究报告披露,Anthropic旗下网络安全模型Claude Fable 5在不到一小时的"有效工作时间"里,从零开始生成了一个完整的、可启动的Windows NT兼容内核——ntoskrnl-rs。这个内核不是概念验证,不是玩具项目,它真的在QEMU里跑起来了还通过了全部14项自检,以退出码33优雅收场。

Overview of Windows Components - Windows drivers | Microsoft Learn

整个实验从空目录到可启动镜像,实际跨度约四个半小时。但有意思的地方在于,操作者大部分时间都在键盘外喝咖啡;模型真正在干活的时间,掐头去尾只有38分钟。这个数字放在操作系统开发的历史尺度上看,几乎是荒谬的。要知道人类团队重写一个内核的调度器、内存管理、中断处理、对象管理和I/O子系统,通常是以季度甚至年度为单位计价的。

Fable 5交出的答卷包含大约5100行Rust代码,分散在27个文件中。表面看是代码生成,但Tolmo的报告强调了一个更深层的现象:模型展现出了相当强的无监督系统推理能力。它在生成过程中没有等人类指出错误,而是自己发现了两处在操作系统层面足以致命的底层缺陷。

第一处是EOI(End of Interrupt)信号的顺序问题。Fable 5意识到,如果在潜在的上下文切换之前发出中断结束信号,调度过程中的抢占行为会导致本地中断控制器陷入死锁这种时序bug在手工编写的内核代码中并不罕见,但通常需要数小时的调试和崩溃日志才能定位。模型在生成阶段就把它掐灭了。

第二处是IRQL(Interrupt Request Level)模拟的线程模型错误。当主机测试返回11/12的通过率时,Fable 5诊断出问题根源:测试线程使用了单个全局原子变量来模拟中断请求级别,而真实的x86_64 CPU行为是每个线程独立维护IRQL状态。模型将全局原子替换为thread_local变量,测试通过率立刻拉满到12/12。

cpu - Modern x86-64 architecture diagram? - Computer Science Stack Exchange

更值得注意的是,代码里还嵌入了架构层面的注释,解释为什么NT内核的GDT选择器顺序必须与IA32_STAR MSR的格式严格匹配。这不是从训练数据里做模式匹配能解释的行为,它更接近一种前瞻性的ABI推理——模型在写代码的同时,也在理解硬件和操作系统之间的契约关系。这种能力已经超出了传统意义上"代码补全工具"的范畴,它更像是在进行系统层面的设计思考。

这个项目并非Fable 5单打独斗。事实上,Fable 5只贡献了项目从零开始代码的约40%,却仅消耗了总开发轮次的3%。剩下的97%开发量由Claude Opus 4.8承担,经历了八天高强度的迭代和调试,最终让内核具备了加载未修改Windows驱动程序的能力甚至能运行真正的Windows二进制文件——sort.exe、choice.exe和cmd.exe都能正常执行两种模型的分工呈现出一种有趣的"原型-精修"模式:Fable 5负责快速搭建骨架和发现深层架构问题,Opus 4.8负责漫长的打磨和兼容性攻坚。

这种模型拆分其实是刻意为之的。Fable 5虽然能力更强,但它身上绑着过于激进的网络安全安全分类器,触发范围之广足以误伤相邻的防御机制。Fable 5于2026年6月10日作为Anthropic Mythos网络安全模型的公开版本发布,然而短短几天内,美国政府的出口管制指令就迫使Anthropic彻底切断了对该模型的访问。这个项目的实验窗口期,短得令人窒息。一个能在38分钟内写出内核的模型,公众却几乎没来得及真正使用它,这种反差本身就值得深思。

内核在QEMU里成功启动,通过了所有自检,但这只是故事的一半。Fable 5自己就在代码中标记了风险最高的路径:调度器锁交接、自旋锁和DPC队列它建议后续用loom做全面的并发性探索,用Miri检测未定义行为。换句话说,模型在交付代码的同时,也坦白了"我写的东西可能有问题,你们得好好验"这种自我怀疑的能力,反而比盲目自信更令人不安——它知道自己在做什么,也知道自己的局限在哪里。

Rust vs C++ in 2026: How Businesses Should Choose the Right Systems  Architecture -

这正是当前AI系统编程最尖锐的矛盾:编写能力已经明显超越了验证能力。一个模型生成x86_64内核可信计算基(TCB)的速度,比任何人工团队审计的速度都要快。形式验证、属性测试、并发模型检查器这些工具,目前还追不上AI的产出节奏。在验证工具真正成熟之前,AI编写的内核本质上是一个"启动产物"——它能跑,但它的正确性处于未知状态。而在可信计算基这个领域,"未知的正确性"等于没有立足之地。你可以接受一个推荐算法偶尔出错,但你无法接受一个内核在调度关键进程时产生竞态条件。

互联网的关键基础设施至今运行在海量老旧C代码之上。这些代码库之所以能苟延残喘几十年不是因为它们完美,而是因为重写技术核心代码库的成本和风险高到令人望而却步。AI用Rust重写内核,恰好同时击穿了这两个瓶颈。Rust在编译期就消灭了操作系统CVE中占比最高的内存安全漏洞——缓冲区溢出、Use-After-Free、空指针解引用这些C语言的老毛病,在Rust的所有权和借用检查器面前几乎无法存活。而AI模型则抹掉了重写过程中最昂贵的人力成本:不再需要数百名内核工程师花数年时间逐行翻译和调试,一个模型在几十分钟内就能搭出骨架。

Claude AI Writes FreeBSD Kernel Exploit in 8 Hours | byteiota

一旦形式验证和自动化测试工具跟上AI的编码速度,保留传统C语言内核的经济理由将迅速瓦解。从操作系统内核到网络协议栈从加密库到驱动框架,整个基础设施的"技术债务层"都可能成为AI驱动、内存安全的重写对象。这不是科幻,ntoskrnl-rs已经证明了技术可行性,剩下的只是验证工具的追赶和监管框架的适应。想想看,当AI能以几十分钟的速度产出传统团队需要数年才能完成的内核代码,而Rust又能从根本上消除内存安全类漏洞继续维护那些满是补丁的C代码库还有什么经济上的合理性?

当然,距离真正用AI内核替代Windows NT还有很长的路。但38分钟这个里程碑数字,已经足以让整个基础设施安全社区重新思考:当AI写得比人快、比人准,却还没人能跟得上验证它的时候,我们到底该害怕它写错,还是该害怕自己验不过来?这个答案或许比内核本身更重要。

Booting ARM64 builds of Windows 10 in QEMU | Rafael Rivera

Deep Dive into Windows Architecture | by Usta0x001 | Medium

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐