38分钟写出一个Windows内核？Claude Fable 5的Rust实验把操作系统开发推向了临界点

ylscode

16人浏览 · 2026-06-24 18:35:27

ylscode · 2026-06-24 18:35:27 发布

2026年6月22日，安全圈被一则技术记录炸开了锅。Matt Suiche和Tolmo联合发布的一份威胁研究报告披露，Anthropic旗下网络安全模型Claude Fable 5在不到一小时的"有效工作时间"里，从零开始生成了一个完整的、可启动的Windows NT兼容内核——ntoskrnl-rs。这个内核不是概念验证，不是玩具项目，它真的在QEMU里跑起来了，还通过了全部14项自检，以退出码33优雅收场。

Overview of Windows Components - Windows drivers | Microsoft Learn

整个实验从空目录到可启动镜像，实际跨度约四个半小时。但有意思的地方在于，操作者大部分时间都在键盘外喝咖啡；模型真正在干活的时间，掐头去尾只有38分钟。这个数字放在操作系统开发的历史尺度上看，几乎是荒谬的。要知道，人类团队重写一个内核的调度器、内存管理、中断处理、对象管理和I/O子系统，通常是以季度甚至年度为单位计价的。

Fable 5交出的答卷包含大约5100行Rust代码，分散在27个文件中。表面看是代码生成，但Tolmo的报告强调了一个更深层的现象：模型展现出了相当强的无监督系统推理能力。它在生成过程中没有等人类指出错误，而是自己发现了两处在操作系统层面足以致命的底层缺陷。

第一处是EOI（End of Interrupt）信号的顺序问题。Fable 5意识到，如果在潜在的上下文切换之前发出中断结束信号，调度过程中的抢占行为会导致本地中断控制器陷入死锁。这种时序bug在手工编写的内核代码中并不罕见，但通常需要数小时的调试和崩溃日志才能定位。模型在生成阶段就把它掐灭了。

第二处是IRQL（Interrupt Request Level）模拟的线程模型错误。当主机测试返回11/12的通过率时，Fable 5诊断出问题根源：测试线程使用了单个全局原子变量来模拟中断请求级别，而真实的x86_64 CPU行为是每个线程独立维护IRQL状态。模型将全局原子替换为thread_local变量，测试通过率立刻拉满到12/12。

cpu - Modern x86-64 architecture diagram? - Computer Science Stack Exchange

更值得注意的是，代码里还嵌入了架构层面的注释，解释为什么NT内核的GDT选择器顺序必须与IA32_STAR MSR的格式严格匹配。这不是从训练数据里做模式匹配能解释的行为，它更接近一种前瞻性的ABI推理——模型在写代码的同时，也在理解硬件和操作系统之间的契约关系。这种能力已经超出了传统意义上"代码补全工具"的范畴，它更像是在进行系统层面的设计思考。

这个项目并非Fable 5单打独斗。事实上，Fable 5只贡献了项目从零开始代码的约40%，却仅消耗了总开发轮次的3%。剩下的97%开发量由Claude Opus 4.8承担，经历了八天高强度的迭代和调试，最终让内核具备了加载未修改Windows驱动程序的能力，甚至能运行真正的Windows二进制文件——sort.exe、choice.exe和cmd.exe都能正常执行。两种模型的分工呈现出一种有趣的"原型-精修"模式：Fable 5负责快速搭建骨架和发现深层架构问题，Opus 4.8负责漫长的打磨和兼容性攻坚。

这种模型拆分其实是刻意为之的。Fable 5虽然能力更强，但它身上绑着过于激进的网络安全安全分类器，触发范围之广足以误伤相邻的防御机制。Fable 5于2026年6月10日作为Anthropic Mythos网络安全模型的公开版本发布，然而短短几天内，美国政府的出口管制指令就迫使Anthropic彻底切断了对该模型的访问。这个项目的实验窗口期，短得令人窒息。一个能在38分钟内写出内核的模型，公众却几乎没来得及真正使用它，这种反差本身就值得深思。

内核在QEMU里成功启动，通过了所有自检，但这只是故事的一半。Fable 5自己就在代码中标记了风险最高的路径：调度器锁交接、自旋锁和DPC队列。它建议后续用loom做全面的并发性探索，用Miri检测未定义行为。换句话说，模型在交付代码的同时，也坦白了"我写的东西可能有问题，你们得好好验"。这种自我怀疑的能力，反而比盲目自信更令人不安——它知道自己在做什么，也知道自己的局限在哪里。

Rust vs C++ in 2026: How Businesses Should Choose the Right Systems Architecture -

这正是当前AI系统编程最尖锐的矛盾：编写能力已经明显超越了验证能力。一个模型生成x86_64内核可信计算基（TCB）的速度，比任何人工团队审计的速度都要快。形式验证、属性测试、并发模型检查器这些工具，目前还追不上AI的产出节奏。在验证工具真正成熟之前，AI编写的内核本质上是一个"启动产物"——它能跑，但它的正确性处于未知状态。而在可信计算基这个领域，"未知的正确性"等于没有立足之地。你可以接受一个推荐算法偶尔出错，但你无法接受一个内核在调度关键进程时产生竞态条件。

互联网的关键基础设施至今运行在海量老旧C代码之上。这些代码库之所以能苟延残喘几十年，不是因为它们完美，而是因为重写技术核心代码库的成本和风险高到令人望而却步。AI用Rust重写内核，恰好同时击穿了这两个瓶颈。Rust在编译期就消灭了操作系统CVE中占比最高的内存安全漏洞——缓冲区溢出、Use-After-Free、空指针解引用这些C语言的老毛病，在Rust的所有权和借用检查器面前几乎无法存活。而AI模型则抹掉了重写过程中最昂贵的人力成本：不再需要数百名内核工程师花数年时间逐行翻译和调试，一个模型在几十分钟内就能搭出骨架。

Claude AI Writes FreeBSD Kernel Exploit in 8 Hours | byteiota

一旦形式验证和自动化测试工具跟上AI的编码速度，保留传统C语言内核的经济理由将迅速瓦解。从操作系统内核到网络协议栈，从加密库到驱动框架，整个基础设施的"技术债务层"都可能成为AI驱动、内存安全的重写对象。这不是科幻，ntoskrnl-rs已经证明了技术可行性，剩下的只是验证工具的追赶和监管框架的适应。想想看，当AI能以几十分钟的速度产出传统团队需要数年才能完成的内核代码，而Rust又能从根本上消除内存安全类漏洞，继续维护那些满是补丁的C代码库还有什么经济上的合理性？

当然，距离真正用AI内核替代Windows NT还有很长的路。但38分钟这个里程碑数字，已经足以让整个基础设施安全社区重新思考：当AI写得比人快、比人准，却还没人能跟得上验证它的时候，我们到底该害怕它写错，还是该害怕自己验不过来？这个答案或许比内核本身更重要。

Booting ARM64 builds of Windows 10 in QEMU | Rafael Rivera