英伟达SWE-1.5深度评测：它真的圆了Devin的梦，还是一场精心包装的“滑铁卢”？收藏这篇就够了！

近日，开发出 Devin 智能体的知名人工智能公司 Cognition 推出其全新高速 AI 编码模型 SWE-1.5。据介绍，该模型专为在软件工程任务中实现高性能与高速度而设计，现已在 Windsurf 代码编辑器中开放使用。今年 7 月，Cognition 高调收购开发工具 Windsurf。同时，Cognition 称，得益于与推理服务提供商 Cerebras 的合作，SWE-1.5 的运行

大靠山

1996人浏览 · 2025-11-03 14:32:30

大靠山 · 2025-11-03 14:32:30 发布

近日，开发出 Devin 智能体的知名人工智能公司 Cognition 推出其全新高速 AI 编码模型 SWE-1.5。据介绍，该模型专为在软件工程任务中实现高性能与高速度而设计，现已在 Windsurf 代码编辑器中开放使用。今年 7 月，Cognition 高调收购开发工具 Windsurf。

同时，Cognition 称，得益于与推理服务提供商 Cerebras 的合作，SWE-1.5 的运行速度最高可达 Anthropic 旗下 Sonnet 4.5 模型的 13 倍。

比 Sonnet 4.5 快 13 倍，

编码性能近 SOTA

“开发者不应在‘思考速度快’与‘思考质量高’的人工智能之间做选择。”Cognition 在官方声明中表示，这一理念是 SWE-1.5 的设计基础。

据介绍，SWE-1.5 经过专门设计，是一款拥有数千亿参数的前沿规模模型，旨在打破上述权衡困境的同时提供顶尖性能与一流速度。而该模型最显著的特点是其原始速度，这一优势源于与推理领域专业机构 Cerebras 的深度合作：共同部署并优化 SWE-1.5。具体举措包括训练一个经过优化的草稿模型以实现更快的投机解码以及构建定制化请求优先级系统，让端到端智能体交互过程更流畅。

Cognition 表示，此次合作让 SWE-1.5 实现了极佳的延迟表现，并“还树立了新的速度标准”，使其处理速度最高可达 950 token / 秒，分别是 Haiku 4.5 模型的 6 倍、Sonnet 4.5 模型的 13 倍。”这一性能飞跃能够让开发者保持 “心流状态”，将此前需 20 秒的某类任务完成时间控制在 5 秒以内。Cognition 认为，5 秒是避免陷入 “半异步死亡谷” 的关键阈值。

当模型运行速度达到最高 950 token / 秒时，此前可忽略不计的系统延迟成为了主要瓶颈，这迫使其重新审视 Windsurf 智能体实现方案中的多个关键部分。为此，Cognition 重写了代码检查（lint checking）、命令执行流水线等核心组件，每一步操作的开销最多降低了 2 秒。“未来，我们计划在这类优化工作上持续投入。”该公司称。

在 Scale AI 开发的 SWE-Bench Pro 基准测试中，Cognition 的 SWE-1.5 模型取得了 40.08% 的良好成绩，仅次于 Claude 的 Sonnet 4.5（该模型得分 43.60%）。此外，SWE-1.5 致力于提供端到端的用户体验。据透露，该模型在高速运行状态下实现了接近当前最佳水平（near-SOTA）的编码性能。

Cognition 方面表示，最重要的是，目前他们团队的众多工程师已将 SWE-1.5 作为日常工作工具，热门应用场景包括：深度探索与理解大型代码库；构建端到端的全栈应用程序轻松编辑配置文件，无需记忆字段名称。据悉，目前 Cognition 处于测试阶段的 Codemaps 功能就在由 SWE-1.5 提供支持。

基于新一代 GB200 芯片训练，

设计全新编码环境

支撑这款新模型的是对尖端基础设施的巨额投入。Cognition 透露，SWE-1.5 的训练依托于 “由数千颗英伟达 GB200 NVL72 芯片组成的先进集群”，并声称它可能是 “首个基于新一代 GB200 芯片训练的公开生产级模型”。GB200 在去年推出之时一度被称为“性能怪兽”，与相同数量的英伟达 H100 Tensor Core GPU 相比，GB200 NVL72 在 LLM 推理工作负载方面的性能最多可提升 30 倍、成本和能耗最多可降低 25 倍。

今年 6 月初，该团队首批获取这批新硬件访问权限时，其固件尚未成熟，这迫使团队从零开始构建更稳健的健康检查系统与容错训练系统。对于专门针对现代软件工程中复杂、多步骤任务微调模型所用到的密集型强化学习（RL）技术而言，这套强大的硬件至关重要。

在训练方法上，该模型的训练是在 Cognition 定制的 Cascade 智能体框架上，通过端到端强化学习完成的，并借助了由上千颗 GB200 NVL72 芯片组成的集群。

同时，Cognition 认为，RL 任务中的编码环境质量是影响下游模型性能的最重要因素。为此，他们手动创建了一个数据集，力求还原在 Devin 与 Windsurf 中观察到的、真实场景下任务与编程语言的广泛分布情况。基于开发 Devin 及构建 Junior-Dev 基准测试的经验，其在打造专属评估体系上投入了大量资源。并且，他们与顶尖高级工程师、开源项目维护者及技术负责人团队合作，设计了高保真度的编码环境。

需要注意的是，SWE-1.5 是其首次尝试借助这类环境提升模型编码能力，该环境中包含三种评分机制：用于可靠验证代码正确性的经典测试（如单元测试、集成测试）、用于评估代码质量与实现思路的评分标准（Rubrics）和借助可使用浏览器的智能体测试产品功能的端到端完整性的智能体评分（Agentic grading）。为确保环境能抵御 “奖励作弊”（reward hacking）行为，他们开发了一套名为 “奖励强化”（reward hardening）的流程 —— 由人类专家尝试寻找绕过评分器的方法。

从 Windsurf 的“余烬”中，

诞生新战略

这款新模型是 SWE 系列模型的迭代产品，而 SWE 项目最初由原 Windsurf 团队在 2025 年 5 月启动，之后 OpenAI 对 Windsurf 的收购计划失败，Cognition 随即介入成为 “接盘方”。如今，通过将 SWE-1.5 直接集成到 Windsurf 集成开发环境（IDE）中，Cognition 正逐步实现一个新愿景。

SWE-1.5 并非单一模型，其模型本身、推理过程与智能体框架经过协同设计，共同构成一个统一系统，以此同时实现高速与智能。“选择编码智能体，不只是选择模型本身。其周边的协同调度系统，对模型的实际表现也有着极大影响。在开发 Devin 时，我们常常希望能将模型与框架协同开发；而通过此次 SWE-1.5 的发布，我们终于实现了这一目标。“Cognition 在公告中解释道。

因此，SWE-1.5 的开发过程包含以下核心环节：

基于领先的开源基础模型，在我们定制的 Cascade 智能体框架之上，于真实任务环境中开展端到端强化学习（RL）训练。
在模型训练、框架优化、工具开发与提示词工程等方面持续迭代。
必要时从零重写核心工具与系统，以提升速度与准确性（当模型速度提升 10 倍后，很多环节都会变成瓶颈。）。其计划在这一领域持续推进，相关改进也将助力 Windsurf 中其他所有模型的性能提升。
高度依赖内部真实场景的 “内部测试使用”（dogfooding）来指导调优决策，这种方式能让其围绕用户体验对智能体与模型进行调优，而通用奖励函数无法实现这一点。
部署该模型的多个测试版本（以 “Falcon Alpha” 为名称），并对性能指标进行监控。

这一战略让 SWE 系列模型得以快速迭代，而 Cognition 此举似乎也在押注：即便没有推出市场上参数规模绝对最大的模型，这种高度集成的高速体验或也能培养出一批忠实用户。

SWE-1.5 vs Composer，

大家怎么看？

SWE-1.5 发布之际，AI 编码环境工具 Cursor 也推出了其专属高速模型 Composer。两家公司都正通过打造专有模型，构建高度集成、低延迟的开发者体验，并减少对第三方接口（API）的依赖。同时，这两项发布表明人工智能开发者工具市场出现了明确的战略趋同。

两家公司都在大规模采用强化学习技术。Cognition 利用一款名为 otterlink 的虚拟机管理程序，在数万个并发的高保真环境中运行强化学习推演，这些环境包含代码执行与网页浏览功能。这种方法与 Cursor 所描述的、为自身强化学习训练 “运行数十万个并发沙盒编码环境” 的方式高度相似。

而该技术路径也凸显出一个共识：要打造真正高效的编码智能体，企业须结合自有定制工具与真实场景对模型进行微调。Cursor 的一位机器学习研究员这样解读该策略：“如今，要实现高效工作，至少需要具备一定水平的智能；若能将这种智能与速度结合，效果会非常出色。”

两者的另一相似之处在于透明度的缺失。Cognition 与 Cursor 均对其新模型的基础架构守口如瓶，仅提及模型基于 “领先的开源基础模型” 构建。这种保密性使得独立评估难以开展，只能依赖用户对企业内部基准测试的信任。这也引发网友一系列的猜测，有人怀疑 SWE-1.5“使用的开源模型可能是 GLM-4.5，Composer 也是一样的情况”。

值得一提的是，据公开介绍，Composer 的生成速度达到每秒 250 个 token，而 SWE-1.5 的处理速度最高可达 950 token / 秒，是前者接近 4 倍。

目前，已有一批开发者试用了两款模型。AI 专家兼博主 Simon Willison 在测试 SWE-1.5 后表示：“这款模型确实感觉非常快。与 Cerebras 合作进行推理，是一步非常明智的举措。”然而，也有用户在使用两款模型后称，“SWE-1.5 虽然速度快，但没能解决一个问题；而 Cursor 2.0 的 Composer-1 模型却一次性解决了该问题（在 5-codex 连接失败的情况下）。”

此外，还有用户反馈，“（SWE-1.5）它在处理小型任务时表现确实不错。但比如在尝试完成某项任务时不仅失败了，还搞砸了所有东西（出现了无效的差异编辑），而 GPT-5（低推理版本）一次就成功完成了。”

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。

顶尖师资，深耕AI大模型前沿技术

实战专家亲授，让你少走弯路
在这里插入图片描述

一对一学习规划，职业生涯指导

真实商业项目实训

大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准，具备真实大模型项目实践操作经验可写入简历，支持项目背调

大厂绿色直通车，冲击行业高薪岗位

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

【粉丝福利社】人人都能学AI编程：Cursor从入门到项目实践

AI编程社区

当AI能写SQL时，数据库表设计反而成了最后一道护城河

AI时代数据库设计的核心挑战与应对策略在AI辅助编程工具普及的当下，数据库设计能力反而变得更加关键。文章通过真实案例揭示了常见设计陷阱：大宽表、错误主键选择、多值存储不当等，这些问题会导致后期10倍以上的重构成本。作者指出AI的局限性在于无法预判业务变化和隐含规则，强调数据库设计是架构决策的核心能力。文章提出7大设计原则：遵循第三范式但适当冗余、选择合适字段类型、强制主键规范、合理使用索引、预

AI编程社区

Multica: 把AI Agent变成真正的队友

Multica不是一个AI编程工具，它解决的是"任务分配、执行追踪、经验沉淀"这三个问题。这三个问题恰恰是现在人+AI协作里最痛的点。你不需要再复制粘贴prompt，不需要一直盯着终端看日志，不需要每次换Agent就从零开始。如果你已经在用Claude Code这类工具，或者想探索多Agent协作的可能性，Multica值得一试。有不懂的地方可以在评论区问，看到会回。