【行业调研报告】【重磅首发】《AI时代传统软件范式变迁》

行业调研报告·INDUSTRY RESEARCH REPORT软件，正在被重新定义AI 时代传统软件范式变迁全景调研开发 · 产品 · 商业 · 格局（2022–2026）—— 从确定性逻辑与席位订阅，到概率性智能与结果计费 ——报告视角：产品 / 商业团队覆盖维度：开发范式 · 产品架构 · 商业模式 · 行业格局地域口径：全球为主线 · 中国市场对照完成日期：2026 年 5 月撰写人：数幄科

数幄科技

886人浏览 · 2026-05-30 19:55:42

数幄科技 · 2026-05-30 19:55:42 发布

行业调研报告 · INDUSTRY RESEARCH REPORT

软件，正在被重新定义

AI 时代传统软件范式变迁全景调研

开发 · 产品 · 商业 · 格局（2022–2026）

—— 从确定性逻辑与席位订阅，到概率性智能与结果计费 ——

报告视角：产品 / 商业团队

覆盖维度：开发范式 · 产品架构 · 商业模式 · 行业格局

地域口径：全球为主线 · 中国市场对照

完成日期：2026 年 5 月

撰写人：数幄科技杨超然（创始人）

执行摘要

自 2022 年 11 月 ChatGPT 引爆生成式 AI 浪潮以来，软件行业正在经历一场比"云转型"更深刻的范式重构。过去四十年，软件的底层逻辑是确定性的——相同输入得到相同输出、价值以"功能"封装、收入以"席位订阅"计量、护城河建立在"功能完备度与切换成本"之上。而 AI 把软件推向了一个概率性的新世界：输出不再可完全复现，软件开始"替人把活干完"而不仅是"给人一件工具"，定价从"按席位"转向"按结果"，价值与护城河在技术栈中加速迁移。

本报告面向产品与商业团队，以全球为主线、中国市场为对照，从开发范式、产品形态与技术架构、商业模式与定价、行业格局与组织人才四个维度，系统梳理这场变迁的事实、数据与判断。全部结论建立在 180+ 次网络信源检索与多源交叉验证之上，关键数字均标注来源与时点，对争议性议题（如"SaaS 已死""AI 泡沫"）一律呈现正反双方。

七个核心判断

开发范式：从"人写代码"到"人编排 AI"。 AI 辅助编程在两年内成为主流——GitHub Copilot 用户破 2000 万，开发者 AI 工具使用率达 84%；Cursor 约 3 年冲到 20 亿美元年化收入、Claude Code 半年破 10 亿，刷新软件史最快增长纪录。但 DORA 2024 与 Stack Overflow 2025 同时揭示"信任悖论"：采用率飙升的同时，开发者对 AI 输出的信任度反而下滑（40%→29%），交付稳定性出现 −7.2% 的回落。
产品架构：从确定性到概率性。 软件的"测试断言"范式被打破，催生了 RAG、向量库、记忆层、Agent 编排、Evals、Guardrails、AI 网关等一整套新技术栈；Anthropic 的 MCP 在一年内被 OpenAI、Google、微软、AWS 集体采纳，成为"Agent 连接万物"的事实标准。CRM、客服、安全、设计、BI 等传统品类正被逐一"Agent 化"重做。
商业模式：席位制正在坍塌。 当一个 Agent 能干十个、五十个人的活，"按人头收费"不是被压缩而是被结构性瓦解。Intercom 按"每解决一张工单 0.99 美元"、Sierra 按"结果"收费、Salesforce 按"对话/credit"收费——按结果计费（outcome-based）从边缘走向主流。代价是毛利模型重写：AI 软件毛利 50–60%，远低于传统 SaaS 的 80–90%。
估值逻辑：资本市场已经重新定价。 上市 SaaS 公司 EV/收入中位倍数从 2024 年底的 6.2× 跌至 2026 年 3 月的 3.3×，一场"SaaSpocalypse"抹去万亿美元市值；与此同时，具备真实 AI 能力的公司获得 30–50% 估值溢价。市场正把软件资产清晰地切成"被 AI 增强"与"被 AI 替代"两类。
市场重心：从 2000 亿"工具"到 4.6 万亿"服务"。微软 CEO 纳德拉断言业务应用将"崩塌"为 Agent，逻辑迁入 AI 层；Foundation Capital 提出真正的奖品不是约 2000 亿美元的 SaaS 工具市场，而是企业花在薪资与外包服务上的 4.6 万亿美元——"Service-as-Software"（服务即软件）。
组织人才：更小的团队，更高的杠杆。 Cursor 母公司约 50 人做到 20 亿美元年化收入，Midjourney 人均营收约 470 万美元。"AI 编排者"成为新角色，"AI Engineer"岗位崛起，而初级开发岗位在多项研究中出现 6–10% 的结构性收缩。
中国对照：低成本开源路线 + 政策市场的双重变量。 DeepSeek 以极低训练成本与开源策略冲击全球格局，通义千问 Qwen 占全球开源模型下载量过半；国内 API 价格战烈度远超海外。但中国 SaaS 市场量级仅为美国约十分之一、90%+ 厂商仍亏损，AI 在中国更多被定位为"提效拓市"而非颠覆存量，叠加信创国产化这一万亿级政策市场，走出一条与欧美不同的路径。

给产品/商业团队的一句话

如果你的产品仍以"席位 × 功能"定价、以"人来操作"为前提设计，那么 AI 不是一个可选的"增强功能"，而是对你价值主张、定价模型与护城河的同时重写。最危险的位置，是停留在"给人一个更聪明的工具"；最稀缺的能力，是把工作流端到端"替客户交付结果"。

四维度变迁速览

表 0-1　传统软件范式 vs. AI 时代范式（四维度对照）

维度	传统软件范式	AI 时代新范式	代表信号
开发	人手写代码，确定性 SDLC	AI 辅助 / 自然语言编程，Agent 自主写 PR	Copilot 2000 万用户；AI 工具采用率 84%
产品	确定性逻辑，功能即价值	概率性智能，RAG/Agent/记忆，结果即价值	MCP 成事实标准；客服/CRM 被 Agent 重做
商业	订阅 + 按席位，80%+ 毛利	用量 / 按结果计费，50–60% 毛利	Intercom $0.99/解决；Agentforce 按对话
格局	功能与切换成本筑墙	数据/工作流/实施深度筑墙，价值上移	SaaS 倍数 6.2×→3.3×；AI 溢价 30–50%

来源：本报告综合 Menlo Ventures、Bessemer、Gartner、Stack Overflow、各公司财报与官方公告整理（详见正文与附录 C）

一组最具冲击力的数字

图 0-1　AI 原生厂商年化收入飙升：传统软件用十年走完的路，它们用一两年

来源：OpenAI / Anthropic 官方及 The Information、SaaStr、VentureBeat 转述（年化运行率口径，详见附录 C）

本报告共七章：第 1 章勾勒变迁的背景与全景；第 2–5 章分别深入四个维度；第 6 章做跨维度的趋势研判与风险揭示；第 7 章给出面向产品团队、商业/GTM 团队与企业决策者的行动建议。附录提供关键厂商速览、术语表、信源清单与大事记。（说明：因 AI 领域变化极快，部分私有公司财务为媒体估算或公司自报口径，报告中已逐处标注；引用时请以最新官方披露为准。）

第 1 章　导论：从"软件吞噬世界"到"AI 重写软件"

2011 年，Marc Andreessen 写下"软件正在吞噬世界"（Software is eating the world）。此后十余年，SaaS 以订阅制重塑了企业软件的商业逻辑，云计算把基础设施变成水电。然而到了 2022 年底，一个新的命题正在浮现：当软件本身可以被自然语言"说"出来、可以"替人把活干完"，那么正在被重写的，是软件自己。

本章先界定传统软件范式的"基本盘"，再用一条时间线标定 AI 浪潮的关键拐点，随后说明本报告的研究范围、方法与分析框架，最后给出贯穿全篇的核心论点。

1.1　传统软件范式的基本盘

要理解"变了什么"，先要讲清"原来是什么"。过去四十年，商业软件建立在四块基石之上：

确定性逻辑（Determinism）。软件是一套被精确编写的规则：相同输入永远得到相同输出。这使得软件可被穷举测试、可被形式化验证、可被信赖去执行转账与记账。整个软件工程学科——单元测试、CI/CD、SLA——都建立在"行为可预测"这一前提上。
人写代码的生产方式。 价值由工程师用键盘逐行创造，开发效率受限于人的数量与经验，"加人"是扩张产能的主要手段，工程师规模是软件公司的核心资产与成本。
订阅 + 按席位的商业模式。 SaaS 用"按用户/月"的订阅取代了一次性买断，用净收入留存率（NRR/NDR）、Rule of 40 等指标度量健康度。收入与"使用软件的人数"线性挂钩——人越多，席位越多，收入越高。
功能与切换成本筑成的护城河。 竞争优势来自功能的完备度、数据的沉淀、集成的深度与迁移的痛苦。先发者通过不断堆叠功能和绑定工作流，抬高用户的转换成本。

这四块基石彼此咬合，构成了一个高毛利（成熟 SaaS 毛利常达 80–90%）、可预测、可复制的商业机器。AI 的冲击之所以"伤筋动骨"，正是因为它同时撬动了这四块基石中的每一块。

1.2　拐点：生成式 AI 浪潮的时间线

这场变迁不是渐进的。从 2022 年 11 月到 2026 年，关键事件以加速度密集发生，把"AI 辅助"一路推进到"AI 自主"，把"实验室能力"一路推进到"商业模式"。

表 1-1　生成式 AI 重写软件范式：关键事件时间线（2022–2026）

时间	关键事件	范式意义
2022.11	ChatGPT 发布	生成式 AI 进入大众视野，五天破百万用户
2023.03	GPT-4 / Salesforce Einstein GPT	大模型能力跃迁，传统软件巨头入场
2023.06	swyx 提出"AI Engineer"概念	新工种诞生：用 API 而非训练做 AI 产品
2024.03	Devin 发布（SWE-bench 13.86%）	"自主 AI 软件工程师"叙事开启
2024.09	Salesforce 发布 Agentforce	CRM 巨头转向 Agent，按对话计费试水
2024.11	Anthropic 发布 MCP 协议	"Agent 连接万物"的事实标准奠基
2024.12	纳德拉称"业务应用将崩塌" / DeepSeek-V3	SaaS 颠覆论与中国低成本开源同时引爆
2025.02	Karpathy 提出"vibe coding"	自然语言编程成年度现象，全民可造软件
2025.05–07	OpenAI Codex Agent / Windsurf 收购风波	异步自主编码 agent 商用元年与赛道洗牌
2025.08	中国"人工智能+"行动 / MIT"95% 试点未见回报"	政策强驱动与"落地难"质疑并存
2026.02	Anthropic $380B 估值 / "SaaSpocalypse"抛售	AI 原生估值狂飙，传统 SaaS 万亿市值蒸发

来源：本报告综合各公司官方公告与 TechCrunch、CNBC、The Information 等报道整理（详见附录 D 大事记）

企业用真金白银投票

时间线背后是真实的支出曲线。据 Menlo Ventures 一手调研，全球企业级生成式 AI 支出从 2023 年的 17 亿美元，跃升至 2024 年的 115 亿、2025 年的 370 亿美元——两年增长逾 20 倍。这不是炒作，而是 CIO 预算的真实再分配。

图 1-1　全球企业级生成式 AI 支出（2023–2025）

来源：Menlo Ventures《2025: The State of Generative AI in the Enterprise》（企业软件采购口径）

1.3　研究范围、方法论与分析框架

研究范围。 时间上聚焦 2022 年底至 2026 年，重点为 2024–2026 的最新进展；地域上以全球（欧美头部厂商与趋势）为主线，以中国市场为对照；视角上立足产品与商业团队，兼顾技术演进的必要背景。

方法论。 本报告基于 180+ 次网络信源检索与多源交叉验证，信息按可信度分层标注：官方（公司/机构自报）、三方（独立调研机构如 Menlo、Bessemer、McKinsey、Stack Overflow）、媒体（报道/估算）、估算/传闻。对同一指标存在多家不同口径的（如"AI 占 VC 比例""AI 生成代码占比"），一律并列呈现并注明差异来源；对私有公司财务，明确区分"官方披露"与"媒体估算"。

一个重要的方法论提醒

AI 领域的数字极易被误读。例如 DeepSeek"557 万美元训练成本"仅含正式训练、不含研究与实验投入；OpenAI"70% compute margin"是非 GAAP 口径、其 GAAP 毛利仅约 33%；各公司"AI 写了 X% 代码"的口径（补全建议 vs 最终合并代码）差异巨大。本报告在引用此类数字时均加注口径，读者据此决策时务必回到原始定义。

分析框架。 我们把"软件范式"拆解为四个相互咬合的维度，对应本报告第 2–5 章；它们并非孤立，而是构成一个相互强化的飞轮（第 6 章详述）：

开发范式（怎么造）——软件被生产的方式：编程、测试、运维、协作。
产品与架构（造什么）——软件的形态与技术栈：从确定性程序到概率性 Agent。
商业模式（怎么卖、怎么赚）——定价、毛利、获客与价值捕获。
行业格局与组织（谁赢、靠什么赢）——护城河、资本、团队与人才。

1.4　核心论点：四个"从……到……"

如果用一句话概括这场变迁，那就是软件正在经历四个同步发生的迁移。它们是本报告全部论证的主线：

表 1-2　本报告核心论点：软件范式的四重迁移

维度	从（传统）	到（AI 时代）
开发	人写代码	人编排 AI（Agent 自主生产）
产品	确定性逻辑、功能即价值	概率性智能、结果即价值
商业	订阅 + 按席位、高毛利	用量 / 按结果计费、毛利重构
格局	功能与切换成本筑墙	数据 / 工作流 / 实施深度筑墙，价值上移

来源：本报告分析框架

需要强调的是，本报告并非"AI 颠覆一切"的单边叙事。我们将同等认真地呈现另一面：DORA 与 Stack Overflow 揭示的"信任悖论"、MIT"95% 企业试点未见回报"、Gartner"幻灭低谷"、Michael Burry 的折旧质疑，以及 Klarna 高调自动化后又悄悄召回人工的现实。真正的图景是：范式确在重写，但兑现价值的路径远比叙事曲折。 这正是产品与商业团队需要冷静研判之处。

第 2 章　开发范式之变：软件如何被制造

如果说软件范式的变迁有一个"震中"，那就是开发本身。在四十年里，软件的生产方式高度稳定：工程师用键盘把需求翻译成代码，效率受限于人的数量与经验，"加人"是扩张产能的主要手段。而从 2022 年底 ChatGPT 引爆生成式 AI 起，这台机器在不到三年里被彻底改写——AI 先是成为"更聪明的自动补全"，继而成为"会聊天的结对程序员"，再到 2025 年已能被指派一个任务、自己读代码、自己改、自己提交 Pull Request。本章按"工具与市场 → 自然语言编程 → 全流程 AI 化 → 自主智能体 → 效率与质量实证 → 中国对照"的顺序，铺陈这场变迁的事实、数据与争议。

本章的一个核心张力贯穿始终：采用率以前所未有的速度上升，信任度却在同步下降。理解这个"信任悖论"，是产品与商业团队判断"AI 编程到底兑现了多少价值"的关键。

2.1　AI 辅助编程工具：两年从边缘到主流

生成式 AI 对开发的第一波改造，是"辅助编程工具"（AI coding assistant）的爆发。它们嵌入 IDE，提供代码补全、自然语言问答、整段生成与重构建议。短短两年，这个赛道从 GitHub Copilot 一家独大，演变为一个群雄并起、估值与收入双双失控式增长的新市场。

2.1.1　GitHub Copilot：先发者与"既得利益者"

作为 2021 年最早商用的 AI 编程助手，GitHub Copilot 凭借与 VS Code、GitHub 的深度绑定占据先发优势。微软在 2025 年 Q3 财报电话会上披露，Copilot 全周期用户突破 2000 万，三个月内净增 500 万（此前为 1500 万）；到 FY26 Q2 财报（2026 年 1 月 28 日），付费订阅约 470 万，同比增长约 75%。第三方统计称其用于约 90% 的财富 100 强企业、5 万+ 组织在用，在付费 AI 编码工具中市场份额约 42%。需要提醒：微软不公开 Copilot 的独立 ARR，分析师估算在"低至中等数亿美元"区间，乐观假设下可能接近 10 亿美元——此为媒体估算，非官方数据。

数据来源：微软 FY25 Q3 / FY26 Q2 财报电话会（官方，用户与付费订阅）；i2tutorials、getpanto.ai（第三方统计，市场份额与企业渗透为估算）

2.1.2　Cursor（Anysphere）：刷新软件史的增长曲线

真正把这个赛道推向资本狂热的是 Cursor。其母公司 Anysphere 的 ARR 轨迹堪称软件史上最陡峭之一：2025 年 1 月约 1 亿美元 → 6 月超 5 亿 → 11 月突破 10 亿 → 2026 年 2 月，彭博报道其年化收入超过 20 亿美元，约合三年内 20 倍增长。估值同步飙升：2025 年 6 月 99 亿美元（融资 9 亿），11 月 Series D 达 293 亿美元 post-money（融资 23 亿），2026 年初更传出洽谈 500 亿美元估值。Cursor 自报拥有超过 100 万日活用户，财富 500 强中超半数、财富 1000 强中 70% 为其客户。

数据来源：TechCrunch（2025-06-05，估值与 $500M ARR）、The Next Web、Bloomberg（2026-02，$2B 年化）；用户与客户渗透为公司自报（官方/媒体口径）

2.1.3　Windsurf：72 小时三方拆分的赛道缩影

AI 编程赛道之激烈，集中体现在 2025 年 7 月的 Windsurf（原 Codeium）收购风波——一桩堪称"72 小时三方拆分"的戏剧性事件：

2025 年 5 月： OpenAI 达成约 30 亿美元收购意向。
7 月 11 日：交易告吹——OpenAI 不愿其最大股东微软借此获得 Windsurf 的技术访问权。
同日： Google 以约 24 亿美元许可 Windsurf 技术，并挖走 CEO Varun Mohan、联创 Douglas Chen 及核心研究员入职 DeepMind。
7 月 14 日： Devin 的母公司 Cognition 以约 2.5 亿美元收购 Windsurf 剩余主体。

被收购时，Windsurf 约有 8200 万美元 ARR、350+ 企业客户、数十万日活；其 ARR 在 2025 年 2 月还只有约 4000 万、4 月约 1 亿——增长之快与赛道洗牌之烈同样触目。

数据来源：TechCrunch（2025-07-11、2025-07-14）、Fortune（2025-07-11）。收购金额与 ARR 为媒体报道口径

2.1.4　Replit 与 Amazon Q：消费级爆发与企业级稳态

Replit 代表了"消费级 vibe coding"的爆发力：其 ARR 从 2024 年底约 1600 万美元飙升至 2025 年 10 月约 2.53 亿美元（同比 +2,352%），曾在 5.5 个月内从 1000 万冲到 1 亿；用户从 2025 年 9 月的 4000 万+ 增至 2026 年 3 月的 5000 万+。Amazon Q Developer 则走企业级稳态路线：AWS 自报内部年化节省 2.6 亿美元、节省约 4,500 "开发者年"；试点企业数据显示开发吞吐量平均 +40%、代码缺陷 −30%，起价 3 美元/用户/月。需注意 Amazon Q 的成效数字均为 AWS 自报，缺乏独立第三方验证。

数据来源：Sacra（2025-10，Replit ARR，三方）；AWS DevOps 博客（Amazon Q，官方自报）

表 2-1　主流 AI 编程工具关键指标速览（截至 2025 年底–2026 年初）

工具 / 公司	收入（ARR / 年化）	用户 / 采用	估值 / 归属	口径
GitHub Copilot / 微软	未独立披露（估数亿–~10 亿）	2000 万+ 用户；470 万付费	微软自有	官方+估算
Cursor / Anysphere	~20 亿（2026.02）	100 万+ 日活；F500 过半	~293 亿（洽谈 500 亿）	媒体
Windsurf / Codeium	~8200 万（被购时）	数十万日活；350+ 企业	Google 许可 + Cognition	媒体
Replit	~2.53 亿（2025.10，+2352%）	5000 万+ 用户	约 30 亿	三方(Sacra)
Amazon Q Developer	未披露	内部节省 ~2.6 亿/年	AWS 自有	官方自报
Tabnine	未披露（2024 增长 300%）	100 万+ 月活	累计融资 6500 万	官方+估算

来源：各公司财报与官方公告、TechCrunch、Bloomberg、Sacra、GlobeNewswire 综合整理。私有公司收入多为公司自报或媒体估算，口径不一，引用以最新官方披露为准

此外，Tabnine 走差异化的"企业隐私"路线（支持本地/气隙部署），2024 年同比增长 300%，100 万+ 月活，并在 2025 年 Gartner AI Code Assistants 魔力象限中升入"Visionary"象限。整体看，第三方机构估算 AI 代码助手市场 2025 年约 39 亿美元，2035 年达约 66 亿——但需提醒：不同机构对该市场的规模与增速口径差异极大（部分给出 24% 的 CAGR），引用时应注明来源。

数据来源：GlobeNewswire（2025-09，Tabnine Gartner，官方）；Future Market Insights、market.us（市场规模，三方，口径分歧大）

2.2　Vibe Coding 与 prompt-to-app：人人皆可造软件

如果说辅助工具改造的是"专业开发者怎么写代码"，那么 2025 年的"vibe coding"现象，则把软件生产的门槛降到了"会说话就行"。

2.2.1　一个词如何定义一个时代

2025 年 2 月，前特斯拉 AI 总监、OpenAI 创始成员 Andrej Karpathy 在 X 上发帖造出"vibe coding"一词，原文是：There's a new kind of coding I call "vibe coding", where you fully give in to the vibes, embrace exponentials, and forget that the code even exists.（他以 Cursor Composer + Claude Sonnet + 语音输入为例）。该帖浏览量超 450 万次，"vibe coding"随后被 Collins Dictionary 评为 2025 年度词汇。其内涵已从 Karpathy 原意（语音放手、彻底交给 AI、忘掉代码本身）泛化为"任何 prompt 驱动的开发"。

值得注意的是争议的一面：独立开发者 Simon Willison 等人强调，并非所有 AI 辅助编程都是 vibe coding——真正的 vibe coding 是"不审阅、不理解代码"地接受 AI 产出，而专业场景下的 AI 辅助仍需人来把关。术语的快速泛化本身，正是这场范式变迁热度的注脚。

数据来源：Karpathy X 原帖（2025-02，一手）；CodeRabbit 语义史、Simon Willison 博客（2025-03-19）；Collins Dictionary 年度词汇（官方）

2.2.2　Prompt-to-App 工具：从一句话到一个可运行的应用

与概念同步爆发的，是一批 prompt-to-app（自然语言生成完整应用） 工具，它们把"造软件"这件事交付给非专业用户与产品经理：

Lovable（瑞典） ——软件史上最快 ARR 爬坡之一。ARR 从 2025 年 7 月 1 亿美元 → 11 月 2 亿 → 2026 年 1 月 3 亿 → 2 月 4 亿美元，自首个 100 万美元起仅 8 个月破亿，自称"快过 OpenAI、Cursor、Wiz 及史上所有软件公司"。平台每日新建 10 万+ 项目，首年累计 2500 万+ 项目，近 800 万用户；2025 年 12 月 Series B 融资 3.3 亿美元、估值 66 亿。
Vercel v0 ——擅长 React/前端 UI 生成。截至 2026 年 2 月用户超 400 万；母公司 Vercel 2026 年 3 月年化收入约 3.4 亿美元（同比 +84%）。
Bolt.new（StackBlitz） ——全栈生成。2024 年 10 月上线后，4 周内 400 万美元 ARR、约 2 个月 2000 万、2025 年 3 月 4000 万美元 ARR；500 万注册用户。StackBlitz 累计融资 1.35 亿美元，2025 年 8 月估值约 7 亿。

数据来源：Lovable 官方博客与 TechCrunch（2025-12-18）；Sacra（v0、Bolt.new，三方）。收入为年化运行率口径，私有公司数据含自报成分

一个值得警惕的口径提醒

prompt-to-app 工具的"用户数""项目数"极易制造繁荣假象——大量项目是一次性试用、demo 或未上线的玩具应用，与"生产级软件交付"不是一回事。这些 ARR 数字虽真实反映了付费意愿的爆发，但把"创建了多少项目"等同于"创造了多少真实价值"是危险的。产品团队评估这类工具时，应区分"可玩性指标"与"留存 / 投产指标"。

2.3　SDLC 全流程 AI 化：不止于"写代码"

AI 对开发的渗透，早已越过"写代码"这一环，向软件开发生命周期（SDLC）的需求、设计、测试、评审、文档、运维全流程扩散。

2.3.1　测试生成与代码评审：从"人审人"到"AI 先审"

Qodo（原 CodiumAI） ——2024 年由测试生成工具转型为全栈质量平台，Series A 融资 4000 万美元，入选 2025 Gartner "Visionary"。其 2.0 版（2026 年 2 月）推出多智能体评审架构（bug、质量、安全、测试覆盖各一个 agent 并行），在 8 款工具对比中 F1 最高（60.1%）。
CodeRabbit ——最广泛采用的专用 AI 评审工具，连接仓库超 200 万、已评审 PR 超 1300 万；2025 年 5 月推出免费 IDE 插件（VS Code / Cursor / Windsurf），在 PR 开启前即提供行内评审。
Diffblue Cover ——面向大型 Java 代码库，用符号分析（而非 LLM）生成确定性、可回归的单元测试，深度集成 CI/CD。

数据来源：Qodo、CodeRabbit 官方与 LogRocket、DEV Community 等媒体评测（2025–2026）。F1 与仓库 / PR 数据为厂商披露口径

2.3.2　AIOps：运维与事件管理的自动化

在交付之后的"运维"环节，AIOps（AI for IT Operations）正从规则告警走向"agent 原生"的半自主修复。第三方机构估算其市场规模在 2024–25 年约 160–180 亿美元（部分口径 2025 年约 111.6 亿、CAGR 25.3%，2029 年达 326 亿，口径分歧明显）。成效方面，可观测性叠加 AIOps 可将 MTTR（平均修复时间）降低至多 50%、L1/L2 工单量降 35–40%、根因分析（RCA）从小时缩至分钟；2024 年已有 75%+ 全球企业部署或正在探索 AIOps。2025 年的新趋势，是支持自然语言洞察与半自主修复工作流的"agent-native AIOps"平台兴起。

数据来源：Thoughtworks（2025 复盘）、IBM/Gartner AIOps 市场指南、AIOps Community（三方）。市场规模多机构口径不一

表 2-2　SDLC 各环节的 AI 渗透与代表工具

SDLC 环节	AI 能力形态	代表工具 / 信号
编码	补全 / 自然语言生成 / 重构	Copilot、Cursor、Windsurf、Tabnine
原型 / 应用生成	一句话生成可运行应用	Lovable、v0、Bolt.new、Replit
测试	自动生成单测 / 集成测试	Qodo、Diffblue Cover
代码评审	AI 先审 PR / 多智能体评审	CodeRabbit、Qodo 2.0
文档	AI 生成 / 同步文档	DORA 2024：文档质量 +7.5%
运维 / 监控	异常检测 / 半自主修复	AIOps：MTTR −50%、工单 −35~40%

来源：各工具官方与第三方评测综合；DORA 2024 报告（每提升 25% AI 采用率对应的环节增益）

2.4　Agentic 软件工程：从"结对"到"自主"

2024–2026 年开发范式最深刻的跃迁，是 agentic（智能体）软件工程的成熟——AI 不再只是"建议下一行代码"，而是被指派一个任务后，自主地读仓库、制定计划、改代码、跑测试、提交 Pull Request。这把"人写代码"推向了"人编排 AI 自主生产"。

2.4.1　Devin 与 SWE-bench：一条快速攀升的能力曲线

2024 年 3 月，Cognition 发布 Devin，号称"全球首个自主 AI 软件工程师"，并以 SWE-bench 自报得分 13.86% 引爆关注——这一成绩远超当时业界 1–4% 的 SOTA 水平。SWE-bench 由此成为衡量自主编码能力的核心标尺，其分数曲线在两年内陡峭攀升：从 2024 年初的个位数，到 2026 年 5 月，SWE-bench Verified 榜首已报出 ~88–94% 的高分（Claude 系列领先，GPT-5.5 约 82.6%）。

但这里必须呈现争议的另一面：SWE-bench Verified 存在数据污染质疑。OpenAI 审计发现，前沿模型能够逐字复现部分测试任务的"标准答案补丁"（gold patch），说明训练数据可能已包含基准答案；OpenAI 因此停止报告 Verified 分数，转而推荐更难、分数显著更低的 SWE-bench Pro（约 46% 即可领先）。因此，引用"接近 90%"这类高分时，必须附上污染 caveat，不能直接等同于"AI 已能解决 90% 的真实工程问题"。

数据来源：Cognition（2024-03，Devin 自报）；llm-stats.com、localaimaster（第三方榜单，谨慎）；Scale、Morph（SWE-bench Pro 与污染争议，2026）

Cognition 自身的商业化也印证了赛道热度：Devin 的 ARR 从 2024 年 9 月的 100 万美元增至 2025 年 6 月的 7300 万（收购 Windsurf 前）；公司估值从 2025 年 9 月的 102 亿美元（Founders Fund 领投 4 亿融资），到 2026 年 4 月传出洽谈 250 亿美元。

数据来源：Sacra（Devin ARR，三方）；TechCrunch（2025-09-08）、Bloomberg（估值，媒体）

2.4.2　Claude Code：终端里的"ChatGPT 时刻"

2025–2026 年最具现象级的 agentic 产品，是 Anthropic 的 Claude Code。其运行率收入已超过 25 亿美元（自 2026 年初已翻倍），公开发布仅 6 个月即破 10 亿美元运行率。一个尤其能说明范式变迁的指标：GitHub 公开提交（commit）中约 4% 由 Claude Code 撰写，且一个月内翻倍；周活用户自 2026 年 1 月 1 日起翻倍，企业收入占其总收入 50% 以上。母公司 Anthropic 借此把整体运行率收入推高至 140 亿美元（2026 年 2 月），并完成 300 亿美元 Series G、估值 3800 亿美元，连续三年保持 10 倍以上增长。

数据来源：Anthropic Series G 官方公告（2026-02-12，官方，已逐字核实）

2.4.3　OpenAI Codex 与 GitHub Copilot agent：大厂的自主化

OpenAI Codex（2025 新版） ——2025 年 5 月重新发布为云端自主软件工程 agent（不再只是模型），可并行处理多任务，每个任务运行在独立云沙箱并预装仓库，能写功能、答疑、修 bug、提 PR。最初由 codex-1（o3 优化版）驱动，后续版本升级至 GPT-5.5 / GPT-5.3-Codex；6 月 3 日对 ChatGPT Plus（20 美元/月起）开放，提供 CLI（本地、Rust、开源）与 Cloud Agent 两种形态。
GitHub Copilot coding agent ——Microsoft Build 2025 发布，2025 年 9 月 25 日全面可用（GA）。可将一个 GitHub issue 直接指派给 "Copilot" 作为 assignee，由它自主研究仓库 → 制定计划 → 建分支 → 改代码 → 开 draft PR → 请人评审，全程运行在 GitHub Actions 环境中；10 月起支持在任意 PR 中用 @copilot 追加修改。它与 IDE 内的"agent mode"（本地直接编辑）是两套机制。

此外，开源世界的 SWE-agent（Princeton + Stanford，NeurIPS 2024）是 agentic 编码的学术鼻祖，其核心"Agent-Computer Interface"解决长程任务的上下文丢失问题，被 Meta、NVIDIA、IBM 等采用；衍生的 mini-swe-agent 仅 100 行代码，在 SWE-bench Verified 上仍超 74%。

数据来源：OpenAI、GitHub 官方文档与 Changelog（2025）；princeton-nlp/SWE-agent GitHub（官方）

2.5　效率与质量实证：被夸大还是被低估？

喧嚣的叙事之外，AI 编程到底带来了多少真实收益、又埋下了哪些隐患？这一节回到实证数据，并刻意同时呈现"提效"与"隐忧"两面。

2.5.1　提效的硬证据

Copilot 随机对照试验（RCT）。 GitHub 与学者的经典 RCT 显示，使用 Copilot 组完成"用 JS 实现一个 HTTP server"任务快 55.8%（95% 置信区间 21–89%；1 小时 11 分 vs 2 小时 41 分），完成率 78% vs 70%；经验较少、年长、每天编程时长更多者获益最大。
大厂高管口径。 Google CEO Sundar Pichai 在 2024 年 10 月财报称"约 25% 新代码由 AI 生成"，2025 年 4 月升至"超 30%"；Anthropic 披露 GitHub 公开提交约 4% 由 Claude Code 撰写。
DORA 2024 的环节增益。 每提升 25% 的 AI 采用率，文档质量 +7.5%、代码质量 +3.4%、代码评审速度 +3.1%；75%+ 开发者每天至少用 AI 完成一项职责。

数据来源：GitHub / arXiv 2302.06590（RCT，官方研究）；Alphabet 财报电话会（2024-10、2025-04，官方表态）；Google Cloud DORA 2024 官方博客（三方权威，已核实）

2.5.2　信任悖论与质量隐忧

然而，同样权威的数据揭示了一个反方向的事实——采用率越高，信任度反而越低，交付稳定性甚至下滑：

DORA 2024（Google）。在带来个人提效的同时，AI 采用每提升 25% 对应交付吞吐量 −1.5%、交付稳定性 −7.2%；39% 开发者对 AI 生成代码"很少或毫不信任"。报告称这是一个"悖论"：AI 提升个人产出与代码质量，却可能损害整体交付绩效，凸显小批量、健全测试等基本功不可替代。
Stack Overflow 2025。 AI 使用率升至 84%（2024 为 76%），但信任准确性的比例从 2024 的 40% 跌至 29%，46% 开发者主动不信任、仅 3% 高度信任；最大挫败是"AI 方案几乎对、但差一点"（66%），其次是"调试 AI 代码更耗时"（45%）；正面情绪从 2023–24 的 70%+ 降至 60%。
GitClear 代码质量研究。 分析 2020–2024 约 1.5–2.1 亿行代码变更后发现：复制粘贴（克隆）代码占比从 2021 的 8.3% 升至 2024 的 12.3%，2024 年复制粘贴行数首次超过重构行数、重复代码块增长约 8 倍；两周内被改写的"churn"代码从 2020 的 5.5% 升至 2024 的 7.9%；重构占比从 2021 的 25% 跌至 2024 的不足 10%。需注明：GitClear 有自有商业产品立场，数据系其自报方法论，应标注引用。

数据来源：Google Cloud DORA 2024（官方核实）；Stack Overflow 2025 开发者调查官方页（三方，已核实）；GitClear AI Code Quality 2025（三方，厂商自报，建议加注）

图 2-1　信任悖论：开发者 AI 采用率上升，信任度同步下降

来源：Stack Overflow 2024/2025 开发者调查、DORA 2024 报告（三方）。采用率为"使用或计划使用"口径，信任为"信任 AI 输出准确性"口径

图 2-2　"AI 生成了多少代码"：多口径并存，差异巨大

来源：Alphabet 财报（Google 25%→30%+，自报）、Anthropic（GitHub 公开提交 ~4%，官方）等。各口径定义不同（补全建议 vs 最终合并代码 vs 公开 commit），不可直接横向相加

如何正确解读"AI 写了 X% 代码"

这类数字是被误读的重灾区。Google 的"30%"指 AI 辅助生成的新代码占比（含被采纳的补全建议），Anthropic 的"4%"指 GitHub 公开 commit 中由 Claude Code 撰写的比例——两者口径完全不同，不能横向比较，更不能简单相加为"行业平均"。同理，"提效 55%"来自受控的小任务实验，并不等于真实项目端到端提速 55%。结论：AI 编程的提效是真实的，但其幅度高度依赖任务类型、口径定义与度量边界；而 DORA / SO / GitClear 一致提示的质量与信任隐忧，同样真实，不可被增长叙事掩盖。

2.6　中国对照：大厂主导的国产 AI 编程版图

中国的 AI 编程赛道呈现"大厂主导、IDE 化跟进、生成代码量惊人"的特征。本节作为对照速览，深度的中国市场分析见后续章节。

字节跳动 Trae ——2025 年 1 月 19 日上线，号称"国内首个 AI 原生 IDE"。总注册用户超 600 万，月活 160 万+，覆盖近 200 个国家和地区，一年生成近 1000 亿行代码；IDC 数据称其以 41.2% 市场份额居中国第一（份额数据需谨慎）。
阿里通义灵码 ——插件下载量超 2000 万，累计生成代码超 30 亿行；2025 年公共云版升级为 Qoder CN，覆盖独立 IDE 与 JetBrains / VS Code 插件。
蚂蚁 CodeFuse ——蚂蚁集团自研代码大模型，2024 年发表 10 篇论文，定位研发流程简化与智能建议（未检索到公开的具体用户数）。
百度文心快码（Comate） ——定位"第二代 AI 原生 IDE"，对标 Cursor，依托文心大模型迭代。
华为云 CodeArts ——主打鸿蒙系统适配与嵌入式开发，硬件驱动调试提速约 40%，贴合制造业技术栈；腾讯 CodeBuddy 在多份国产横评中亦与上述并列。

数据来源：字节跳动 TRAE 2025 年度产品报告（官方）、IDC（市场份额，三方，谨慎）；阿里云官方（通义灵码下载与生成量）；蚂蚁 CodeFuse、百度 Comate、华为 CodeArts 官方与国产横评媒体

一个值得对照的观察：国产工具的"生成代码量"动辄数十亿到千亿行级别，数字极其亮眼，但与海外一样，"生成量"不等于"采纳量"或"价值量"；且国内更多走"大厂自有大模型 + IDE 集成 + 价格战"的路线，与欧美由独立创业公司（Cursor、Lovable）领跑、靠估值驱动的格局形成鲜明对比。

给产品/商业团队的要点

一、开发范式已确定性地从"人写代码"迁移到"人编排 AI"。两年内 Copilot 破 2000 万用户、AI 工具采用率达 84%、Cursor / Claude Code 刷新软件史增长曲线，agentic 编码已能自主提 PR——这不是趋势，是既成事实。 二、但"提效"与"信任 / 质量"是一枚硬币的两面。 DORA、Stack Overflow、GitClear 一致揭示：采用率飙升的同时，信任度下滑、交付稳定性回落、代码克隆与 churn 上升。把 AI 当作"无需把关的产能"是危险的；真正的杠杆来自"AI 生产 + 人 / AI 双重把关 + 健全测试"的新工作流。 三、警惕被夸大的数字口径。 "AI 写了 X% 代码""提效 55%""生成千亿行"——务必回到定义（补全建议 vs 合并代码、受控实验 vs 真实项目、生成量 vs 采纳量）再做决策。 四、对产品定位的启示。 最危险的位置是停留在"给开发者一个更聪明的补全"；最稀缺、最具商业纵深的，是把测试、评审、运维乃至端到端任务"替客户交付结果"的 agentic 能力——这也正是 Cursor、Claude Code、Devin 估值与收入同时失控式增长的根本原因。

第 3 章　产品形态与技术架构的重构

如果说第 2 章讲的是"软件怎么被造出来"的变化，本章关注的则是"软件本身长成什么样、底层由什么搭起来"。这是一场比 UI 换肤深刻得多的重构：软件的确定性内核被一个概率性的语言模型取代，围绕它生长出 RAG、向量数据库、记忆层、Agent 编排、Evals、Guardrails、AI 网关等一整套前所未有的技术栈；交互范式从"点按 GUI"滑向"表达意图"；而 CRM、客服、网络安全、设计、办公、BI 等存量软件品类，正被逐一"Agent 化"重做。

本章先讲最根本的一层变化——从确定性到概率性（3.1）；再拆解 LLM-native 应用的新架构（3.2）与 Agent / 多 Agent 体系及其连接标准 MCP（3.3）；随后梳理支撑这一切的 AI 基础设施新栈（3.4）；接着看交互范式的迁移（3.5）；最后用一组案例说明传统品类如何被重做（3.6），并以中国对照（3.7）收尾。

3.1　最根本的转变：从确定性到概率性

过去四十年软件工程的全部信心，建立在一句话上：相同输入，得到相同输出。单元测试、CI/CD、形式化验证、SLA——整座大厦都以"行为可预测"为地基。大语言模型动摇的正是这块地基。

测试断言为何失效

学界与工程界已形成共识：LLM 应用是从"确定性计算"（deterministic computation）转向"概率性生成"（probabilistic generation）。同一个 prompt 在多次运行间可能产生差异巨大的响应，并且即便把 temperature 设为 0，重复查询仍可能得到不一致的输出（受浮点运算、批处理、硬件等非确定性因素影响）。对于摘要、生成、推理类任务，多个不同的输出可以同时正确，根本不存在唯一正确答案可供断言。

这意味着传统的"确定性测试预言机"（deterministic oracle）整体失灵。一篇 2025 年的研究把这种困境概括为 LLM 软件的一场"QA 危机"：传统测试假定世界是可预测的，而 LLM "运行在近似、解释与不可复现的世界里"，质量保障必须从"精确匹配"转向"基于标准的判定"（criteria-based）。学界也开始提出可度量化的新协议（如 AICL），把 概率评估、动态探索、运行时保障、方法协作 四个范式转变变为可自动化的工程实践。

来源（三方/学界）：arXiv 2508.20737《Rethinking Testing for LLM Applications》(2025)；arXiv 2503.00481《Challenges in Testing LLM-Based Software: A Faceted Taxonomy》(2025)；LogRocket《LLMs are facing a QA crisis》。

"Software 3.0"：用自然语言编程

如果概率性是"代价"，那么它的"红利"是编程方式本身的解放。2025 年 6 月，前特斯拉 AI 总监 Andrej Karpathy 在 Y Combinator 的演讲《Software in the Age of AI is Changing (Again)》中提出 "Software 3.0" 框架，把软件演进划为三阶段：

Software 1.0——人手写的传统代码（确定性规则）。
Software 2.0——神经网络的权重（用数据"训练"出行为）。
Software 3.0——自然语言 + LLM 接口，"prompt 就是用英语写成的程序"（prompts are programs written in English）。

Karpathy 进一步断言 LLM 兼具"公用事业（电力）、晶圆厂、操作系统"三重属性，是一种新型可编程基础设施；并提出 "2025–2035 是 Agent 的十年"。由他推广的 "vibe coding"（凭感觉编程）一词也在 2025 年成为年度现象——这部分属于愿景与观点，需与可核实事实区分，但它精准刻画了产品形态变化的方向：软件的边界不再由"功能菜单"划定，而由"能表达的意图"划定。

来源（媒体转述演讲，属观点/愿景）：Techmeme 汇总 + YC / Andrej Karpathy YouTube 演讲(2025-06-19)；catalaize《Software Is Changing (Again)》解读。

3.2　LLM-native 应用的新架构

围绕一个概率性的语言模型，工程界用两年时间长出了一整套"喂上下文、管记忆、控质量"的新架构。其核心命题只有一句：如何把"强大的检索与推理能力"塞进"有限而宝贵的上下文窗口"。

RAG：从"朴素检索"到"Agentic RAG"

检索增强生成（RAG, Retrieval-Augmented Generation）是 LLM 落地企业知识最主流的范式：在模型回答前，先从外部知识库检索相关片段塞进上下文，以缓解幻觉、引入私有/实时数据。自 2020 年提出后，RAG 在 2025 年完成了一次关键跃迁——从静态、规则驱动的检索管线，演进为 Agentic RAG / Reasoning-RAG：

朴素 RAG（Naive RAG）的局限。 简单拼接检索片段，易产生碎片化或自相矛盾的回答，在法律、生物医学等需要多跳推理（multi-hop）的场景尤其明显。
Agentic RAG 的进化。 把决策嵌入检索过程，模型主动判断 "何时检索、检索什么、如何检索"；引入自我评估与纠错（Self-Evaluation & Error Correction）、自适应检索（Adaptive Retrieval）、以及 ReAct 式"思考-规划-调用工具"的交织。
结果。 到 2025 年，RAG 系统"不再只是取文档，而是会思考、会检查、会自适应、会行动"，从被动问答走向自主推理。

来源（三方/学界）：arXiv 2501.09136《A Survey on Agentic RAG》(2025)；arXiv 2506.10408《Reasoning RAG via System 1 or System 2》(2025)；RAGFlow《From RAG to Context: 2025 年度回顾》。

向量数据库：新栈的"存储底座"，但正在"去专用化"

RAG 的检索依赖向量数据库（vector database）——把文本/图像编码为高维向量，按相似度检索。2024–2026 年，主流产品分工逐渐清晰；与此同时，一个值得产品团队注意的趋势是向量能力正在"去专用化"：传统关系型 / NoSQL 数据库纷纷原生集成向量类型（如 pgvector、Redis 于 2025 年推出原生 "vector sets"），多模型（multi-model）引擎兴起，"是否必须引入一个专用向量库"开始成为真问题。

表 3-1　主流向量数据库定位与选型经验（2025–2026）

产品	部署形态	核心强项	典型适用场景
Pinecone	托管 / Serverless	易用、零运维，抽象掉基础设施	要快速上线、不想运维的团队
Weaviate	开源 / 托管	混合检索（向量 + BM25 + 图式元数据）	需要关键词与语义混合查询
Milvus	开源 / 分布式	存储-计算-元数据分离，可扩展至数亿—数十亿向量	超大规模、高 QPS、成本敏感
pgvector	PostgreSQL 扩展	零新增基础设施，复用现有 Postgres	已用 Postgres、规模适中

来源（三方/厂商口径）：DataCamp《Best Vector Databases 2026》；Milvus 官方对比文档；DEV Community 向量库选型指南。选型结论为来源方观点，非独立基准测试。

Prompt Engineering → Context Engineering

随着应用复杂化，行业话语在 2025 年中从"提示词工程"（prompt engineering）迁移到"上下文工程"（context engineering）。二者的区别可以这样理解：prompt engineering 是"在上下文窗口内部做什么"（zero-shot / few-shot / 思维链 / 角色设定）；而 context engineering 是"如何决定什么填入这个窗口"——它涵盖系统提示、对话历史、检索文档、可用工具、记忆系统与动态状态管理的整体信息架构。这一概念已获 Anthropic、LangChain、LlamaIndex 等集体背书；与之相对，prompt engineering 在 2023 年达到热度顶峰（一度出现六位数薪资）后，于 2025 年明显回落。

来源（三方）：Weaviate《Context Engineering》；mem0《Context Engineering in 2025》；Neo4j《Why AI Teams Are Moving From Prompt Engineering to Context Engineering》。

记忆层（Memory）：一个独立赛道的崛起

Agent 要跨会话"记得"用户与任务，催生了独立的"记忆层"市场。其核心思想借鉴操作系统：把 LLM 的上下文当作"虚拟内存"，按需把信息换入换出（page in / out），而非被动堆积。2025–2026 年四家厂商占据主导：

Letta（MemGPT 的生产化演进）——双层记忆：主上下文（main context，函数调用访问）+ 外部上下文（recall storage 近期历史向量检索、archival storage 长期事实语义检索）。
Mem0——三层作用域（user / session / agent），混合存储（向量 + 图 + 键值）；事实冲突时"自我编辑"而非追加，保持记忆精简。社区热门，48,000+ GitHub stars，获 2,400 万美元 A 轮。
Zep——围绕时序知识图谱引擎 Graphiti 构建。
LangMem（LangChain 原生）——区分 episodic（过往交互）、semantic（事实偏好）、procedural（Agent 更新自身指令）三类记忆。

来源（三方/学界，市场规模为机构估算）：arXiv 2504.19413《Mem0》(2025)；TokenMix《Mem0 vs Letta vs MemGPT 2026》；AgentMarketCap《Agent Memory at Scale 2026》。

编排框架：LangChain / LlamaIndex / LangGraph

把上述组件串成应用，靠的是编排框架。早期"LangChain 管编排、LlamaIndex 管检索"的清晰分工在 2025 年已模糊：LangChain 推出 LangGraph，把 Agent 工作流建模为有向有环图（directed cyclic graphs），提供有状态抽象——时间旅行调试、人在环中断（human-in-the-loop）、容错；LlamaIndex 则以显式 Context store 管理状态。2025–2026 年的主流实践不再是"二选一"，而是 "LlamaIndex 做检索层 + LangGraph 做 Agent 编排层"的组合。LangGraph 已在 LinkedIn、Uber 等 400+ 公司生产运行。

来源（三方）：Xenoss《LangChain vs LangGraph vs LlamaIndex》；Latenode《LangChain vs LlamaIndex 2025》。生产采用数为厂商口径。

3.3　Agent 与多 Agent 系统：MCP 成为事实标准

如果说 2023 年的 AutoGPT 让世界第一次看到"自主 Agent"的雏形（也暴露了它的脆弱），那么 2024–2026 年的主线就是 Agent 从"玩具"走向"生产"——而这背后，是一个连接标准的迅速确立。

MCP：从 Anthropic 的提案到全行业标准

模型上下文协议（MCP, Model Context Protocol）由 Anthropic 于 2024 年 11 月 25 日发布，定位为"连接 AI 助手到数据所在系统的新标准"。它要解决的是一个经典的"M×N 集成"难题：每接一个新数据源都要写一套自定义连接器，无法规模化。MCP 用一套统一标准取而代之，核心由三类角色构成——Servers（暴露数据源/工具）、Clients（连接的 AI 应用）、Hosts（如 Claude Desktop 等运行环境）；技术上复用 LSP（语言服务器协议）的消息流思想，基于 JSON-RPC 2.0 传输，标准化 tools / resources / prompts 三类原语。

MCP 的采用速度是这场范式变迁中最有力的事实之一：一个由竞争对手提出的协议，在一年内被几乎所有主要厂商采纳。

表 3-2　MCP 采用时间线（2024.11–2025.12）

时间	事件	意义
2024.11	Anthropic 发布 MCP，提供 Python/TS SDK	"Agent 连接万物"的标准奠基
2025.03	OpenAI 全面采用（Agents SDK、Responses API、ChatGPT 桌面端）	头号竞争对手公开背书（Altman 3/26 表态）
2025.04	Google DeepMind 确认 Gemini 支持	三大模型厂商集齐
2025.07	微软集成进 Copilot Studio（累计约 4500 万次下载）	进入主流企业开发平台
2025.11	AWS 加入（累计约 6800 万次下载）	云厂商完成卡位
2025.12	Anthropic 将 MCP 捐赠给 Agentic AI Foundation（Linux 基金会下属）	从"公司协议"变为"中立标准"

来源（官方 + 媒体核实）：Anthropic 官方公告(2024-11-25)；Wikipedia《Model Context Protocol》时间线；Pento《A Year of MCP》；The New Stack《Why the Model Context Protocol Won》。下载量为来源方口径。

需要并列呈现的是其安全代价：2025 年 4 月已有研究者指出 MCP 面临 提示注入（prompt injection）、工具权限组合导致的数据外泄、以及"李鬼工具"（lookalike tools）静默替换可信工具 等风险。标准的普及与攻击面的扩大是同一枚硬币的两面。

多 Agent：orchestrator-worker 架构

2025 年 Agent 框架"集中爆发"：OpenAI 的 Agents SDK（2025.03，核心抽象是 handoff——Agent 间显式移交控制权并携带上下文）、Google ADK（2025.04）、Anthropic Agent SDK，以及微软在 2025 年 10 月把 AutoGen 与 Semantic Kernel 合并为统一的 Microsoft Agent Framework。架构层面，最具代表性的是 orchestrator-worker（编排者-工人）模式。

Anthropic 公开的多 Agent 研究系统是一个范本：一个 Lead Researcher（编排者）协调并委派给多个并行的专职 subagent。据其官方工程博客，该系统在内部研究评测中较单 Agent 的 Claude Opus 4 提升 90.2%，复杂查询的研究时间下降约 90%——但代价是约 15 倍于普通对话的 token 消耗。其关键工程教训对产品团队极具参考价值：每个 subagent 必须有明确的目标、边界、输出格式与工具指引，否则会重复劳动或留下缺口；还需把"扩展规则"写进 prompt 防止简单任务过度投入（一次简单事实核查只应用 1 个 Agent、3–10 次工具调用）。

来源（官方）：Anthropic Engineering《How we built our multi-agent research system》(2025)；Codecademy《Top AI Agent Frameworks in 2025》。性能数字为 Anthropic 内部评测口径。

3.4　支撑一切的 AI 基础设施新栈

概率性软件需要一套与确定性时代不同的"运维与质量"基础设施。如果说传统软件有日志、监控、测试、API 网关，那么 LLM 应用对应地长出了可观测性、Evals、Guardrails、AI 网关四类新组件。

可观测性（Observability）

Langfuse 是开源可观测性的领跑者（MIT 许可、19,000+ GitHub stars、YC W23），覆盖链路追踪（多轮会话）、prompt 版本管理（含 playground）、以及 LLM-as-judge / 用户反馈 / 自定义指标评估，并集成 OpenTelemetry、LangChain、OpenAI SDK、LiteLLM。LangSmith（LangChain 出品）则是其生态内的首选，对 LangChain / LangGraph 应用捕获高细节 trace、可视化 Agent 执行、支持标注队列。

Evals 与 LLM-as-a-Judge

既然不能用精确断言，就用"模型当评委"。LLM-as-a-Judge 已成为规模化评测的默认方法：一个 LLM 评委与人类评审的一致率约为 85%——据来源方称，这甚至高于"两个人类在同一任务上的相互一致率"。常用做法包括单输出打分（single-output scoring，用于回归与监控）与成对比较（pairwise comparison，用于 A/B 测试 prompt/模型），以及用思维链先生成评分步骤再打分的 G-Eval。

但必须如实指出其局限：评委模型存在位置偏见（positional）、冗长偏好（verbosity）、自我增强偏见（self-enhancement），其可靠性高度依赖 prompt 质量与任务复杂度。生产中的务实做法是"LLM 评委跑大头、人工复核做校准与边缘案例"。

来源（三方）：Evidently AI《LLM-as-a-judge 完整指南》；Confident AI；The Pragmatic Engineer《A pragmatic guide to LLM evals》。85% 一致率为来源方口径。

Guardrails 与 AI 网关

Guardrails（护栏） 用于在运行时拦截越狱、提示注入、数据外泄等风险。主流开源工具为 NVIDIA NeMo Guardrails（可编程 rails，内置 24 类提示注入、8 种语言覆盖与 Jailbreak Detection 微服务）与 Guardrails AI，二者常组合使用。背景数据触目惊心：据 IBM 2025 年报告，77% 的企业在过去一年遭遇过生成式 AI 相关安全事件。

AI 网关（AI Gateway）则是"概率时代的 API 网关"，提供多模型路由、故障转移、语义缓存（semantic caching）与成本治理。代表产品：LiteLLM（开源自托管，OpenAI 兼容接口，100+ provider，40k+ stars）、Portkey（统一路由/可观测/治理/护栏/MCP，可路由 1,600+ 模型）、Cloudflare AI Gateway（边缘网络做地理缓存与限流）。常见组合是"Cloudflare 在边缘做缓存降延迟 + Portkey/LiteLLM 在后做路由与可观测"。

来源（三方/厂商）：NVIDIA-NeMo/Guardrails GitHub；Palo Alto Networks 安全博客；Portkey-AI/gateway GitHub；Cloudflare AI Gateway 官方文档。安全事件比例为 IBM 口径。

3.5　交互范式：从 GUI 到意图驱动

产品形态变化的最终落点是人机交互。过去几十年，软件的交互是"用户学习软件的菜单与按钮"；AI 时代的方向是"软件理解用户的意图并动态生成界面"。

生成式 UI（Generative UI）。界面由 AI Agent 部分或全部生成——Agent 决定屏幕显示什么、信息如何组织、甚至布局如何构成；随 Agent 能力提升，UI 本身成为系统的动态输出（dynamic output），而非预先写死的页面。
标准化尝试：A2UI。 Google 于 2025 年推出开放项目 A2UI（v0.9 为 framework-agnostic 的"声明 UI 意图"标准），让本地/远程 Agent 用统一语言与任意客户端通信，按当前对话动态渲染最适配的界面。
愿景：NUI / Agent Kernel。学术界（如 AgentOS）提出用以自然语言/语音为中心的"自然用户界面"（NUI）取代传统 GUI 桌面，系统核心变为解释意图、分解任务、协调多 Agent 的"Agent Kernel"——这部分属前瞻愿景，尚未规模落地。

来源（厂商/学界，含前瞻愿景）：CopilotKit / Google Cloud《Generative UI》；Google Developers Blog《A2UI v0.9》(官方)；arXiv 2603.08938《AgentOS》。

3.6　传统品类被 Agent 重做：六个案例

抽象的架构变化，最终体现在一个个具体软件品类的"被重做"。从 CRM 到 BI，AI 不是给老产品加一个"智能助手"侧边栏，而是把核心工作流交给 Agent 端到端执行。

图 3-1　ChatGPT 周活用户增长：AI 原生应用规模的标志，也是"重做"浪潮的需求底盘

来源（官方 + 媒体转述）：OpenAI 官方披露及 Reuters、The Verge 等报道（周活跃用户 WAU 口径，详见附录 C）。

CRM：Salesforce Agentforce

Salesforce 的路径最具代表性：2023 年 3 月推出"全球首个面向 CRM 的生成式 AI"Einstein GPT；2024 年 9 月 12 日发布 Agentforce（覆盖 service/sales/marketing/commerce 的自主 Agent 套件）；同年 12 月 17 日发布 Agentforce 2.0，定位"首个企业数字劳动力平台"，引入预构建 skills 库、可部署到 Slack，并强化 Agentic 推理与 RAG。厂商口径的早期效果为响应时间降 27%、case 解决率升 35%。这一案例同时印证了第 4 章将展开的"按对话/按结果计费"的商业模式迁移。

来源（官方）：Salesforce《Agentforce Announcement》(2024-09-12)、《Agentforce 2.0 Announcement》(2024-12-17)。效果数据为 Salesforce 口径。

客服：Sierra / Decagon（与 Klarna 的"回调"）

客服是被重做得最彻底的品类之一。行业分析将其分为两代：旧代（Forethought、Ada、Intercom Fin 等）围绕"意图分类 + 路由到固定答案"；新代（Sierra、Decagon，均 2023 年成立）围绕自主 Agent——读知识库、遵循结构化 SOP、采取真实行动、干净升级。据 Sacra 估算，Sierra 在 2026 年 1 月约 1.5 亿美元 ARR（2024 年底约 2,600 万），Decagon 在 2025 年 11 月约 3,500 万美元 ARR（2024 年底约 1,000 万）。

但本报告坚持呈现另一面——Klarna 的"回调"：其 AI 客服 2024 年 2 月与 OpenAI 合作上线，首月处理 230 万次聊天、自动化 2/3 对话、解决时间从 11 分钟降至 2 分钟以内；然而到 2025 年初，因边缘案例幻觉、复杂/情感工单的满意度（CSAT）下降与合规顾虑，Klarna 悄然重新引入了人工支持产能。这提示产品团队：自动化的"最后一公里"远比 demo 曲折。

来源（三方/媒体）：Sacra《Decagon vs Sierra》、Upstarts Media；Fini Labs / Twig 关于 Klarna 的复盘。ARR 为 Sacra 估算口径。

网络安全 / 设计 / 办公 / BI（四例速览）

表 3-3　四类传统软件品类的"Agent 化"重做（2024–2026）

品类	代表动作	重做的核心	来源类型
网络安全	CrowdStrike Fall 2025 发布 7 个任务就绪 Agent；Charlotte Agentic SOAR；微软 Security Copilot	"Agentic SOC"：Agent 自动 triage 漏洞、驱动调查，分析师用自然语言定制 Agent	官方
设计	Figma Config 2025 发布 Figma Make（基于 Claude，自然语言→可交互原型+代码）、Sites、Draw、Buzz	从"设计工具"升级为"产品创造平台"	官方
办公协作	微软 365 Copilot（90%+ Fortune 500 在用）；Ignite 2025 推 Copilot Cowork	从 1:1 助手转向 1:many / many:many，Agent 跨参与者持有上下文	官方
BI / 数据	ThoughtSpot Spotter / Spotter Semantics；对话式 BI + 语义层	语义层成"可信 AI 分析"前提，约束 SQL 生成以恢复确定性	官方/三方

来源：CrowdStrike Fall 2025 Release(官方)；Figma《Config 2025 Recap》(官方)；微软 Ignite 2025 博客(官方)；ThoughtSpot 公告 + TDWI(三方)。采用率为厂商口径。

BI 这一例尤其耐人寻味：当 LLM 把自然语言转成 SQL（text-to-SQL）时，概率性会带来"答案不一致"。业界给出的解法是引入语义层（semantic layer）——用预定义的指标口径约束 SQL 生成，让"概率性的提问"落到"确定性的指标"上。Gartner 2025 年甚至称语义技术对 AI 分析的成功"non-negotiable"。这是一个精彩的隐喻：重做存量软件的关键，往往不是去掉确定性，而是在概率性外壳与确定性内核之间，重建一道可信的"翻译层"。

来源（三方）：ThoughtSpot《Spotter Semantics》；TDWI《Conversational BI with a Semantic Layer》(2025)；Gartner 2025 指引（经媒体转述）。

3.7　中国对照：低成本、开源生态与分发为王

中国的产品与架构重构呈现出与欧美不同的纹理：模型层异常繁荣，而胜负更多由"分发渠道"决定，开源则成为独特的战略杠杆。

多强并立。 DeepSeek、通义千问（Qwen）、Kimi、智谱 GLM、豆包（Doubao）、文心（Ernie）各占不同生态位，在许可、API 可得性与技术强项上差异化竞争。
分发决定终局。 豆包之强不仅在模型本身，更在其背靠抖音、剪映/CapCut、火山引擎（Volcano Engine）的分发机器——据字节口径，豆包于 2025 年 12 月日活用户（DAU）突破 1 亿；DeepSeek 则强在技术品牌与开发者心智。
开源成为战略杠杆。 到 2025 年中，通义千问 Qwen 成为 Hugging Face 上衍生模型最多的基座——超过 11.3 万个基于 Qwen 的模型、20 万+ 仓库标记，远超 Llama 的约 2.7 万、DeepSeek 的约 6 千。开源生态的繁荣，让中国模型在全球开发者技术栈中获得了独特的渗透力。

来源（三方/媒体，DAU 为厂商口径）：Groundy《Chinese AI Model Ecosystem》；Hugging Face Blog《One Year Since the DeepSeek Moment》；IntuitionLabs《Chinese Open-Source LLMs (Sept 2025)》。

需要提醒的是，中国的应用架构生态同样在快速吸收 RAG、Agent、MCP 等全球范式，但落地节奏与商业逻辑受本土 SaaS 市场量级、价格战烈度与信创国产化政策的强约束（详见第 5、7 章）。本节仅作产品/架构层面的对照点缀，不构成对中国市场的完整判断。

给产品/商业团队的要点

一、把"概率性"当作设计前提，而非缺陷去消灭。 不要试图让 LLM 像传统程序一样"每次都一样"；应在产品中预留 Evals、Guardrails、人在环与"翻译层"（如 BI 的语义层），把不确定性管理起来。二、新技术栈是真实成本，不是炫技。 RAG、向量库、记忆层、可观测性、AI 网关——每一层都对应一类故障与一笔账单（多 Agent 可达 ~15× token），架构选型要算总账。三、"重做"的赢家不在侧边栏，而在工作流。 Agentforce、Sierra 的价值在于端到端"替客户把活干完"；但 Klarna 的回调提醒你：最后一公里的可靠性、合规与情感场景，仍是护城河也是雷区。四、MCP 值得现在押注。 一个被 OpenAI/Google/微软/AWS 集体采纳、并已交给中立基金会的标准，是当前连接 Agent 与企业系统的最稳妥下注——同时要把它的攻击面纳入安全设计。

第 4 章　商业模式与定价的变迁

如果说前几章讲的是软件"怎么造"与"造什么"，那么本章触及的是最敏感、也最关乎生死的问题：软件怎么卖、怎么赚钱。商业模式是范式变迁的"最后一公里"——开发方式可以悄然改变、技术栈可以渐进替换，但定价模型一旦松动，影响的是收入确认、毛利结构、估值倍数与销售组织的每一根神经。

本章的核心判断是：按席位收费的 SaaS 经典范式正在被结构性瓦解。当一个 Agent 能干十个、五十个人的活，"按人头数席位"这一沿用了二十年的计价基础就失去了根基。取而代之的，是用量计费（usage-based）、按结果计费（outcome-based）与混合定价（hybrid）的三足鼎立。但这场迁移有沉重的代价：AI 软件的毛利率被 token 与推理成本压到 50–60%，远低于传统 SaaS 的 80–90%——软件公司第一次需要像制造业一样，认真对待"边际成本"。

我们将依次讲清五件事：① SaaS 经典商业模式的"基本盘"；② 席位制为何瓦解；③ 新定价范式的三条路线与 Bessemer 的框架；④ 主流厂商的真实定价（带具体数字）；⑤ 成本结构剧变与 GTM 获客的连锁反应。最后以"中国对照"收尾。全章定价/财务数字均标注来源与时点，并区分官方、三方/机构、媒体与估算口径；对非 GAAP 口径（如 OpenAI 的 compute margin）逐处加注。

4.1　SaaS 经典商业模式：订阅、席位与三个健康指标

要理解"变了什么"，先要讲清这台运转了二十年的"高毛利机器"是怎么搭起来的。它由三块彼此咬合的部件构成。

4.1.1　从买断到订阅：Salesforce 立下的模板

2000 年前后，Salesforce 以一句"No Software"起家，用"按用户/月"的订阅取代了传统本地部署 CRM 的一次性买断与高昂实施费。到它突破 1 亿美元 ARR（约第 5–6 年）时，已确立了一套多层级、按席位的定价体系，成为后来整个企业 SaaS 的模板。直到今天，Salesforce 的底层计价依然是 per-seat：Sales Cloud Enterprise 约 175 美元/用户/月、Unlimited 约 350 美元/用户/月。（来源：CRV、SchematicHQ、MindStudio，2025–2026，媒体/分析口径）

按席位计价的精妙之处在于：它把"软件的价值"近似为"使用软件的人数"。客户公司越成长、用的人越多、买的席位越多，软件公司的收入就随之线性增长——这构成了 SaaS 最重要的增长引擎：净扩张（net expansion）。

4.1.2　三个被奉为圭臬的健康指标

整个 SaaS 行业用三组指标来度量一家公司是否健康。它们既是投资人的估值标尺，也是产品/商业团队的北极星：

NRR / NDR（净收入留存率，Net Revenue / Dollar Retention）。衡量"老客户群"在不算新客的情况下，今年比去年多付了多少钱。它是 SaaS 商业模式是否成立的最核心信号——超过 100% 意味着即便不获新客，收入也在自然增长。经验阈值：100% 为 Good、110% 为 Better、≥120% 为 Best。
Rule of 40（40 法则）。 营收增长率 + 利润率应 ≥ 40%，用来平衡"增长"与"盈利"。它回答的是：一家公司是否在以健康的方式扩张，而非烧钱换增长。
CAC 回收期与 LTV/CAC。获客成本（CAC）需要多久通过订阅收入收回、客户终身价值（LTV）是获客成本的几倍——决定了增长是否可持续、单位经济模型是否成立。

这套指标体系的现实基准如下表。值得注意的是其中一条交叉验证度极高的规律：采用用量计费的公司，NRR 更高、流失更低、增长更快——这恰恰预示了后文席位制松动的方向。

表 4-1　SaaS 经典健康指标的现实基准（2023–2025）

指标	现实基准	关键发现	来源 / 口径
私有 SaaS 中位 NRR	约 106%	能"自然增长"的中位水平线	ChartMogul 2024（机构）
公开 SaaS NRR	约 110%	上市公司连续多季稳定	Ordway 2024–25（机构）
分层 NRR	企业型 115–125% / SMB 90–105%	客单价越高、留存越强	SaaS Capital 2025（机构）
Snowflake NRR	158%（2023）	纯用量计费的"扩张神话"标杆	Togai 转述（媒体）
Rule of 40 达标率	仅 11–30%	多数公司其实达不到	SaaS Metrics Board（机构）
用量计费的红利	+10% NRR、−22% 流失、2× 增速	价格与价值对齐驱动扩张	OpenView（机构，被多源引用）

来源：综合 ChartMogul、Ordway Labs、SaaS Capital、OpenView、SaaS Metrics Standard Board 公开基准整理。注：各机构样本与口径不同，数值用于量级参照而非精确对比。

为什么这套"机器"过去如此完美

三块部件咬合后，构成了一个高毛利（成熟 SaaS 毛利常达 80–90%）、可预测、可复制的商业机器：边际成本几乎为零（多一个用户只是数据库里多一行），收入随客户成长而线性扩张，留存与扩张可被精确度量。正因为它太完美，当 AI 同时撬动"席位"与"零边际成本"这两块基石时，冲击才显得格外剧烈。

4.2　席位制的瓦解：当 Agent 替代"人头"

席位制的全部前提是一句话：更多的人使用软件 = 更多的收入。AI Agent 恰恰击穿了这个前提。

4.2.1　瓦解的内在逻辑

AI Agent 不登录、不占用命名用户许可、不映射到 headcount（人员编制）。它在系统里执行成千上万次任务，却不占据任何一个"席位"。于是一个残酷的算术出现了：当一个 Agent 能完成原本需要 10 个、20 个、50 个人类用户的工作，按席位计价不是被温和压缩，而是被 结构性坍塌（collapse）。（来源：MindStudio《SaaS Pricing Is Breaking》，2025，分析口径）

更要命的是它打击的恰恰是 SaaS 最赖以生存的净扩张引擎：过去客户公司成长会"加人加席位"，如今客户用 Agent 替代席位，于是 NRR 不升反降。对一家增长全靠 net expansion 支撑的 SaaS 公司而言，这等于动了主动脉。

4.2.2　标志性事件：Atlassian 史上首次席位下滑

抽象的逻辑在 2026 年变成了财报上的真实数字。Atlassian——一家整个收入模型都建立在"席位扩张"假设上的公司——报告了公司历史上首次企业席位数下滑，主因正是其 AI Agent 产品 Rovo 替代了原本需要人工操作 Jira、Confluence 的任务。消息公布后，股价在 Q3 财报后一度 下跌约 35%（随后因云业务增长超预期反弹约 +29%）。耐人寻味的是，同期其 AI 驱动的 Service 产品线 ARR 突破 10 亿美元——这正是"席位在缩、用量在涨"两股力量的同框。（来源：CNBC、Quartz，2026-05，媒体报道口径）

4.2.3　资本市场已经重新定价："SaaSpocalypse"

市场不会等到尘埃落定才行动。对 AI-Agent 颠覆的担忧叠加 2025 Q4 的疲软业绩，触发了被称为"SaaSpocalypse"的抛售：2026 年第一季度抹去约 1 万亿美元的 SaaS 总市值（另有 2850 亿美元的不同口径估算）。更直观的是估值倍数的塌缩——公开 SaaS 公司的 EV/TTM 收入中位倍数，从 2024 年末的 6.2×，降到 2025 年末的 4.9×，再到 2026 年 3 月 31 日的 3.3×。（来源：Aventis Advisors、Taskade，2026 Q1，媒体/分析口径；不同统计口径差异较大，建议以最新财报季数据复核）

结构性数据同样指向同一方向（注意：以下多为单一来源或机构估算，标注为待核实）：per-seat 定价的采用率在 12 个月内从 21% 降至 15%；约 40% 的企业 SaaS 合同已包含某种 outcome-based 要素；Bain 对 30 余家主流 SaaS 厂商的分析发现，约 65% 已在原有席位定价之上叠加了"AI 消费计量表"。（来源：MindStudio / SoftwareSeni 转述 Bain，2025–2026，分析/估算口径）

一个必须厘清的边界

席位制"瓦解"不等于"消失"。对人本身就是价值载体的工具（如 IDE、设计软件、协同文档），席位计价依然合理且会长期存在。真正被瓦解的，是那些软件替人把活干完、人只是旁观者的场景——客服、工单、数据录入、L1 支持。判断标准很简单：你的产品到底是"给人一件更聪明的工具"，还是"替人交付一个结果"？后者，按席位收费已难以为继。

4.3　新定价范式：用量、结果与混合的三足鼎立

席位塌陷之后，三条新路线浮现出来。它们并非互斥，而是常常叠加。理解它们最清晰的框架，来自风投机构 Bessemer 的《AI 定价与货币化手册》。

4.3.1　Bessemer 的"四模型"框架

Bessemer 把 AI 定价拆成四种基本形态，核心逻辑是让收入与可度量的结果对齐，而非与"访问权（access）"对齐：

用量计费（Consumption / Usage-based）。按 token、API 调用、推理次数计费。优点是贴近基础设施成本、毛利可控；缺点是非技术买家难以理解——"用户不会用 token 来思考"。
工作流计费（Workflow-based，按任务）。 按一个可识别的工作单元计费。例如法律 AI 公司 EvenUp 按"AI 生成的一封索赔函"收费，价值直观。
结果计费（Outcome-based，按结果）。 只在 AI 自主达成一个可计费结果（如解决一张工单、挽回一次取消、完成一次追加销售）时才收费。价值对齐最强，但厂商承担最大的成本波动风险。Bessemer 引用的典型案例正是"Intercom Fin 按每解决一张工单 0.99 美元收费"。
混合定价（Hybrid，推荐）。 固定的基础订阅 + 按用量/结果的阶梯——既给客户可预测性，又让厂商捕获上行价值。这是 Bessemer 明确推荐、也是当下企业续约最常落地的形态。

Bessemer 进一步提出七条原则，对产品/商业团队尤具操作性：① 定价绑结果而非访问权；② 用混合模型平衡可预测性与弹性；③ 所有测算都必须纳入推理（inference）成本；④ 重塑预算叙事——围绕"AI 能力"而非"省成本"；⑤ 重新定义成功指标（解决率、采纳率、自主完成率）；⑥ 定价会反向塑造 GTM 与组织结构；⑦ 把 AI 当"同事"而非"工具"来计酬。其中明确给出的唯一量化数字是：AI 毛利 50–60% vs SaaS 80–90%。（来源：Bessemer Venture Partners《The AI pricing and monetization playbook》，2026-02，VC 一手，已核实原文）

4.3.2　三条路线的真实采用率

新范式不是纸上谈兵，采用率在快速攀升（不同机构口径有别，并列呈现）：

用量计费（UBP）： OpenView 口径从 27%（2023）升至约 38%（2024+）；Metronome 2025 报告称 85% 的 SaaS 已采用或正在测试用量计费；另一口径称超过 60% 已提供某种用量计费（2018 年仅 27%）。
混合定价（Hybrid）： Chargebee《2025 订阅状态报告》称 43% 公司当前使用混合模型，预计 2026 年末升至 61%；约 46% 的 SaaS 已采用"订阅 + 用量"组合。混合定价公司的 NRR 比纯订阅公司高约 38%。
结果计费（Outcome-based）：仍处早期但增速最快。Zendesk 被广泛视为"首个推出 AI Agent 结果计费的大型在位 SaaS 厂商"（2024-08）。彭博的长期预测（经二级引用，估算口径）认为：订阅制占比将从 60% 降向 30%，而结果计费将从 10% 升向 60%。

权威机构的预测则给出了时间锚点：Gartner 预计到 2030 年，至少 40% 的企业 SaaS 支出将转向用量、Agent 或结果计费模式。 （来源：Maxio、Flexera、Chargebee 转述，2025–2026，机构/媒体口径）

4.4　厂商定价对照：从"按席位"到"按结果"的真实价格

抽象框架之外，最有说服力的是真金白银的标价。下面逐一核实主流厂商的定价数字，并汇总成对照表。请特别注意每一行的来源性质——是官方标价、媒体报道，还是行业估算。

4.4.1　客服 / CX 赛道：结果计费的"试验田"

客服是结果计费落地最快的品类，因为"一张工单是否被解决"是一个清晰、可验证的结果：

Intercom Fin —— 按 每个 outcome（成功解决）0.99 美元计费，一次会话只收一次费，与现有 helpdesk 叠加时无席位费、无集成费、无平台费。"outcome"定义为一次 resolution 或一次 procedure handoff。其月订阅 49 美元含 50 次解决，超出后才按 0.99 美元计；背书有"100 万美元绩效保证"。（官方 fin.ai / intercom.com，已核实）
Sierra（Bret Taylor 创办）—— 纯 outcome-based：仅当 Agent 自主完成可计费结果（解决会话、挽回取消、追加/交叉销售）才收费，升级到人工的情况多数不收费；对路由/问候类交互提供 consumption-based 备选。媒体报道其中位客户约 1.50 美元/解决。（官方博客已核实机制；单价为媒体口径）
Zendesk —— 按"自动解决（Automated Resolution, AR）"计费：承诺量 1.50 美元/AR、按需 2.00 美元/AR，大批量有折扣；AR 定义为问题完全由 AI 解决、无人工介入。Suite Professional 的 20 人团队含 200 次/月免费 AR。2024-08 推出，2024-11 全面切换。（官方 newsroom，已核实）
Decagon —— per-conversation 与（更高价的）per-resolution 双模式并存，具体费率未公开，估算起步约 9.5 万美元/年。（Sacra / 媒体，估算口径）

4.4.2　平台巨头：在席位上"叠加"AI 计量

在位巨头的策略则是"渐进叠加"——保留席位底座，在其上挂载用量/对话计量：

Salesforce Agentforce —— 旧模式按 2 美元/对话（仍保留）；2025-05 推出新的 Flex Credits：每个 action 消耗 20 credits = 0.10 美元/action，credits 按 10 万包 = 500 美元售卖；Enterprise Edition 及以上经 Salesforce Foundations 可获 10 万 Flex Credits 免费。三种付费方式：随用随付 / 预承诺 / 预购。（官方 PR 2025-05 + SaaStr、MarTech 交叉验证）
Microsoft 365 Copilot —— 企业版 30 美元/用户/月（年付，360 美元/用户/年），作为 E3/E5/Business Standard/Premium 的 add-on；Business 版促销 18 美元/月（标准价 21 美元）。关键提醒：30 美元仅为加购价，需先持合规底座许可，单用户全包月成本实为 24–60+ 美元。（官方 microsoft.com，已核实）
ServiceNow Now Assist / Pro Plus —— 不公开报价、走 NDA。行业估算：Pro Plus 相对 Pro 溢价 40–60%（如 ITSM Pro 80 美元/Fulfiller/月 → Pro Plus 112–128 美元）；Now Assist 在 Pro Plus 座位价之上再加约 25–60%；最高级 agentic 功能保留在更高的 ITSM Prime 层。（Redress Compliance 等，估算口径）

把这些数字汇总到一张表里，定价范式的全貌一目了然——从"按席位"到"按对话"再到"按结果"，价值计量的颗粒度在变细，与"软件实际交付了什么"贴得越来越近：

表 4-2　主流厂商 AI 产品定价对照（含来源性质标注）

厂商 / 产品	定价模式	具体价格	来源 / 性质
Intercom Fin	结果计费	0.99 美元/解决；月订阅 49 美元含 50 次	官方（已核实）
Salesforce Agentforce（旧）	按对话	2 美元/对话	官方 + SaaStr
Salesforce Agentforce（Flex）	按 action/credit	20 credits=0.10 美元/action；10 万 credits=500 美元；10 万免费	官方 PR 2025-05
Sierra	结果计费	约 1.50 美元/解决（中位）；升级人工多不收费	官方机制+媒体单价
Zendesk AI Agents	结果计费（AR）	承诺量 1.50 / 按需 2.00 美元/AR	官方 newsroom
Microsoft 365 Copilot（企业）	per-seat add-on	30 美元/用户/月（360 美元/年）	官方
Microsoft 365 Copilot（Business）	per-seat add-on	18 美元/月促销（标准 21 美元）	官方
Decagon	per-conversation / 结果	费率未公开；估约 9.5 万美元/年起	Sacra/媒体（估算）
ServiceNow Now Assist	订阅 + 消费	Pro Plus 溢价 40–60%；Now Assist 再加 25–60%	Redress（估算）
GitHub Copilot Pro / Pro+	订阅 + premium requests	10 美元/月（300 reqs，超 0.04 美元/次）	getDX/NxCode
Cursor Pro / Pro+ / Ultra	订阅 + credit	20 / 60 / 200 美元每月	NxCode
Cognition Devin	订阅（beta）	20 美元/月（beta）	NxCode

来源：各公司官方定价页与公告，辅以 SaaStr、MarTech、getDX、NxCode、Sacra 等报道。价格为检索时点（2025–2026）数据，可能随时调整；ServiceNow / Decagon 为行业估算，引用时请以官方报价为准。

4.4.3　AI 编程与应用工具：从"固定价"转向"按用量/credit"

定价范式的迁移在 AI 编程工具上体现得最为剧烈。2025 年是这条赛道的"改价年"：Cursor 从按请求计费转向按 credit 计费、Windsurf 两次大改定价、GitHub Copilot 引入分层 premium request——整体从简单固定价转向 credit/quota 计费。GitHub Copilot Pro 10 美元/月（含 300 premium requests，超出 0.04 美元/次）；Cursor 分 Pro 20 美元、Pro+ 60 美元、Ultra 200 美元三档；Devin beta 20 美元/月。（来源：getDX、NxCode，2025–2026，媒体口径）

这些工具的商业意义不止于定价模型本身，更在于它们刷新了软件史上的增长速度。下图汇总了 AI 编码/应用工具年化收入的飙升曲线——这是"结果即价值"被市场用真金白银验证的最直接证据。

图 4-1　AI 编码 / 应用工具年化收入飙升：用一两年走完传统 SaaS 十年的路

来源：各公司官方及 The Information、SaaStr、TechCrunch 转述（年化运行率 ARR 口径，部分为媒体估算，详见附录 C）

4.5　成本结构剧变与 GTM 重塑

定价模型只是硬币的一面。另一面更隐蔽、也更致命：软件第一次有了显著的边际成本。这迫使软件公司重新理解自己的损益表。

4.5.1　毛利率：从 80–90% 跌向 50–60%

传统 SaaS 的毛利秘密在于"零边际成本"——多服务一个用户几乎不增加成本。AI 把这个前提打破了：每一次 prompt 与响应都消耗 token，直接对应付给大模型厂商的推理费用，用户用得越多、COGS（销货成本）越高。

量级对比（多源交叉验证）： AI 公司 COGS 约 40–50%（其中 inference 约占 23%）→ 毛利 50–60%；传统 SaaS at scale 的 COGS 仅 10–25% → 毛利 75–90%。a16z 早在 2020 年就指出 AI SaaS 毛利常为 50–60% vs 传统 60–80%，近期则承认毛利挑战、但主张"毛利并不能完全说明商业可行性"。（SoftwareSeni、Bessemer、a16z）
微观冲击： 在一个 80 美元/月的席位上加 AI 功能，约增加 15 美元的推理/路由/基础设施直接变动成本，单座毛利"一夜之间从 80% 降到约 65%"。（The SaaS CFO，2025）
财报已开始反映： 多家上市垂直 SaaS 在 2025 Q4 披露了 6–9 个百分点的同比毛利压缩，并明确归因于 AI 功能成本；部分公司 2026 Q1 起在 MD&A 中单列推理成本占比，通常为营收的 4–9%。（The SaaS CFO、SFAI Labs，2025–2026）

行业由此诞生了一个新指标：Inference Efficiency Ratio（IER，推理效率比），专门用于追踪 AI 毛利健康度，被视为"SaaS 财务的第六支柱（AI Economics）"的锚点指标。ICONIQ 的行业均值显示，AI-native 产品毛利正从 2024 年的 41% 改善到 2026 年的约 52%，预计向 60–65% 靠拢，但难以重返 SaaS 的 80%+。（ICONIQ《2026 State of AI》，经二级引用，注意时效）

一个必须加注的口径陷阱：OpenAI 的"70% margin"

媒体常引用"OpenAI compute margin 从 2024-01 的约 35% 升至 2025-10 的约 70%"作为"AI 毛利转好"的证据。但这是一个非 GAAP 口径：compute margin 仅扣除付费用户的云成本，不含训练、人力等开销。其更宽口径的 GAAP 毛利实际仅约 33%，受巨额推理成本拖累——2025 年推理成本约 84 亿美元，2026 年预计升至 141 亿美元。其 ARR 则从 2023 年约 20 亿、2024 年 60 亿，飙升到 2025 年超 200 亿美元。（来源：SaaStr、wheresyoured.at，2025–2026；引用 70% 时务必标明"compute margin（非 GAAP）≠ 毛利"）

表 4-3　AI 软件 vs 传统 SaaS：成本结构与毛利对照

维度	传统 SaaS	AI 软件 / AI-native	来源 / 口径
毛利率（成熟期）	75–90%	50–60%	Bessemer / SoftwareSeni
COGS 主体	托管/带宽（10–25%）	推理/token（40–50%，inference ~23%）	SoftwareSeni
边际成本	近似为零	随用量线性上升	行业共识
加 AI 后单座毛利	—	80% → 约 65%（+15 美元/座）	The SaaS CFO 2025
上市公司财报信号	稳定高毛利	Q4 2025 压缩 6–9 个百分点	The SaaS CFO/SFAI
推理成本占营收	不适用	约 4–9%（MD&A 披露）	The SaaS CFO 2026
ICONIQ AI-native 均值	—	41%(2024) → 52%(2026)	ICONIQ（二级引用）
OpenAI（口径警示）	—	compute margin 70%（非 GAAP）/ GAAP 毛利约 33%	SaaStr/媒体

来源：综合 Bessemer、a16z、SoftwareSeni、The SaaS CFO、SFAI Labs、ICONIQ 及媒体报道。注：AI 毛利数字波动大且口径不一，OpenAI 的 compute margin 为非 GAAP 口径，切勿与 GAAP 毛利混用。

4.5.2　上游降价：token 价格的"摩尔定律"

毛利压力的另一面，是上游 token 价格的持续跳水，这为下游应用层提供了喘息空间。OpenAI 的 GPT-4o mini（2024 年中）定价为 0.15/0.60 美元每百万 token（输入/输出）；Anthropic（2026-05 口径）Claude Haiku 4.5 为 1/5 美元、Sonnet 4.6 为 3/15 美元、Opus 4.7 为 5/25 美元。两家均提供 prompt caching（最多省 90%）与 batch（省 50%）。整体趋势是同等能力的 token 单价快速下行——这是 AI 软件毛利得以逐步修复的关键外部变量。（来源：IntuitionLabs、platform.claude.com，2025–2026）

4.5.3　GTM 与获客：PLG 重生与"续约音乐停止"时刻

定价范式的迁移，连锁改变了 go-to-market（进入市场）的玩法：

PLG（产品驱动增长）并未衰退，而是"全栈化"。趋势是在自助式底座上叠加 sales-assisted、AI 驱动 onboarding 与按用量扩张，形成"全栈 GTM 引擎"。Menlo Ventures《2025 State of AI》显示：27% 的 AI 应用支出经由 PLG 进入，是传统 SaaS（7%）的约 4 倍。（Menlo Ventures、Extruct AI，2025）
2026 是"续约音乐停止"的时刻。 大量在 12 个月内从 0 冲到 1 亿美元 ARR 的 AI 公司，将在 2026 年迎来第一个续约周期——届时定价必须反映"真实兑现的价值"而非"潜力与承诺"。这是一场对 AI 应用层商业模式的集中"成色检验"。（ProductLed、Bessemer，2026）
获客方式向 AI 搜索迁移。 GEO（面向生成式引擎的优化）平均 CAC 约 559 美元（比 SEO 贵约 14.4%，但转化高 27%）；内容型 SEO 平均 CAC 约 480 美元。也有 B2B 案例报告引入 AI 驱动外呼后 CAC 下降约 30%、品牌用 AI 平均报告约 37% 的 CAC 下降。（First Page Sage，2026，媒体口径）

4.6　中国对照：项目制困境、价格战与"按结果计费"的萌芽

中国软件市场的商业模式变迁，走着一条与欧美既相似又迥异的路径。相似在于"按结果计费"的方向认同；迥异在于，它要先迈过"订阅制本身都没跑通"这道更前置的坎。

4.6.1　订阅制的"原罪"：项目制困境与普遍亏损

在中国，"原教旨主义的 SaaS"（纯订阅）短期内并不成立。大客户多以项目制签约——这是生态决定的：很多大型客户根本无法接受订阅制的签约方式。项目制下软件需深度定制，从厂商视角看导致"做一单赔一单"、收入可持续性差、客户服务成本（CSC）随人工投入持续上升；从客户视角看则是"投入大、见效慢"。其结果是：纯订阅模式获客成本高、流失率高，LTV 无法覆盖 CAC，行业 90%+ 厂商长期亏损。Salesforce 在 2023 年"败走"中国，正是这一困境的注脚。（来源：牛透社、掘金、艾瑞，2024–2025，媒体/机构口径）

市场量级的差距进一步放大了困境：2024 年中国企业级 SaaS 市场约 1.03–1.20 万亿元，其中 AI SaaS 约 7028 亿元（CAGR 约 29.3%），预计 2027 年超 1.5 万亿——但整体仍仅为美国市场的约十分之一量级。（来源：前瞻产业研究院、艾瑞，2025）

4.6.2　大模型 API 价格战：80%+ 降幅与 2025 的涨价回调

如果说应用层在为商业模式发愁，基础模型层则上演了全球最惨烈的价格战：

2024-05 引爆： DeepSeek-V2 将 API 价格降至输入 1 元 / 输出 2 元每百万 token，引发智谱、字节、阿里、百度、讯飞、腾讯集体跟进，最高降幅达 80%–97%。字节豆包主力模型降至 0.0008 元/千 token；阿里通义千问 Qwen-Long 直降 97%。
2025 趋势逆转： "六小虎"中智谱、月之暗面、MiniMax、阶跃星辰已对部分 API 上调价格；大厂普遍转向阶梯定价，或拉开"推理/非推理"模式价差。华尔街见闻称：17 家厂商中"超 7 成在涨价"——价格战从"无脑降价"转入"分层精算"。
2026 再降（注意时效）： DeepSeek V4 系列再次降价，V4-Flash 缓存命中价从 0.2 元降至 0.02 元每百万 token。

（来源：证券时报、华尔街见闻、第一财经，2024–2026，媒体口径）

4.6.3　"按结果计费"在中国的萌芽

与全球同频的是，中国厂商也开始把目光投向 outcome-based。前瞻产业研究院将中国 AI Agent 商业模式分为 SaaS / MaaS / RaaS 三类，其中 SaaS 主导、MaaS 增速最快；并明确判断"按效果付费"（performance-based）将成为 SaaS 行业的重要分支——"客户愿意为确定的结果付费，而非可能的功能"。合思（费控 SaaS）创始人马春荃公开提出"AI 加速渗透 SaaS，按效果付费或成重要趋势"；金蝶等头部厂商亦在探索将 AI 能力与"结果交付"挂钩的计价方式。（来源：前瞻产业研究院、21 世纪经济报道，2025，媒体/机构口径）

中国对照小结

中国市场的特殊性在于三重变量叠加：① 订阅制本身尚未跑通（项目制困境 + 普遍亏损），AI 是"在未完成的转型上再叠加一次转型"；② 基础模型层价格战烈度远超海外，压缩了应用层的议价空间；③ 信创国产化这一万亿级政策市场，提供了与欧美完全不同的需求结构。因此"按结果计费"在中国更可能以项目制的改良形态（如"效果对赌""节点验收"）落地，而非欧美式的纯 SaaS outcome-based。

4.7　本章小结

商业模式的变迁，是本轮范式重构中最"硬"的部分——它直接写进损益表与资产负债表。我们可以把本章浓缩为四句话：

席位制在瓦解，但不会消失。 凡"软件替人交付结果"的场景（客服、工单、L1 支持），按人头收费已难以为继；凡"人本身是价值载体"的工具（IDE、设计），席位制长期有效。
结果计费是方向，混合定价是现实。 outcome-based 价值对齐最强、增速最快，但厂商承担成本波动风险；当下企业续约最常落地的是"基础订阅 + 用量/结果阶梯"的混合形态。
毛利模型被重写，token 成为 COGS。 AI 软件毛利 50–60% vs SaaS 80–90%，IER 成为新的健康指标；引用 OpenAI"70% margin"时务必区分 compute margin（非 GAAP）与 GAAP 毛利（约 33%）。
2026 是成色检验之年。 大量 AI 应用迎来首个续约周期，"音乐停止"时定价必须兑现真实价值；中国则在"订阅制未通 + 价格战 + 信创政策"的三重变量下走自己的路。

给产品/商业团队的要点

第一，重新审视你的计价单位。 如果它仍是"席位 × 功能"，问自己一个问题：当客户用 Agent 替代员工，你的收入是涨还是跌？如果是跌，你的定价模型与 AI 价值是反向的，必须重构。 第二，把推理成本搬上桌面。 AI 不是零边际成本的功能。在定价前先建立单位经济模型（每次调用/每个结果的 COGS），并把 Inference Efficiency Ratio 纳入财务看板——否则你可能在"卖得越多、亏得越多"。 第三，向"结果"对齐，但用"混合"落地。 纯 outcome-based 会让你承担全部成本波动风险；更稳健的路径是"基础订阅保底 + 用量/结果捕获上行"。先定一个价，客户秒答"成交"说明定低了，逐步上调直到听见"我们得再想想"——这是 Bessemer 给出的最实用的定价探针。 第四，为 2026 续约季备好"价值证据"。提前把解决率、采纳率、自主完成率、为客户节省的工时/成本量化成可呈现的 ROI——续约谈判桌上，能兑现的数字才是你的定价权。

第 5 章　行业格局、组织与人才

前四章回答了"软件怎么造、造什么、怎么卖"的问题。本章把镜头拉到产业层面，回答最后一个、也是产品与商业团队最关心的问题：在这场范式重写中，谁赢、靠什么赢，又靠什么样的组织与人去赢？ 我们将依次穿过五个相互咬合的切面——护城河的重估、投融资浪潮、并购与人才收购、组织结构的"瘦身化"、岗位与人才的迁徙，最后以一节"中国对照"收束。

一条主线贯穿全章：价值正在技术栈中向上迁移，而创造价值所需的"人"却在急剧变少。模型层在价格战中被快速商品化，价值向应用层和基础设施层两端沉淀；与此同时，极小团队借"AI 杠杆"做出过去需要数百人才能做到的产出，初级岗位首当其冲被结构性压缩。这既是机会，也是 对既有组织形态与人才结构的同时冲击。

5.1　护城河重估：模型层、应用层还是基础设施层？

AI 时代最核心的战略问题，是"护城河（moat）到底在哪里"。传统软件的护城河建立在功能完备度与切换成本上；而当底层能力可以一次 API 调用获得，旧地图开始失效。2024–2025 年，这场争论围绕一个尖锐的标签展开——套壳（thin wrapper）。

5.1.1　"套壳之争"：正方与反方

反方（套壳没有护城河）。 批评者认为，仅在基础模型外面套一层 prompt 模板和 UI 皮肤的产品（"thin wrapper"），一旦底层模型自己变强就会被碾平。最常被引用的反面教材是 Jasper：缺乏超越 prompt 工程与模板的壁垒，ChatGPT 改进后用户大量流失，营收据估算从 2023 年峰值约 1.2 亿美元跌至 2024 年约 3,500 万–5,500 万美元（媒体/咨询机构估算，非公司披露）。

来源：Hatchworks《AI Wrapper Product Strategy》https://hatchworks.com/blog/gen-ai/ai-wrapper-product-strategy/（咨询机构估算，Jasper 未官方披露营收）

正方（应用层就是创新所在）。 Y Combinator 合伙人反驳道：称一家 AI 创业公司是"OpenAI 的套壳"，等同于称一家 SaaS 公司是"MySQL 的套壳"——技术上没错，却完全无视了应用层正在发生的创新。a16z 合伙人 Bryan Kim 用一个比喻概括这一立场："模型只是引擎，用户关心的是车"（the model is just an engine, what users care about is the car）。支撑这一方的，是企业在应用层投入的爆发式增长：据估算，2024 年企业级 AI 应用层投入约 46 亿美元，较前一年的约 6 亿美元增长近 8 倍。

来源：Tech Startups《The Rise of AI Wrappers》2025-03-31 https://techstartups.com/2025/03/31/the-rise-of-ai-wrappers-why-value-is-moving-up-the-stack-from-foundation-models-to-ai-apps/（定性论述，应用层投入为机构估算口径）

5.1.2　真正的护城河：数据、工作流与品牌

争论的结论并非"套壳必死"，而是"必须从薄变厚"。综合多方观点，AI 应用的可防御性来自三层叠加，外加品牌作为复利加速器：

数据护城河：专有数据与持续的用户反馈闭环——模型可外购，数据飞轮不可。
工作流护城河：深度嵌入客户的端到端业务流程，把"工具"变成"流程的一部分"，抬高切换成本。
行为护城河：用户习惯、协作网络与积累的上下文（记忆）形成黏性。
品牌：作为复利加速器，在能力同质化时成为关键区分项。

产品演进的路径因此清晰：从 prompt engineering → RAG → 微调 → agentic AI，正是从"薄 MVP"走向"厚产品"的过程。换言之，护城河不在模型本身，而在你围绕模型沉淀了什么。

5.1.3　价值上移，与"卖铲人"的确定性收益

如果说应用层是价值上移的一端，那么基础设施层就是另一端——而且是确定性的一端。这里的经典类比是 1849 年淘金热：卖铲子的商人往往比淘金者更稳赚。今天的 AI 资本开支重演了这一幕：模型实验室在快速变化的竞技场里厮杀、利润率充满不确定，而基础设施供应商无论哪家实验室胜出都照样收钱。

Nvidia / TSMC 是"当下的铲子制造商"：Nvidia 数据中心营收约占其总营收 90%，营业利润率约 52%，毛利率持续高于 70%（媒体/机构测算）。
测试设备商（KLA、Teradyne）2025 年增长约 48.1%，高于几乎所有半导体细分品类，由 AI 芯片复杂度推升。
四大超大规模云厂商 2026 年合计约 7,100 亿美元 AI 基建资本开支（Amazon ~2,000 亿、Microsoft ~1,900 亿、Alphabet ~1,850 亿、Meta ~1,350 亿；媒体测算）。

来源：Technostatecraft、FourWeekMBA、EODHD、24-7 Wall St（卖铲人逻辑与资本开支为媒体/投资机构测算，非各公司统一官方口径）

护城河重估：一句话

AI 把价值从中间的"模型层"挤向两端——向上到沉淀了专有数据与工作流的应用层，向下到掌握算力瓶颈的基础设施层。最危险的位置，恰恰是夹在中间、只做"薄套壳"或纯卖通用模型 token 的玩家。对产品团队而言，问题不是"要不要用大模型"，而是"我在模型之上独占了什么别人复制不了的东西"。

5.2　投融资浪潮：AI 吸走了一半以上的风险资本

护城河之争的背后，是一场量级空前的资本再分配。2024–2025 年，AI 不只是"一个热门赛道"，而是几乎吞掉了全球风险投资的半壁江山。

5.2.1　AI 占 VC 比例：从三分之一到六成

据 Crunchbase 口径，AI 创业公司占全球 VC 资金的比例从 2024 年的 34% 跃升至 2025 年的 61%；另有 OECD 等口径给出约 50%（统计范围与"AI 公司"界定不同，故并列呈现）。2025 年全球 AI 募资达约 2,110 亿美元，同比 2024 年的约 1,140 亿美元增长 85%；其中美国 AI 公司独占约 1,590 亿美元（占全球 AI VC 的 79%），地理集中度极高。

图 5-1　AI 占全球风险投资比例（Crunchbase 与 OECD 两家口径并列，2024–2025）

来源：Crunchbase News《Big AI Funding Trends 2025》https://news.crunchbase.com/ai/big-funding-trends-charts-eoy-2025/；OECD《VC investments in AI through 2025》。两家对"AI 公司"界定不同，数值不可直接互换。

一个标志性事实：2025 年是历史上第一次，AI/ML 创业公司的融资额超过其他所有行业之和。资本市场用真金白银投票，押注这场范式重写。

5.2.2　头部厂商估值：从百亿到近万亿

基础模型与 AI 原生厂商的估值在两年内被反复刷新。下表汇总主要厂商的代表性轮次，并严格区分官方公告与媒体估算——这一点对引用至关重要，因 AI 领域私有公司估值传闻极多。

表 5-1　主要 AI 厂商代表性融资轮次与估值（2024–2026，区分官方/媒体口径）

厂商	轮次 / 募资	估值	时间	领投 / 口径
OpenAI	约 400 亿美元	约 3,000 亿美元（投后）	2025	SoftBank 领投，Microsoft 等参与官方/机构
Anthropic	Series F 约 130 亿 → Series H 约 650 亿	约 1,830 亿 → 约 9,650 亿	2025 →2026.05	Iconiq/Fidelity → Altimeter/Sequoia 等；超越 OpenAI 成最高估值 AI 创企官方/媒体
xAI	约 100 亿股权 +35 亿债务	约 2,000 亿美元	2025	Valor、QIA 等；2026 初再募约 200 亿媒体
Mistral AI	€17 亿 Series C	€117 亿（约 138 亿美元）	2025.09	ASML 领投 €13 亿（约 11% 股权），Nvidia 等参与；欧洲史上最大 AI 轮官方
Safe Superintelligence	约 20 亿美元	约 320 亿美元	2025.04	Greenoaks 领投约 5 亿；无产品即达此估值媒体
Thinking Machines	约 20 亿美元（种子）	约 100 亿美元	2025	a16z 领投；史上最大种子轮（Mira Murati 创立）媒体
Perplexity	约 2 亿美元	约 200 亿美元	2025.09	年内 140 亿→180 亿→200 亿；ARR 接近 2 亿媒体

来源：TechFundingNews《10 AI mega-rounds 2025》、Axios（2026-05-28，Anthropic $965B）、CNBC（2025-09-09，Mistral）、TechCrunch（2025-04-12，SSI；2025-09-10，Perplexity）、Maginative（Thinking Machines）。标注"媒体"者为报道/传闻口径，引用时以最新官方披露为准。

补充几笔同期大额轮次以见全貌：Databricks 约 50 亿美元 @ 约 1,340 亿估值；Jeff Bezos 参与创立的 Project Prometheus 约 62 亿美元；防务 AI Anduril 约 25 亿 @ 约 305 亿；编码赛道的 Anysphere（Cursor，见 5.4 节）与 Reflection AI（约 20 亿 @ 约 80 亿）同样跻身十大 megaround。

来源：TechFundingNews《$84B story: 10 AI mega-rounds 2025》https://techfundingnews.com/openai-anthropic-xai-ai-funding-trends-2025/（媒体汇总口径）

5.3　并购与 acqui-hire：巨头如何"绕道"收购人才

资本的另一面是整合。2024–2025 年出现了一种被反复使用、又被监管反复盯上的特殊交易结构——反向人才收购（reverse acqui-hire）：巨头招走创业公司的核心团队，同时支付一笔技术授权费，并刻意保留目标公司的独立法人地位，以规避正式并购触发的反垄断审查。

5.3.1　四起典型的"反向 acqui-hire"

表 5-2　重大并购与人才收购事件（2024–2025）

事件	金额 / 估值	时间	结构与去向（来源）
Microsoft ← Inflection	约 6.5 亿美元	2024.03	约 6.2 亿授权费 + 约 3,000 万和解金；招走 Suleyman 等约 70 人几乎全员，Suleyman 任 Microsoft AI 部门 CEO 掌管 Copilot；Inflection 保持独立（TechCrunch、Fortune，The Information 口径）
Google ← Character.AI	约 27 亿美元	2024.08	非独占技术授权 + 招回 Noam Shazeer、De Freitas 及约 30 名核心回 DeepMind（Shazeer 主导 Gemini）；公司由总法务任临时 CEO（Bloomberg、Nasdaq；亦有 25 亿口径）
Amazon ← Adept	授权金额未披露	2024.06	招走 CEO David Luan 及多名联创并授权其 agent 技术；Luan 任 Amazon VP，2024-12 组建 AGI SF Lab（CNBC、TechCrunch；注：2026-02 Luan 已离职）
Amazon ← Covariant	约 3.8 亿 + 2,000 万尾款	2024.08	招走联创 Pieter Abbeel 等及约 1/4 员工，非独占授权机器人基础模型；尾款一年后支付（TechCrunch、Wikipedia，媒体披露）
Meta ← Scale AI	约 143 亿美元取 49% 股权	2025.06	Scale 估值约 290 亿；CEO Alexandr Wang 加入 Meta"超级智能"团队直接向扎克伯格汇报（个人股份约 50 亿）；系 Meta 史上最大对外投资（Fortune、TechCrunch）

来源：各家 TechCrunch / Fortune / CNBC / Bloomberg 报道（详见正文脚注）。授权费多为 The Information 等媒体口径，非交易方官方披露。

5.3.2　Windsurf 风波：72 小时三方拆分

最戏剧化的一例是编码工具 Windsurf：2025 年 7 月，一家公司在约 72 小时内被三方分食。

OpenAI 出局：4 月曾拟以约 30 亿美元收购，但因不愿让大股东 Microsoft（其 GitHub Copilot 为 Windsurf 竞品）一并取得该编码技术、且 Windsurf CEO 坚拒 Microsoft 介入，谈判破裂。
Google 截胡人才：以约 24 亿美元授权费招走 CEO Varun Mohan、联创 Douglas Chen 及顶尖研究员进 DeepMind——不占股、非独占授权，是典型的"反向 acqui-hire"。
Cognition 收尾：数日后，Devin 母公司 Cognition 收购 Windsurf 剩余的 IP、产品、品牌与团队（金额未披露）。

来源：TechCrunch 2025-07-11、CNBC 2025-07-14（Google 授权费 24 亿为报道口径）

5.3.3　监管的反扑

这种"授权费 + 招团队 + 留壳"的结构很快引来监管。批评的核心是它可能系统性规避并购审查。美国参议员 Ron Wyden 直言："少数公司控制了大部分市场，却把精力放在买光别人的人才、而非创新上。"具体动作上：

英国 CMA 于 2024-07-17 启动正式调查，评估是否升级为完整并购调查。
美国 FTC 自 2024 年 6 月起调查 Microsoft–Inflection，并索取 Amazon–Adept 交易细节。

来源：Fortune《Big AI acquihire... scrutiny in the U.K. and U.S.》2024-07-17 https://fortune.com/2024/07/17/big-ai-acquihire-microsoft-inflection-amazon-adept-antitrust-cma-ftc/

5.4　组织结构：更小的团队，更高的杠杆

资本与并购重塑了行业的"骨架"，而 AI 正在重塑公司的"肌肉"——组织形态。一个鲜明趋势是：团队在变小，单位人效在飙升。

5.4.1　从"效率年"到"AI 杠杆"

这一趋势的序章是 Meta 的 效率年（Year of Efficiency）。2023-02-01 财报电话会上，扎克伯格定义 2023 为"效率年"，核心理念是"让公司变好的，是用更少资源把事做成"；措施包括扁平化、削减中层管理、部署 AI 工具提升工程师生产力（2022 Q4 已裁约 1.1 万人）。两年后，这一理念被 AI 推向极致——Sequoia 已调整其承销模型，以纳入所谓 "agentic leverage"（小团队借 AI agent 编排实现的超额产出）。

来源：About Meta《Update on Meta's Year of Efficiency》2023-03；The AI Journal《Tiny Teams...》（agentic leverage 提法）

5.4.2　极小团队独角兽：人效的极端样本

两个被反复引用的样本，重新定义了"一家公司能有多小、又能有多大"：

表 5-3　极小团队独角兽的人效对照

公司	收入规模	团队规模	人均营收 / 备注
Midjourney	2025 营收约 5 亿美元（2024 约 3 亿）	约 107–163 人	人均约 470 万美元（对比 Google ~180 万、Meta ~160 万、OpenAI ~50 万）；自筹无 VC、零营销，两个月即盈利
Anysphere（Cursor）	2026.03 约 20 亿美元 ARR	约 50 人（该里程碑时）	史上 0→20 亿 ARR 最快的 B2B 软件（约 3 年）；2025 年 Series D 募 23 亿 @ 约 293 亿估值
Gamma	近 5,000 万用户	约 28 人	"比多数公司市场部还少的人，服务近 5,000 万用户"
Perplexity	ARR 接近 2 亿美元	（精简团队）	人均营收约 85 万美元，远高于传统 SaaS 的 10–20 万

来源：getLatka、Product Growth、Sacra（Midjourney）；TechCrunch 2025-06-05、CNBC 2025-11-13（Cursor）；The AI Journal、The VC Corner。私有公司收入多为自报或媒体估算口径。

5.4.3　新角色：从"写代码的人"到"AI 编排者"

团队变小的另一面，是工程师角色的质变。业界提出一条清晰的演进路径：从 Conductor（指挥） 到 Orchestrator（编排者）。

Conductor：与单一 AI agent 紧密协作、实时引导其行为、随时介入修正——人始终在每一步的回路里。
Orchestrator：统筹多个 agent 并行工作于项目的不同部分，只设定高层目标与任务边界，让自主 agent 各自完成实现细节。

一句广为流传的判断概括了终局："未来软件工程师的工作不是写代码，而是编排 AI agent 替你写代码。" 行业因此提出从 SDLC（软件开发生命周期）向 AO-DLC（agent 编排的开发生命周期） 迁移的设想——GitHub 的 agent 已让一名工程师得以监督多个并行的"AI 初级工程师"。

来源：O'Reilly Radar / Addy Osmani《Conductors to Orchestrators》https://www.oreilly.com/radar/conductors-to-orchestrators-the-future-of-agentic-coding/；LangChain Blog

5.5　岗位与人才：新工种崛起，初级岗位承压

组织瘦身的尽头，是劳动力市场的重构。AI 既创造了全新的工种，也对另一些岗位形成了结构性挤压——其中初级开发者首当其冲。

5.5.1　"AI Engineer"的崛起与"Prompt Engineer"的退潮

AI Engineer 崛起。 2023-06，swyx（Shawn Wang）在 Latent Space 发表《The Rise of the AI Engineer》，提出一个全新工种定义：用 LLM、agent、RAG、AI API 出产品的软件工程师，区别于做模型训练的传统 ML 工程师；其论点"过去需 5 年加一支研究团队的 AI 任务，如今凭 API 文档加一个下午即可完成"被广泛传播，Andrej Karpathy 公开认同。配套的 AI Engineer Summit（2023-10）以 10:1 报名比秒罄，2024-06 的 World's Fair 吸引 3,000+ 人，成为全球最大面向工程师的技术 AI 会议。

来源：Latent Space《The Rise of the AI Engineer》https://www.latent.space/p/ai-engineer；RedMonk

Prompt Engineer 退潮。 与之形成对照的是一度被称"2024 年度岗位"的 prompt engineer 的迅速降温：微软调查中它在企业未来 12–18 个月拟新增岗位里排倒数第二；据 LinkedIn 口径，相关档案在 2024 年中至 2025 年初约下降 40%，职位发布趋近于零。原因是模型成熟到"能自己 prompt 自己"，微软 CMO 称"不再需要完美的 prompt"。但该技能并未消失，而是被吸收进 AI Engineer、Applied ML Engineer、LLM Engineer、AI Solutions Architect 等更宽的岗位。

来源：Fortune 2025-05-07 https://fortune.com/2025/05/07/prompt-engineering-200k-six-figure-role-now-obsolete-thanks-to-ai/；TechRepublic、Fast Company（微软调查与 LinkedIn 档案降幅为报道口径）

5.5.2　初级岗位的结构性收缩（多项研究并列）

最受关注、也最具警示意义的，是 AI 对初级/应届岗位的冲击。多项独立研究指向同一方向——这是 结构性收缩而非周期性波动：

Stanford Digital Economy Lab《Canaries in the Coal Mine?》（2025-11，Brynjolfsson 等，ADP 薪资数据覆盖 2,500 万+ 工人）：在 AI 暴露度最高的 IT/软件工程岗，22–25 岁就业下降约 6%，而 35–49 岁反增约 9%。
Harvard 研究（追踪 6,200 万工人 / 28.5 万家公司，2015–2025）：采用 AI 的公司在 6 个季度内初级岗位下降约 9–10%，高级岗位基本不变。
入门级科技招聘 2024 年同比降约 25%；大厂入门级招聘近三年降幅超 50%。NY Fed 数据：CS 应届失业率 6.1%、计算机工程 7.5%。
雇主态度：SHRM 2024 调查中 70% 招聘经理认为 AI 能干实习生的活、57% 更信任 AI 产出；IDC/Deel 2025 调查中 66% 全球企业计划因 AI 削减入门级招聘。

来源：Stanford Digital Economy Lab；Harvard（经 Stack Overflow Blog 2025-12-26 https://stackoverflow.blog/2025/12/26/ai-vs-gen-z/ 综述）；IEEE Spectrum、SoftwareSeni、IntuitionLabs（各研究样本与口径不同）

5.5.3　科技裁员中的 AI 因素

宏观裁员数据同样被 AI 叙事重新定义。据 Layoffs.fyi，2024 年约有 26.2 万名科技工人被裁；2025 年截至 11 月超 15.7 万（其他统计口径如 12.2 万等并存，差异源于统计范围）。越来越多公司明确将 AI 效率/自动化列为裁员理由，包括 Dell、Dropbox、HP、IBM、Cisco、Salesforce；Meta 亦于 2025–2026 宣布裁约 10%。论战焦点被一句话点破："AI 不是让工人更高效，而是让工人变得冗余。"

来源：Layoffs.fyi https://layoffs.fyi/；TechCrunch 2025-12-22；a3i、Crunchbase News（不同来源裁员总数口径不一，已并列说明）

5.6　中国对照：六小虎分化、价格战洗牌与团队并入

把镜头转向中国，同样的范式力量在不同的资本与政策环境中，演化出一条颇为不同的路径。三个关键词足以勾勒：分化、价格战、收缩。

5.6.1　"六小虎"叙事的终结与 IPO 竞速

2023 年并称"AI 六小虎"的——智谱、月之暗面、MiniMax、百川、零一万物、阶跃星辰——到 2025 年，这一叙事被业内称为"已成过去式"，格局明显分化：

冲刺资本市场：智谱与 MiniMax 率先通过港交所聆讯。智谱于 2025-12-30 启动招股、预计 2026-01-08 在港交所上市，定价 116.2 港元/股、募资约 43 亿港元，被称"全球大模型第一股"。
继续冲营收条件：月之暗面最新一轮融资收尾，估值有望升至约 40 亿美元，目标次年下半年启动 IPO；MiniMax 累计三轮融资超 7.5 亿美元。
退守垂类：百川聚焦医疗、零一万物转向 To B 与垂直应用，阶跃星辰重注多模态。

一位接近厂商的行业人士直言："'六小虎'已是上一代标签，现在只有一条赛道——全模态能否进第一梯队。"

来源：21 经济网《一文看完大模型六小虎的 2025》、第一财经《年终盘点｜大模型洗牌》https://www.yicai.com/news/102982883.html、投中网、cls.cn（IPO 定价与募资为招股口径）

5.6.2　价格战洗牌：从"价格屠夫"到逆向涨价

国内 API 价格战的烈度远超海外。2024-05，DeepSeek 以 DeepSeek-V2 率先把价格压到输入￥1/百万 tokens、输出￥2/百万 tokens 的行业低位，有"价格屠夫"之称，随即带动智谱、字节、阿里、腾讯、讯飞、百度、360、月之暗面集体跟进降价。

但 2026 年出现耐人寻味的逆转：据对 17 家厂商定价的统计，超 7 成转为涨价——智谱 API 提价约 83%，腾讯云自研模型 API 涨幅一度达 463%，阿里云、百度智能云相继上调算力价格。与此同时 DeepSeek 又宣布 V4-Pro API 在 2026-05-31 后永久调为原价的 1/4。一个结构性观察是：使用开源 AI 栈的初创公司中约 80% 跑在中国模型上；token 价格的地区差异，已成为由能源成本、芯片获取与产业政策共同塑造的长期格局。

来源：华尔街见闻/知乎《深扒 17 家厂商最新定价》https://wallstreetcn.com/articles/3753987；新浪财经 2026-05-26；36氪《Token 生意在重新洗牌》（涨跌幅为厂商公告/媒体统计口径）

5.6.3　资本与人才：零一万物预训练团队并入阿里

资本与人才市场的洗牌，在 零一万物 一案上体现得最为典型。2025-01-02，零一万物宣布将大部分预训练与 AI Infra 团队并入阿里、与阿里云成立"产业大模型联合实验室"，不再追求超大模型。创始人李开复澄清这"并非被收购"，而是主动转向"小而美"做垂直应用与产业落地。

业绩：2025 年实现约 5 亿元订单、2.5 亿元审计收入；截至 2026-05 订单累计超 15 亿元，目标 2027 年交表上市。
信号意义：与王小川（百川转向医疗）同期，李开复的转身被解读为"大模型创业上半场结束"——预训练超大模型的赛道，正向少数资本与算力雄厚者收敛。

来源：新浪财经 2025-01-09 https://finance.sina.com.cn/roll/2025-01-09/doc-ineeitny9747373.shtml；21 经济网 2025-01-10；证券时报、53AI（订单/收入为公司自报口径）

5.6.4　中外对照小结

同一场范式重写，中外呈现出耐人寻味的差异：欧美由充裕的私有资本驱动头部估值狂飙（Anthropic 近万亿、xAI 两千亿），并以"反向 acqui-hire"完成人才整合；中国则在更紧的资本与更烈的价格战中加速分化，叠加信创国产化这一政策市场，更多走"提效拓市 + 垂类落地"而非"颠覆存量"的路径。护城河、资本与人才三者的配置逻辑，在两个市场并不相同。

给产品/商业团队的要点

① 护城河上移：模型层在价格战中被快速商品化，可防御性来自专有数据、工作流嵌入与品牌——别停留在"薄套壳"，也别幻想纯卖通用 token。② 资本极度集中：2025 年 AI 吸走全球 VC 的 50–61%（口径不一），头部估值狂飙，但私有公司估值多为媒体口径，决策时回到官方披露。③ 人才整合走捷径："反向 acqui-hire"成巨头标配，但正受 FTC/CMA 审查，相关交易存在监管不确定性。④ 组织瘦身化：极小团队 + AI 杠杆成为新常态，工程师角色从"写代码"转向"编排 agent"，团队设计应据此重构。⑤ 人才结构性变化：AI Engineer 崛起、prompt engineer 被吸收，初级岗位出现 6–10% 的结构性收缩——招聘与培养策略需要前瞻调整。⑥ 中国不同路径：更烈的价格战、更紧的资本、政策市场加持，"提效拓市"重于"颠覆存量"。

第 6 章　跨维度洞察与趋势研判

前五章分别拆解了开发范式、产品与架构、商业模式、行业格局四个维度。本章把镜头拉远，做跨维度的合流分析：当估值逻辑、市场重心、风险结构与未来情景被放在同一张图上，会浮现出哪些单看一个维度看不到的判断。本章的写作原则是——观点必须标明提出者与时点，对"SaaS 已死""AI 泡沫"这类争议性命题，严格呈现正反双方，不替读者下定论。

说明：本章数字多为机构预测或自有调研，VC/分析机构的报告天然带有立场，部分私有公司财务为媒体估算或公司自报口径，引用时已逐处标注来源与时间，读者据此决策时务必回到原始定义。检索口径截至 2026 年 5 月。

6.1　估值逻辑的重写：资本市场已经先行定价

如果说前几章讨论的是软件"怎么造、卖什么、怎么赚"，那么资本市场是把这一切折算成一个数字的地方。而这个数字，已经被重新计算过了。

6.1.1　倍数压缩：一个清晰的下行台阶

上市 SaaS 公司的 EV/TTM 收入中位倍数 走出了一个清晰的下行台阶：2024 年底 6.2× → 2025 年底 4.9× → 2026 年 3 月 31 日 3.3×（Multiples.vc《Software Valuation Multiples》/ SaaS Capital，2026）。传统 SaaS 普遍回落到 2.5–7× EV/Revenue 区间。与此同时，公开市场上 AI 公司的市值/收入中位倍数仍高于 10×——按 Eqvista 一种口径，AI 平均收入倍数 37.5× 对 SaaS 的 7.6×，鸿沟之大前所未见。

图 6-1　上市 SaaS 估值倍数压缩：EV/收入中位数 6.2×→3.3×（2024 年底—2026 年 3 月）

来源：Multiples.vc《Software Valuation Multiples》、SaaS Capital《Four Early 2026 SaaS Trends》（上市 SaaS 中位 EV/TTM 收入口径）

6.1.2　"SaaSpocalypse"：万亿市值蒸发，与"幻象论"的反方

2026 年初起，软件股经历了一场被称作"SaaSpocalypse"（SaaS 末日）的滚动式抛售。各家口径不一，需并列呈现：

市值规模（财经媒体口径，非官方统计）。 自 2026 年初起软件股累计蒸发约 2 万亿美元（TechCrunch，2026-03-01；FinancialContent，2026-03-30）；另有"单次事件 48 小时内 SaaS 估值蒸发 ~2850 亿美元"的更窄口径。
关键拐点信号。 软件板块前瞻市盈率首次跌破标普 500 整体市盈率，从 2020–2022 峰值 84.1× 降至 2026 年 3 月 22.7×；软件 ETF（IGV）较 2025 年 9 月峰值回撤约 30%。
导火索（归因存争议）。 一种流行说法是 Anthropic 发布 Claude Cowork，市场据此认为 Agent 可替代"按席位收费"支撑的整类知识工作，叠加 2025 Q4 疲软财报共振。

争议呈现：SaaSpocalypse 是真崩塌，还是叙事幻象？

看空方（Forrester）在《SaaS As We Know It Is Dead》中主张"我们所知的 SaaS"正被瓦解。反方（"幻象论"）则针锋相对：Fast Company 直接以《Everything you've heard about the 'SaaSpocalypse' is wrong》反驳，Dev Interrupted 称《The AI SaaSpocalypse is a mirage》。反方核心论据是支出基本盘并未消失——IDC 预计全球 SaaS 支出仍从 2025 年 3180 亿美元增至 2028 年 5120 亿、2029 年 5760 亿美元。本报告判断：股价层面的"末日"是真实发生的重定价，但它惩罚的是"按席位 × 功能"的旧增长引擎，而非企业软件这个品类本身。

6.1.3　AI 溢价：市场把软件切成"被增强"与"被替代"两类

重定价不是普跌，而是分化。具备真实 AI 能力的软件公司较同类非 AI 软件获得 30–50% 估值溢价（Livmo，2026）；SEG Research 记录 AI-native SaaS 相对非 AI 同业有 1–3× 倍数溢价。市场用真金白银把软件资产切成两类：AI-enhanced（被增强） 与 AI-threatened（被替代）——浅层 AI 定位、Agent 可直接替代其功能的产品，正遭遇下修重估（Multiples.vc）。

6.1.4　两份"State of AI"报告：VC 视角下的乐观主线

两家头部 VC 的年度报告提供了产业侧的另一面，需注意其多头立场：

Bessemer《The State of AI 2025》。提出"没有不含 AI 的云"——几乎所有传统 SaaS 都已在产品与运营中引入 AI；自 2023 年起向 AI-native 初创投入超 10 亿美元。其 Cloud 100 Benchmarks（2025) 显示榜单总价值 1.117 万亿美元（较 2024 年 +36%），AI 公司占 4640 亿美元；AI 公司达成 1 亿美元 ARR 平均仅 5.7 年（整体 7.5 年），垂直 AI 增速约 400%、ACV 约为传统 SaaS 的 80%。Bessemer 断言：垂直 AI 有潜力超越最成功的传统垂直 SaaS 市场。
Battery Ventures《State of AI 2025》。将年度报告更名为"State of AI"，宣称"AI 超级周期（supercycle）已到来"。三大云（AWS+GCP+Azure）合计运行率收入 2025 Q3 达 2850 亿美元、同比 +29%；企业 CXO 在 2025 Q1 首次把"生成式 AI/LLM"列为未来 12 个月支出第一优先级，33% 企业已从试点转入部署、近 75% 预计两年内跟进。

来源：Bessemer Venture Partners《The State of AI 2025》《Cloud 100 Benchmarks Report 2025》；Battery Ventures《It is Here: The AI Supercycle Has Arrived》《State of Enterprise Tech Spending》（2025，均为机构自有调研，含多头立场）

6.2　Service-as-Software：市场重心从"工具"迁往"服务"

估值重定价的背后，是一个更深的叙事转向：软件要争夺的，不再只是软件的钱。

6.2.1　纳德拉"业务应用将崩塌"：原话与媒体标签之别

这场叙事最具引爆力的一句话来自微软 CEO Satya Nadella，在 2024 年 12 月 BG2 播客（主持人 Brad Gerstner、Bill Gurley）中的表述。务必区分"原话"与"媒体标签"：

原话（多源互证）。 纳德拉称业务应用大概率会"崩塌（collapse）"——"它们本质上就是带一堆业务逻辑的增删改查数据库（CRUD databases with a bunch of business logic）"；并断言"所有逻辑都将进入 AI 层（all the logic will be in the AI tier）"，Agent 成为跨平台编排者；微软将"相当激进地（aggressively）去崩塌这一切"，无论客服还是财务与运营，并称在 Dynamics 后端 + Agent 组合上赢率很高。
媒体标签。 "SaaS is dead（SaaS 已死）"是媒体对上述言论的概括标签，纳德拉本人并未逐字如此表述（参见 Medium《Did Satya Nadella really say SaaS is dead?》）。撰稿与引用时应保留这一区分，避免以讹传讹。

争议呈现：SaaS 是消亡还是演化？

消亡/颠覆论：纳德拉（业务应用崩塌）、Forrester（《SaaS As We Know It Is Dead》）。演化非消亡论：IDC《Is SaaS Dead?》主张下一章不是"SaaS vs AI"而是"以 AI 为核心的 SaaS"；Bain & Company《Will Agentic AI Disrupt SaaS?》认为部分类目受冲击但整体企业软件市场继续增长。两方的实质分歧不在"会不会变"，而在"存量 SaaS 的价值是被替代还是被吸收"。

6.2.2　Foundation Capital：真正的奖品是 4.6 万亿美元的"服务"

如果说纳德拉指出了"应用层会塌"，那么 Foundation Capital 的合伙人 Ashu Garg 与 Jaya Gupta 指出了"塌向哪里"。他们提出 Service-as-Software（服务即软件） 命题：

核心论断。 真正的奖品不是约 2000 亿美元的 SaaS 工具市场，而是企业花在薪资与外包服务上的 4.6 万亿美元。AI-native 公司不再"加速工作流"，而是"替你把活干了（do the work for you）"——AI SDR、AI 会计、AI 律师助理、AI SRE 等端到端系统。Jaya Gupta 称这是"远超传统软件市场的数万亿美元机会"。
三条制胜模式。 ① 实施即护城河——差异化来自深度定制而非代码，"前向部署工程师（forward-deployed engineers）"成为战略资产；② 销售-交付融合——"客户现在期望在签合同前就体验到功能、集成与结果"，POC 需真实数据，催生"销售成本危机"；③ 结果导向定价演进——席位制 → 用量制 → 工作流制 → 结果制。代表公司：Sierra（客服）、Harvey（法律）、Clay（销售）。
同一机构的风险提示。 Foundation Capital 在《When model providers eat everything》中警告：基础模型厂商（OpenAI、Anthropic）正"向上吞噬技术栈"，从基础设施转为产品公司，对 Service-as-Software 初创构成生存威胁。

6.2.3　定价范式迁移：从席位制到结果制

商业模式的迁移已是可观测事实。当一个 Agent 能干十个、五十个人的活，"按人头收费"被结构性瓦解：AI agent 不登录、不占命名用户许可、不对应 headcount——有观点称 Agent 可压缩席位数 90%。

表 6-1　定价范式迁移：从席位制走向结果制（2025–2030）

定价模式	计量方式	现状与代表信号	出处/时点
席位制（旧）	按命名用户/月	Agent 经济下结构性失效；Salesforce 仍坚持按席位 AI 许可	The Register，2025-12
用量制	按 token/API 调用/算力	混合定价（基础+用量超额）成行业标准	Bessemer Pricing Playbook
结果制	按验证的业务结果	Intercom Fin 每解决一次对话 0.99 美元；Sierra 按结果计费	Sierra / Intercom，2025
迁移预测	用量/Agent/结果型	到 2030 年 ≥40% 企业 SaaS 支出转向，席位制收入占比 21%→15%	Gartner，2025
厂商重构	围绕新价值度量	到 2028 年纯席位制过时，70% 软件厂商重构定价	IDC，2025

来源：MindStudio、Bessemer《AI Pricing & Monetization Playbook》、Sierra、The Register、Gartner、IDC（2025–2026）；混合定价采用率据 Bessemer 2026 Playbook 为 41%（2025 年为 27%）

需要并陈反例：并非全行业统一。Salesforce 在 2025 年 12 月仍选择按席位的 AI 许可（The Register），显示头部厂商对"按结果计费"的可计量性与收入可预测性仍有保留。

6.3　风险与不确定性：范式重写，但兑现路径曲折

本报告无意做单边的"AI 颠覆一切"叙事。把四类风险并置，能看清"叙事"与"兑现"之间的鸿沟。

6.3.1　可靠性：复合错误是 Agent 的阿喀琉斯之踵

概率性系统最致命的风险是误差累积。即便每一步可靠率高达 85%，一个 10 步工作流端到端成功率也只有约 20%——单点准确率不等于多步可靠性（arXiv《Towards a Science of AI Agent Reliability》，2026）。其他实证：工具误用/错误参数约占 2024–2025 生产失败的 31%；约 91% 的 ML 系统随时间出现性能退化；当幻觉率超过 30%，用户即弃用产品。基准差异极大——Gemini-2.0-Flash 约 0.7%（2025-04），但在法律、医疗、引用检索、多轮研究等硬任务上错误率陡升。51% 用 AI 的组织至少遭遇一次负面后果。

来源：Trantor《AI Agent Failure Modes》、Maxim AI《State of AI Hallucinations in 2025》、arXiv 2602.16666（2025–2026）

6.3.2　安全：OWASP LLM Top 10（2025）

OWASP Gen AI Security Project 2025 版重写了 LLM 应用的风险图谱，其中 prompt injection（提示注入） 高居 LLM01，且定义扩展为直接 + 间接两类——间接注入指 LLM 从网页等外部源摄入内容而被操纵，对联网 Agent 尤为危险。

LLM01 提示注入（直接 + 间接）　LLM02 敏感信息泄露　LLM03 供应链漏洞
LLM04 数据投毒　LLM05 不当输出处理　LLM06 过度自主性（Excessive Agency）
LLM07 系统提示泄露（新增）　LLM08 向量与嵌入弱点（新增）　LLM09 错误信息　LLM10 无限消耗

Agent 场景的特殊性在于：供应链、过度自主性、提示注入三类风险常在 LLM 集成系统的多个执行阶段共现，单点防御不足以兜底。

来源：OWASP Gen AI Security Project（2025 版）；TrojAI《The 2025 OWASP Top 10 for LLMs》

6.3.3　合规：全球 vs 中国的两套监管逻辑

合规是 Service-as-Software 落地绕不开的约束，且欧盟与中国走的是两套不同逻辑——前者以"风险分级 + 重罚"为轴，后者以"分类分级 + 内容安全 + 标识"为轴。

表 6-2　全球 vs 中国 AI 监管要点对照

维度	欧盟 EU AI Act	中国
监管轴心	横向风险分级（禁止/高风险/有限/最小）	分类分级 + 内容安全 + 生成内容标识
关键时点	2025-08-02 GPAI 义务生效 2026-08-02 执法权生效（含罚款）、高风险与透明度规则适用 2027-08-02 存量 GPAI 须合规	2023-08-15《生成式 AI 服务管理暂行办法》施行 2025-09-01《AI 生成合成内容标识办法》施行 2025-11-01 三项生成式 AI 安全国标生效
核心义务	GPAI 提供者透明度、系统性风险模型须通报 AI Office	安全评估 + 算法备案；算法/内容/语料/标注合规；显式 + 隐式（元数据/水印）双标识
罚则	禁止性行为：最高 3500 万欧元或全球营收 7% 其他义务：最高 1500 万或 3% 虚假信息：最高 750 万或 1%	配合监督检查，说明训练数据来源/规模/标注规则/算法机理

来源：EU AI Act 实施时间表、DLA Piper；中央网信办《生成式人工智能服务管理暂行办法》、China Law Translate、Bird & Bird（2023–2025）

6.3.4　"AI 泡沫"之争：严格呈现正反双方

这是当下最大的争议。本报告不下断语，只把双方最硬的论据摆出来。

看空方（泡沫论）

MIT NANDA《The GenAI Divide: State of AI in Business 2025》（2025-08-18，主笔 Aditya Challapally）：95% 企业 GenAI 试点未见可测财务回报，仅约 5% 实现快速营收加速。方法为 150 场高管访谈 + 350 员工调查 + 300 个公开部署分析；根因非模型质量，而是"学习鸿沟"与资源错配（>50% 预算投向销售/营销，而后台自动化 ROI 最强）。外部估算企业 GenAI 支出约 300–400 亿美元（Fortune）。
Gartner Hype Cycle（2025）：生成式 AI 进入"幻灭低谷（Trough of Disillusionment）"；2024 年企业平均投入 190 万美元做 GenAI，但 <30% CEO 满意回报；预计需 2–5 年才能爬出低谷。
Michael Burry（折旧/做空论，2025-12 至 2026-05）：指大型科技公司高估芯片可用年限以虚增利润——AI 硬件 2–3 年即商业过时（云资产可用 5–6 年）；估算 2026–2028 行业折旧被低估约 1760 亿美元，点名 Meta、Oracle 到 2028 年或分别虚增利润 20.8%、26.9%。其 Substack 长文引发 Nvidia 罕见地向卖方分析师发备忘录反驳。
结构性担忧：OpenAI–CoreWeave–Nvidia 之间的"算力换股权、兜底未用产能（至 2032）"等循环融资结构被质疑；Morgan Stanley 顶级分析师称"非常担忧"，类比"思科时刻/互联网泡沫"。

看多方（非泡沫论）

Jensen Huang（Nvidia，2026-02）：效率提升将增加而非减少算力需求；称科技业 7000 亿美元 AI capex"只是更大事物的开端"。
Larry Fink / BlackRock：真实盈利与利润增长使当下区别于互联网泡沫，称资本部署"花得其所（well spent）"。
Howard Marks（Oaktree）：估值"高，但不疯狂（high, but not crazy）"。
结构论据：超大规模厂商可用经营现金流覆盖 capex——Meta 2025 年 capex 720 亿、计划本年最高 1350 亿；Google 计划最高 1850 亿。强经营利润率与健康资本回报支撑其前倾式投资（Guinness Global Investors、Wikipedia《AI bubble》汇总各方）。

本报告对泡沫之争的中立判断

双方其实在回答两个不同问题。看空方质疑的是短期 ROI 与资产折旧会计（"现在赚到钱了吗、利润是不是虚增"）；看多方押注的是长期算力需求曲线（"需求会不会持续到填满产能"）。两者可以同时成立：企业级 GenAI 当下兑现率确实偏低（MIT/Gartner），而长期算力需求确实可能巨大（黄仁勋）——危险不在"有没有价值"，而在"估值是否已透支了尚未兑现的价值"。产品/商业团队的可操作结论是：把赌注下在"已能产生经营数据飞轮与续约"的真实用例上，而非"vibe revenue"。

6.4　未来 2–3 年情景推演（2026–2028）

综合各家预测，2026–2028 大概率是 Agent 从"试点"走向"经济基础设施"、同时经历一轮"洗牌出清"的两面过程。以 Gartner 的系列预测为主轴（注意其同时给出乐观与冷却两类信号）：

表 6-3　关键预测与论断清单（2026–2028 及更远）

论断 / 预测	提出者	时点	出处
业务应用将在 Agent 时代"崩塌"，逻辑迁入 AI 层	Satya Nadella（微软）	2024-12	BG2 播客
真正机会是 4.6 万亿服务市场，非 2000 亿 SaaS	Ashu Garg、Jaya Gupta（Foundation Capital）	2025–26	foundationcapital.com
95% 企业 GenAI 试点无可测财务回报	MIT NANDA	2025-08	Fortune
生成式 AI 处于"幻灭低谷"，需 2–5 年爬出	Gartner	2025	gartner.com
>40% agentic AI 项目将于 2027 年底前取消	Gartner	2025-06	gartner.com
2026 年底 40% 企业应用集成任务型 Agent（2025 <5%）	Gartner	2025-08	gartner.com
2028 年 33% 企业软件含 agentic AI（2024 <1%）	Gartner	2025	gartner.com
2028 年 ≥15% 日常工作决策由 Agent 自主作出（2024 为 0）	Gartner	2025	gartner.com
2028 年 90% B2B 采购由 Agent 中介，>15 万亿美元经 Agent 流转	Gartner	2025-11	digitalcommerce360
AI agent 软件支出 2027 年达 3763 亿美元（2025 为 864 亿）	Gartner	2025	gartner.com
上市 SaaS 中位收入倍数跌至 3.3×（2024 为 6.2×）	Multiples.vc / SaaS Capital	2026-Q1	multiples.vc
AI 硬件折旧被低估约 1760 亿（2026–28），利润虚增	Michael Burry	2025-12	thedeepdive.ca

来源：见各行出处；Gartner 多篇新闻稿（2025–2026），含其预测的乐观与冷却两类信号

把这些预测合流，可勾勒三条情景主线：

渗透加速线：Agent 从 2025 年 <5% 企业应用渗透率，到 2026 年底 40%、2028 年 33% 的企业软件内嵌——Agent 成为软件默认形态。AI agent 软件支出三年从 864 亿增至 3763 亿美元。
洗牌出清线：>40% agentic 项目将在 2027 年底前因成本攀升、价值不清、风控不足被取消；"代理洗白（agent washing）"普遍，厂商夸大 agentic 能力。这与"渗透加速"并不矛盾——高渗透与高失败率同时发生，正是技术从炒作走向务实的典型特征。
经济重构线：到 2028 年 90% B2B 采购经 Agent 中介、>15 万亿美元经 Agent 交易所流转，≥15% 日常工作决策由 Agent 自主作出。这意味着竞争对象从"人类买家"变为"Agent 买家"，GTM、定价与产品发现机制都需重写。Gartner 同时判断自主业务将在 2028–2029 年成为净增就业来源。

6.4.1　对软件行业结构的长期影响

市场重心迁移：价值从约 2000 亿 SaaS 工具市场转向 4.6 万亿服务/劳动力市场（Foundation Capital），垂直 AI 有望超越传统垂直 SaaS（Bessemer）。
整体盘子仍扩张：全球 SaaS 支出 2025→2029 由 3180 亿增至 5760 亿美元（IDC）——存量核心不消失但形态改变。
护城河迁移：从"功能"转向"实施深度 + 运营数据飞轮 + 续约"；市场把软件清晰区分为"被增强"与"被替代"两类。
基础模型厂商上移：OpenAI/Anthropic 从基础设施转向产品层，挤压应用层初创的生存空间（Foundation Capital）。

6.5　全球 vs 中国：两条路径的研判

本章的所有判断在中国市场需要做一次"本地化折射"。全球（欧美）主线与中国路径在驱动力、监管逻辑与商业模式上存在系统性差异。

表 6-4　全球 vs 中国：趋势研判对照

维度	全球（欧美主线）	中国路径
核心叙事	Service-as-Software，软件吃掉 4.6 万亿服务业	AI 提效拓市为主，颠覆存量为辅；信创国产化叠加
估值/资本	SaaSpocalypse 重定价 + AI 30–50% 溢价；泡沫之争激烈	国内 SaaS 量级约为美国 1/10、90%+ 厂商仍亏损，更重落地
监管逻辑	EU AI Act 风险分级 + 重罚（最高营收 7%）	分类分级 + 内容安全 + 生成内容标识（显式 + 隐式）
定价迁移	席位→用量→结果，按结果计费走向主流	价格战烈度更高，结果制渗透较慢，更依赖项目制交付
未来情景	Agent 经济、B2B 采购 Agent 化、洗牌出清并行	"人工智能+"政策强驱动，落地难与提效并存

来源：本报告综合 Foundation Capital、Gartner、IDC、EU AI Act、中央网信办及国内 SaaS 市场公开数据整理（详见正文与附录）

一句话研判：全球在用软件"吃掉服务业"，中国更多在用 AI"提效与拓市"。两者并非优劣之分，而是市场结构（中国 SaaS 基数小、服务业数字化程度不同）、监管重心（内容安全优先）与产业政策（信创这一万亿级政策市场）共同塑造的不同路径。对出海或跨市场运营的团队，最大的风险是把"全球叙事"不加折射地套用到中国，反之亦然。

给产品/商业团队的要点

① 估值已重定价：若产品仍以"席位 × 功能"为内核，资本市场已在惩罚这一模式（SaaS 倍数 6.2×→3.3×），而"被 AI 增强"获 30–50% 溢价——尽快把价值主张从"工具"迁向"结果"。② 盯住 4.6 万亿而非 2000 亿：真正的增量在服务/劳动力预算，把产品设计成"替客户交付结果"而非"给客户一件更聪明的工具"；护城河押在实施深度与运营数据飞轮上。③ 定价迁移要主动：席位制正被结构性瓦解，向用量/结果制迁移，但需同步解决可计量性与收入可预测性（参考 Intercom $0.99/解决、混合定价成标准），并正视 Salesforce 仍守席位制的反例。④ 把风险当一等公民：复合错误（85%/步→10 步仅 20%）、OWASP LLM Top 10、EU AI Act（2026-08 执法、最高营收 7% 罚款）、中国内容标识（2025-09 强制）——可靠性与合规是 Service-as-Software 能否签单的前置门槛。⑤ 对泡沫保持清醒而非站队：企业级 GenAI 当下兑现率偏低（MIT 95%）与长期算力需求巨大（黄仁勋）可同时为真，把赌注下在能产生数据飞轮与续约的真实用例，而非 vibe revenue。⑥ 中国要做本地折射：勿把全球叙事直接套用——国内更重提效拓市与项目制落地，叠加信创政策市场与内容安全监管。

第 7 章　结论与行动建议

本报告的核心结论可以浓缩为一句话：软件的范式确实在被重写，但价值的兑现远比叙事曲折。 四个维度——开发、产品、商业、格局——正同步迁移，彼此强化；与此同时，信任悖论、落地鸿沟、毛利压力与泡沫争议，构成了同样真实的另一面。对产品与商业团队而言，正确的姿态不是 all-in 豪赌，也不是观望等待，而是在确定性的方向上，做有纪律的下注。本章给出面向三类角色的具体建议。

7.1　给产品团队的建议

把"交付结果"而非"提供工具"作为北极星。 重新审视你的产品：它是在帮用户更快地操作，还是在替用户把活干完？前者是 AI 增强（AI-enhanced），后者是 AI 原生（AI-native）。Foundation Capital 的判断很直接——奖品在 4.6 万亿美元的"服务"市场，而非 2000 亿美元的"工具"市场。
为概率性重新设计产品。 接受"输出不可完全复现"这一事实：在关键路径上引入人审（human-in-the-loop）、置信度提示、可回溯与可纠错机制；把 Evals（评测）、Guardrails（护栏）、可观测性当作与功能同等重要的一等公民，而非事后补丁。记住 DORA 的警告：个体提效不等于交付绩效，基本功（小批量、健全测试）不可替代。
用 Agent 重做工作流，而不是给老界面加个聊天框。 真正的机会在于端到端地接管一段工作流（客服解决、对账、排期、合规检查），而非在既有 GUI 旁边挂一个 copilot。CRM、客服、安全、BI 的"Agent 化重做"已验证这条路径。
正视可靠性的复合衰减。 即便每步 85% 可靠，10 步工作流端到端成功率仅约 20%。选择"容错成本低、可清晰升级人工"的场景切入（Klarna 的教训：复杂与情感工单仍需人）。
把"上下文工程"作为核心能力。 竞争的焦点正从"调一个好 prompt"转向"为 Agent 组织正确的上下文"——数据、记忆、工具、状态。这是新的产品护城河所在。

7.2　给商业 / GTM 团队的建议

主动重构定价，不要等席位被 Agent 蚀空。 席位制在 Agent 经济下是结构性暴露的负债。务实路径是混合定价：保留可预测的基础订阅，叠加用量 / 按结果的上行阶梯（Bessemer 框架）。参考 Intercom（$0.99/解决）、Zendesk（$1.50/AR）、Salesforce（Flex Credits）的实验。
把推理成本纳入每一笔定价测算。 AI 软件毛利 50–60%，远低于 SaaS 的 80–90%。在 $80 的席位上加 AI 功能可能让单座毛利从 80% 跌到 65%。设立"推理效率比"（Inference Efficiency Ratio）等新指标，把 token 成本当作 COGS 来经营。
警惕"续约时刻"。 2026 是大量"12 个月 0→1 亿美元 ARR"的 AI 公司首轮续约的"音乐停止"时刻——续约价必须反映已兑现的真实价值，而非当初的潜力。把可量化的结果（解决率、节省工时、转化提升）做成续约叙事。
重做获客（GTM）。 AI 应用经 PLG 进入的支出占比是传统 SaaS 的 4 倍（Menlo）；"销售-交付融合"成为新常态——客户期望在签约前就用真实数据看到结果，POC 成本上升，"前向部署工程师"成为战略资产。
用"结果"讲估值故事。 资本市场已把软件切成"被增强"与"被替代"两类，真实 AI 能力带来 30–50% 溢价。商业叙事要能证明你在哪一边。

7.3　给企业决策者的建议

从后台自动化要 ROI，而非在销售/营销上撒钱。 MIT 报告指出 95% 企业 GenAI 试点未见可测回报，根因是资源错配——超半数预算投向前台，而后台自动化 ROI 最强。先在高频、可度量、容错的后台流程上跑通闭环。
买大于自建，但别被"代理洗白"迷惑。 76% 企业选择采购而非自建（Menlo）。但 Gartner 预测 40%+ 的 agentic 项目将在 2027 年底前被取消——采购时要穿透"agent washing"，用真实场景验收可用性与可靠性。
把治理与合规前置。 EU AI Act 执法权 2026 年 8 月生效（违规最高罚全球营收 7%）；中国《生成式 AI 管理办法》与《内容标识办法》已落地。安全上对照 OWASP LLM Top 10（提示注入、过度自主、系统提示泄露）建立防线。
为组织的"高杠杆化"做准备。 小团队 + AI 编排的产出模型正在重写人效基准（Cursor 约 50 人 20 亿美元 ARR）。这既是机会也是挑战：重投 AI Engineer 等新岗位，审慎对待初级岗位的结构性收缩与再培训。

7.4　全球与中国：两条路径的研判

表 7-1　全球 vs. 中国：AI 重写软件的路径差异

维度	全球（欧美主线）	中国
模型路线	超大资本开支 + 闭源旗舰	低成本 + 开源（DeepSeek / Qwen），倒逼全球
商业土壤	SaaS 万亿美元、订阅成熟	SaaS 千亿元、90%+ 亏损、项目制痼疾
AI 定位	颠覆存量、重写商业模式	提效拓市为主，叠加信创国产化政策市场
价格竞争	相对理性，转向用量/结果	API 价格战极致（降幅 80%+），后现涨价回调
驱动力	资本与市场驱动	政策强驱动（"人工智能+"）+ 资本

来源：本报告综合整理（详见第 2–6 章中国对照小节）

结语：把不确定，当作要管理的对象

AI 没有让软件的经营变简单，它让软件变得更像"雇佣一位能力强但偶尔出错的同事"——你需要给它清晰的目标、可核验的产出、可控的权限和可升级的退路。赢家不会是喊得最响的"颠覆者"，而是那些既敢在正确方向上重写产品与定价、又有纪律地管理概率性风险的团队。范式已经改变；剩下的，是执行的颗粒度。

附录

附录 A　关键厂商与产品速览

表 A-1　AI 时代代表性厂商 / 产品速览（按维度）

类别	厂商 / 产品	定位与关键数据（截至 2026 年初）
AI 编程	GitHub Copilot	用户 2000 万+，付费 470 万；coding agent 2025-09 GA
AI 编程	Cursor（Anysphere）	约 20 亿美元年化收入，估值 $29.3B；约 50 人团队
AI 编程	Claude Code（Anthropic）	运行率收入 $2.5B+，半年破 $10 亿
AI 编程	Devin（Cognition）	"自主 AI 软件工程师"，估值 $10.2B→洽谈 $25B
Prompt-to-app	Lovable / Replit / v0 / Bolt	Lovable 8 个月破 $100M ARR；Replit $253M ARR
Agent 协议	MCP（Anthropic）	2024-11 发布，OpenAI/Google/微软/AWS 集体采纳
CRM	Salesforce Agentforce	2024-09 发布，按对话/Flex Credits 计费
客服 Agent	Sierra / Decagon / Intercom Fin	Sierra ARR>$150M；Fin $0.99/解决
安全	CrowdStrike Charlotte AI	2025 "Agentic SOC"，7 个任务就绪 agent
设计	Figma Make	2025-05 发布，自然语言转可交互原型
办公	Microsoft 365 Copilot	$30/用户/月；90%+ 财富 500 强使用
基础模型	OpenAI / Anthropic	ARR $25B / 运行率 $14B；估值 $800B+ / $380B
中国模型	DeepSeek / Qwen / 豆包	开源冲击；Qwen 占全球开源下载 50%+；豆包 MAU 2.27 亿
中国 Agent	字节扣子 Coze	2025-07 开源，开发者/智能体规模领先
中国软件	用友 / 金蝶	YonGPT 2.0；金蝶按结果计费、EMAI

来源：本报告综合各公司官方与媒体报道整理；财务多为年化运行率或媒体估算口径

附录 B　术语表

表 B-1　关键术语

术语	释义
LLM-native	以大语言模型为核心重新设计的应用，区别于在传统软件上叠加 AI 功能
Agent / 智能体	能自主规划、调用工具、采取行动以完成目标的 AI 系统
RAG	检索增强生成：先检索外部知识再让模型生成，缓解幻觉、引入实时知识
MCP	Model Context Protocol，Anthropic 提出的"Agent 连接数据与工具"开放标准
Vibe coding	Karpathy 2025 提出，指放手让 AI 按自然语言意图生成代码的编程方式
Outcome-based pricing	按结果计费：按"解决一张工单""完成一次任务"等可度量结果收费
Per-seat pricing	按席位计费：按使用软件的命名用户数订阅收费
NRR / NDR	净收入留存率：衡量存量客户收入的扩张/流失，SaaS 核心健康指标
Evals	对 AI 系统输出质量的系统化评测，常用 LLM-as-a-judge
Guardrails	约束 AI 行为的护栏，防提示注入、越权、不当输出
Service-as-Software	服务即软件：AI 用软件直接交付原本由人提供的服务（法律、客服、会计等）
Context engineering	上下文工程：为 Agent 组织数据/记忆/工具/状态，prompt 工程的演进
信创	信息技术应用创新：中国 IT 基础软硬件国产化替代的政策性市场

来源：本报告整理

附录 C　主要信源清单

本报告基于 180+ 次网络检索与多源交叉验证，下列为各维度的代表性一手与权威信源（非全部）。完整数据点的来源已在正文与各表/图下方逐处标注。

权威调研与数据机构

Menlo Ventures — 2025: The State of Generative AI in the Enterprise
McKinsey — The State of AI 2025
Stack Overflow — 2025 Developer Survey: AI
Bessemer Venture Partners — The State of AI 2025 / Cloud 100 Benchmarks
GitHub — Octoverse 2025
Gartner / IDC — AI 支出与 agentic AI 预测（多篇新闻稿，详见正文标注）
PitchBook / Crunchbase — 2025 年 AI 风投数据（Crunchbase）

行业格局、组织与人才

Foundation Capital — The $4.6T Service-as-Software opportunity
Latent Space — The Rise of the AI Engineer
Stanford Digital Economy Lab — Canaries in the Coal Mine?（初级岗位研究，2025-11）
Fortune — Big AI acqui-hire 反垄断报道

趋势与风险

MIT NANDA — The GenAI Divide（Fortune 报道）
Gartner — Hype Cycle for Generative AI
OWASP — LLM Top 10 (2025)
EU AI Act — 实施时间表
TechCrunch — SaaS in, SaaS out: the SaaSpocalypse

中国市场

DeepSeek — V3 Technical Report
新华网 — 《关于深入实施"人工智能+"行动的意见》
华尔街见闻 — 深扒 17 家厂商大模型定价
第一财经 / 21 世纪经济报道 — 中国 SaaS 与六小虎年度盘点（详见正文标注）

附录 D　大事记时间线（扩展）

表 D-1　生成式 AI 重写软件范式：扩展大事记

时间	事件
2022.11	OpenAI 发布 ChatGPT，五天破百万用户
2023.03	GPT-4 发布；Salesforce 推 Einstein GPT；GitHub 预览 Copilot X
2023.06	swyx 发表《The Rise of the AI Engineer》
2024.02	Klarna 上线 AI 客服，首月处理 230 万次对话
2024.03	Cognition 发布 Devin，SWE-bench 自报 13.86%；微软招募 Inflection 团队
2024.05	DeepSeek-V2 引爆中国大模型 API 价格战（输入 1 元/百万 token）
2024.09	Salesforce 发布 Agentforce；Amazon 招募 Adept/Covariant 团队
2024.11	Anthropic 发布 MCP；Zendesk 转向按结果计费
2024.12	纳德拉 BG2 播客称业务应用将"崩塌"；DeepSeek-V3 发布
2025.01	DeepSeek-R1 引发全球震动；字节 Trae 上线
2025.02	Karpathy 提出 "vibe coding"（后入选 Collins 年度词汇）
2025.05	OpenAI 重新发布 Codex 为云端自主编码 agent；Agentforce Flex Credits
2025.06	Meta 约 143 亿美元投资 Scale AI
2025.07	Windsurf "72 小时三方拆分"（OpenAI/Google/Cognition）
2025.08	中国《"人工智能+"行动意见》印发；MIT 发布"95% 试点未见回报"
2025.09	GitHub Copilot coding agent 全面可用（GA）
2025.11	Sierra ARR 破 $100M（成立不到两年）
2026.02	Anthropic $30B Series G、$380B 估值；软件股 "SaaSpocalypse" 抛售
2026.03	上市 SaaS EV/收入中位倍数跌至约 3.3×；Cursor 年化收入约 $2B

来源：本报告综合各公司官方公告与权威媒体报道整理

— 报告正文完 —

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Claude Opus 4.8 发布：更强编程与更高诚实性

Claude Opus 4.8 发布，带来更强编程能力、更高诚实性，以及动态工作流功能。

AI编程社区

2026年ChatGPT Plus 还值得订阅吗？Plus 和 Pro 有什么区别？

AI编程社区

Skill Creator 不是帮你写一个 SKILL.md，而是把经验变成可复用能力

最近连续做了几轮 OpenClaw、Codex、Claude Code 相关实践后，我越来越觉得：Skill Creator 真正有价值的地方，不是“帮你生成一个技能文件”，而是帮你把一次性的经验，沉淀成可复用、可测试、可迭代的能力。很多人第一次接触 Skill Creator，容易把它理解成：我描述一个需求，它帮我生成一个SKILL.md。这当然是它的一部分价值。但如果只停留在这里，Skill

AI编程社区

所有评论(0)

查看更多评论

数幄科技

@weixin_44830631

已为社区贡献1条内容

【行业调研报告】【重磅首发】《AI时代传统软件范式变迁》

数幄科技

执行摘要

七个核心判断

四维度变迁速览

一组最具冲击力的数字

第 1 章 导论：从"软件吞噬世界"到"AI 重写软件"

1.1 传统软件范式的基本盘

1.2 拐点：生成式 AI 浪潮的时间线

企业用真金白银投票

1.3 研究范围、方法论与分析框架

1.4 核心论点：四个"从……到……"

第 2 章 开发范式之变：软件如何被制造

2.1 AI 辅助编程工具：两年从边缘到主流

2.1.1 GitHub Copilot：先发者与"既得利益者"

2.1.2 Cursor（Anysphere）：刷新软件史的增长曲线

2.1.3 Windsurf：72 小时三方拆分的赛道缩影

2.1.4 Replit 与 Amazon Q：消费级爆发与企业级稳态

2.2 Vibe Coding 与 prompt-to-app：人人皆可造软件

2.2.1 一个词如何定义一个时代

2.2.2 Prompt-to-App 工具：从一句话到一个可运行的应用

2.3 SDLC 全流程 AI 化：不止于"写代码"

2.3.1 测试生成与代码评审：从"人审人"到"AI 先审"

2.3.2 AIOps：运维与事件管理的自动化

2.4 Agentic 软件工程：从"结对"到"自主"

2.4.1 Devin 与 SWE-bench：一条快速攀升的能力曲线

2.4.2 Claude Code：终端里的"ChatGPT 时刻"

2.4.3 OpenAI Codex 与 GitHub Copilot agent：大厂的自主化

2.5 效率与质量实证：被夸大还是被低估？

2.5.1 提效的硬证据

2.5.2 信任悖论与质量隐忧

2.6 中国对照：大厂主导的国产 AI 编程版图

第 3 章 产品形态与技术架构的重构

3.1 最根本的转变：从确定性到概率性

测试断言为何失效

"Software 3.0"：用自然语言编程

3.2 LLM-native 应用的新架构

RAG：从"朴素检索"到"Agentic RAG"

向量数据库：新栈的"存储底座"，但正在"去专用化"

Prompt Engineering → Context Engineering

记忆层（Memory）：一个独立赛道的崛起

编排框架：LangChain / LlamaIndex / LangGraph

3.3 Agent 与多 Agent 系统：MCP 成为事实标准

MCP：从 Anthropic 的提案到全行业标准

多 Agent：orchestrator-worker 架构

3.4 支撑一切的 AI 基础设施新栈

可观测性（Observability）

Evals 与 LLM-as-a-Judge

Guardrails 与 AI 网关

3.5 交互范式：从 GUI 到意图驱动

3.6 传统品类被 Agent 重做：六个案例

CRM：Salesforce Agentforce

客服：Sierra / Decagon（与 Klarna 的"回调"）

网络安全 / 设计 / 办公 / BI（四例速览）

3.7 中国对照：低成本、开源生态与分发为王

第 4 章 商业模式与定价的变迁

4.1 SaaS 经典商业模式：订阅、席位与三个健康指标

4.1.1 从买断到订阅：Salesforce 立下的模板

4.1.2 三个被奉为圭臬的健康指标

4.2 席位制的瓦解：当 Agent 替代"人头"

4.2.1 瓦解的内在逻辑

4.2.2 标志性事件：Atlassian 史上首次席位下滑

4.2.3 资本市场已经重新定价："SaaSpocalypse"

4.3 新定价范式：用量、结果与混合的三足鼎立

4.3.1 Bessemer 的"四模型"框架

4.3.2 三条路线的真实采用率

4.4 厂商定价对照：从"按席位"到"按结果"的真实价格

4.4.1 客服 / CX 赛道：结果计费的"试验田"

4.4.2 平台巨头：在席位上"叠加"AI 计量

4.4.3 AI 编程与应用工具：从"固定价"转向"按用量/credit"

4.5 成本结构剧变与 GTM 重塑

4.5.1 毛利率：从 80–90% 跌向 50–60%

一个必须加注的口径陷阱：OpenAI 的"70% margin"

4.5.2 上游降价：token 价格的"摩尔定律"

4.5.3 GTM 与获客：PLG 重生与"续约音乐停止"时刻

4.6 中国对照：项目制困境、价格战与"按结果计费"的萌芽

4.6.1 订阅制的"原罪"：项目制困境与普遍亏损

4.6.2 大模型 API 价格战：80%+ 降幅与 2025 的涨价回调

4.6.3 "按结果计费"在中国的萌芽

4.7 本章小结

第 1 章　导论：从"软件吞噬世界"到"AI 重写软件"

1.1　传统软件范式的基本盘

1.2　拐点：生成式 AI 浪潮的时间线

1.3　研究范围、方法论与分析框架

1.4　核心论点：四个"从……到……"

第 2 章　开发范式之变：软件如何被制造

2.1　AI 辅助编程工具：两年从边缘到主流

2.1.1　GitHub Copilot：先发者与"既得利益者"

2.1.2　Cursor（Anysphere）：刷新软件史的增长曲线

2.1.3　Windsurf：72 小时三方拆分的赛道缩影

2.1.4　Replit 与 Amazon Q：消费级爆发与企业级稳态

2.2　Vibe Coding 与 prompt-to-app：人人皆可造软件

2.2.1　一个词如何定义一个时代

2.2.2　Prompt-to-App 工具：从一句话到一个可运行的应用

2.3　SDLC 全流程 AI 化：不止于"写代码"

2.3.1　测试生成与代码评审：从"人审人"到"AI 先审"

2.3.2　AIOps：运维与事件管理的自动化

2.4　Agentic 软件工程：从"结对"到"自主"

2.4.1　Devin 与 SWE-bench：一条快速攀升的能力曲线

2.4.2　Claude Code：终端里的"ChatGPT 时刻"

2.4.3　OpenAI Codex 与 GitHub Copilot agent：大厂的自主化

2.5　效率与质量实证：被夸大还是被低估？

2.5.1　提效的硬证据

2.5.2　信任悖论与质量隐忧

2.6　中国对照：大厂主导的国产 AI 编程版图

第 3 章　产品形态与技术架构的重构

3.1　最根本的转变：从确定性到概率性

3.2　LLM-native 应用的新架构

3.3　Agent 与多 Agent 系统：MCP 成为事实标准

3.4　支撑一切的 AI 基础设施新栈

3.5　交互范式：从 GUI 到意图驱动

3.6　传统品类被 Agent 重做：六个案例

3.7　中国对照：低成本、开源生态与分发为王

第 4 章　商业模式与定价的变迁

4.1　SaaS 经典商业模式：订阅、席位与三个健康指标

4.1.1　从买断到订阅：Salesforce 立下的模板

4.1.2　三个被奉为圭臬的健康指标

4.2　席位制的瓦解：当 Agent 替代"人头"

4.2.1　瓦解的内在逻辑

4.2.2　标志性事件：Atlassian 史上首次席位下滑

4.2.3　资本市场已经重新定价："SaaSpocalypse"

4.3　新定价范式：用量、结果与混合的三足鼎立

4.3.1　Bessemer 的"四模型"框架

4.3.2　三条路线的真实采用率

4.4　厂商定价对照：从"按席位"到"按结果"的真实价格

4.4.1　客服 / CX 赛道：结果计费的"试验田"

4.4.2　平台巨头：在席位上"叠加"AI 计量

4.4.3　AI 编程与应用工具：从"固定价"转向"按用量/credit"

4.5　成本结构剧变与 GTM 重塑

4.5.1　毛利率：从 80–90% 跌向 50–60%

4.5.2　上游降价：token 价格的"摩尔定律"

4.5.3　GTM 与获客：PLG 重生与"续约音乐停止"时刻

4.6　中国对照：项目制困境、价格战与"按结果计费"的萌芽

4.6.1　订阅制的"原罪"：项目制困境与普遍亏损

4.6.2　大模型 API 价格战：80%+ 降幅与 2025 的涨价回调

4.6.3　"按结果计费"在中国的萌芽

4.7　本章小结

第 5 章　行业格局、组织与人才

5.1　护城河重估：模型层、应用层还是基础设施层？

5.1.1　"套壳之争"：正方与反方

5.1.2　真正的护城河：数据、工作流与品牌

5.1.3　价值上移，与"卖铲人"的确定性收益

5.2　投融资浪潮：AI 吸走了一半以上的风险资本

5.2.1　AI 占 VC 比例：从三分之一到六成

5.2.2　头部厂商估值：从百亿到近万亿

5.3　并购与 acqui-hire：巨头如何"绕道"收购人才

5.3.1　四起典型的"反向 acqui-hire"

5.3.2　Windsurf 风波：72 小时三方拆分

5.3.3　监管的反扑

5.4　组织结构：更小的团队，更高的杠杆

5.4.1　从"效率年"到"AI 杠杆"

5.4.2　极小团队独角兽：人效的极端样本

5.4.3　新角色：从"写代码的人"到"AI 编排者"

5.5　岗位与人才：新工种崛起，初级岗位承压

5.5.1　"AI Engineer"的崛起与"Prompt Engineer"的退潮

5.5.2　初级岗位的结构性收缩（多项研究并列）

5.5.3　科技裁员中的 AI 因素

5.6　中国对照：六小虎分化、价格战洗牌与团队并入

5.6.1　"六小虎"叙事的终结与 IPO 竞速

5.6.2　价格战洗牌：从"价格屠夫"到逆向涨价