【行业调研报告】【重磅首发】《AI时代传统软件范式变迁》
行业调研报告·INDUSTRY RESEARCH REPORT软件,正在被重新定义AI 时代传统软件范式变迁全景调研开发 · 产品 · 商业 · 格局(2022–2026)—— 从确定性逻辑与席位订阅,到概率性智能与结果计费 ——报告视角:产品 / 商业团队覆盖维度:开发范式 · 产品架构 · 商业模式 · 行业格局地域口径:全球为主线 · 中国市场对照完成日期:2026 年 5 月撰写人:数幄科
行业调研报告 · INDUSTRY RESEARCH REPORT
软件,正在被重新定义
AI 时代传统软件范式变迁全景调研
开发 · 产品 · 商业 · 格局(2022–2026)
—— 从确定性逻辑与席位订阅,到概率性智能与结果计费 ——
报告视角:产品 / 商业团队
覆盖维度:开发范式 · 产品架构 · 商业模式 · 行业格局
地域口径:全球为主线 · 中国市场对照
完成日期:2026 年 5 月
撰写人:数幄科技 杨超然(创始人)
执行摘要
自 2022 年 11 月 ChatGPT 引爆生成式 AI 浪潮以来,软件行业正在经历一场比"云转型"更深刻的范式重构。过去四十年,软件的底层逻辑是确定性的——相同输入得到相同输出、价值以"功能"封装、收入以"席位订阅"计量、护城河建立在"功能完备度与切换成本"之上。而 AI 把软件推向了一个概率性的新世界:输出不再可完全复现,软件开始"替人把活干完"而不仅是"给人一件工具",定价从"按席位"转向"按结果",价值与护城河在技术栈中加速迁移。
本报告面向产品与商业团队,以全球为主线、中国市场为对照,从开发范式、产品形态与技术架构、商业模式与定价、行业格局与组织人才四个维度,系统梳理这场变迁的事实、数据与判断。全部结论建立在 180+ 次网络信源检索与多源交叉验证之上,关键数字均标注来源与时点,对争议性议题(如"SaaS 已死""AI 泡沫")一律呈现正反双方。
七个核心判断
- 开发范式:从"人写代码"到"人编排 AI"。 AI 辅助编程在两年内成为主流——GitHub Copilot 用户破 2000 万,开发者 AI 工具使用率达 84%;Cursor 约 3 年冲到 20 亿美元年化收入、Claude Code 半年破 10 亿,刷新软件史最快增长纪录。但 DORA 2024 与 Stack Overflow 2025 同时揭示"信任悖论":采用率飙升的同时,开发者对 AI 输出的信任度反而下滑(40%→29%),交付稳定性出现 −7.2% 的回落。
- 产品架构:从确定性到概率性。 软件的"测试断言"范式被打破,催生了 RAG、向量库、记忆层、Agent 编排、Evals、Guardrails、AI 网关等一整套新技术栈;Anthropic 的 MCP 在一年内被 OpenAI、Google、微软、AWS 集体采纳,成为"Agent 连接万物"的事实标准。CRM、客服、安全、设计、BI 等传统品类正被逐一"Agent 化"重做。
- 商业模式:席位制正在坍塌。 当一个 Agent 能干十个、五十个人的活,"按人头收费"不是被压缩而是被结构性瓦解。Intercom 按"每解决一张工单 0.99 美元"、Sierra 按"结果"收费、Salesforce 按"对话/credit"收费——按结果计费(outcome-based)从边缘走向主流。代价是毛利模型重写:AI 软件毛利 50–60%,远低于传统 SaaS 的 80–90%。
- 估值逻辑:资本市场已经重新定价。 上市 SaaS 公司 EV/收入中位倍数从 2024 年底的 6.2× 跌至 2026 年 3 月的 3.3×,一场"SaaSpocalypse"抹去万亿美元市值;与此同时,具备真实 AI 能力的公司获得 30–50% 估值溢价。市场正把软件资产清晰地切成"被 AI 增强"与"被 AI 替代"两类。
- 市场重心:从 2000 亿"工具"到 4.6 万亿"服务"。 微软 CEO 纳德拉断言业务应用将"崩塌"为 Agent,逻辑迁入 AI 层;Foundation Capital 提出真正的奖品不是约 2000 亿美元的 SaaS 工具市场,而是企业花在薪资与外包服务上的 4.6 万亿美元——"Service-as-Software"(服务即软件)。
- 组织人才:更小的团队,更高的杠杆。 Cursor 母公司约 50 人做到 20 亿美元年化收入,Midjourney 人均营收约 470 万美元。"AI 编排者"成为新角色,"AI Engineer"岗位崛起,而初级开发岗位在多项研究中出现 6–10% 的结构性收缩。
- 中国对照:低成本开源路线 + 政策市场的双重变量。 DeepSeek 以极低训练成本与开源策略冲击全球格局,通义千问 Qwen 占全球开源模型下载量过半;国内 API 价格战烈度远超海外。但中国 SaaS 市场量级仅为美国约十分之一、90%+ 厂商仍亏损,AI 在中国更多被定位为"提效拓市"而非颠覆存量,叠加信创国产化这一万亿级政策市场,走出一条与欧美不同的路径。
|
给产品/商业团队的一句话 如果你的产品仍以"席位 × 功能"定价、以"人来操作"为前提设计,那么 AI 不是一个可选的"增强功能",而是对你价值主张、定价模型与护城河的同时重写。最危险的位置,是停留在"给人一个更聪明的工具";最稀缺的能力,是把工作流端到端"替客户交付结果"。 |
四维度变迁速览
表 0-1 传统软件范式 vs. AI 时代范式(四维度对照)
|
维度 |
传统软件范式 |
AI 时代新范式 |
代表信号 |
|
开发 |
人手写代码,确定性 SDLC |
AI 辅助 / 自然语言编程,Agent 自主写 PR |
Copilot 2000 万用户;AI 工具采用率 84% |
|
产品 |
确定性逻辑,功能即价值 |
概率性智能,RAG/Agent/记忆,结果即价值 |
MCP 成事实标准;客服/CRM 被 Agent 重做 |
|
商业 |
订阅 + 按席位,80%+ 毛利 |
用量 / 按结果计费,50–60% 毛利 |
Intercom $0.99/解决;Agentforce 按对话 |
|
格局 |
功能与切换成本筑墙 |
数据/工作流/实施深度筑墙,价值上移 |
SaaS 倍数 6.2×→3.3×;AI 溢价 30–50% |
来源:本报告综合 Menlo Ventures、Bessemer、Gartner、Stack Overflow、各公司财报与官方公告整理(详见正文与附录 C)
一组最具冲击力的数字
图 0-1 AI 原生厂商年化收入飙升:传统软件用十年走完的路,它们用一两年

来源:OpenAI / Anthropic 官方及 The Information、SaaStr、VentureBeat 转述(年化运行率口径,详见附录 C)
本报告共七章:第 1 章勾勒变迁的背景与全景;第 2–5 章分别深入四个维度;第 6 章做跨维度的趋势研判与风险揭示;第 7 章给出面向产品团队、商业/GTM 团队与企业决策者的行动建议。附录提供关键厂商速览、术语表、信源清单与大事记。(说明:因 AI 领域变化极快,部分私有公司财务为媒体估算或公司自报口径,报告中已逐处标注;引用时请以最新官方披露为准。)
第 1 章 导论:从"软件吞噬世界"到"AI 重写软件"
2011 年,Marc Andreessen 写下"软件正在吞噬世界"(Software is eating the world)。此后十余年,SaaS 以订阅制重塑了企业软件的商业逻辑,云计算把基础设施变成水电。然而到了 2022 年底,一个新的命题正在浮现:当软件本身可以被自然语言"说"出来、可以"替人把活干完",那么正在被重写的,是软件自己。
本章先界定传统软件范式的"基本盘",再用一条时间线标定 AI 浪潮的关键拐点,随后说明本报告的研究范围、方法与分析框架,最后给出贯穿全篇的核心论点。
1.1 传统软件范式的基本盘
要理解"变了什么",先要讲清"原来是什么"。过去四十年,商业软件建立在四块基石之上:
- 确定性逻辑(Determinism)。 软件是一套被精确编写的规则:相同输入永远得到相同输出。这使得软件可被穷举测试、可被形式化验证、可被信赖去执行转账与记账。整个软件工程学科——单元测试、CI/CD、SLA——都建立在"行为可预测"这一前提上。
- 人写代码的生产方式。 价值由工程师用键盘逐行创造,开发效率受限于人的数量与经验,"加人"是扩张产能的主要手段,工程师规模是软件公司的核心资产与成本。
- 订阅 + 按席位的商业模式。 SaaS 用"按用户/月"的订阅取代了一次性买断,用净收入留存率(NRR/NDR)、Rule of 40 等指标度量健康度。收入与"使用软件的人数"线性挂钩——人越多,席位越多,收入越高。
- 功能与切换成本筑成的护城河。 竞争优势来自功能的完备度、数据的沉淀、集成的深度与迁移的痛苦。先发者通过不断堆叠功能和绑定工作流,抬高用户的转换成本。
这四块基石彼此咬合,构成了一个高毛利(成熟 SaaS 毛利常达 80–90%)、可预测、可复制的商业机器。AI 的冲击之所以"伤筋动骨",正是因为它同时撬动了这四块基石中的每一块。
1.2 拐点:生成式 AI 浪潮的时间线
这场变迁不是渐进的。从 2022 年 11 月到 2026 年,关键事件以加速度密集发生,把"AI 辅助"一路推进到"AI 自主",把"实验室能力"一路推进到"商业模式"。
表 1-1 生成式 AI 重写软件范式:关键事件时间线(2022–2026)
|
时间 |
关键事件 |
范式意义 |
|
2022.11 |
ChatGPT 发布 |
生成式 AI 进入大众视野,五天破百万用户 |
|
2023.03 |
GPT-4 / Salesforce Einstein GPT |
大模型能力跃迁,传统软件巨头入场 |
|
2023.06 |
swyx 提出"AI Engineer"概念 |
新工种诞生:用 API 而非训练做 AI 产品 |
|
2024.03 |
Devin 发布(SWE-bench 13.86%) |
"自主 AI 软件工程师"叙事开启 |
|
2024.09 |
Salesforce 发布 Agentforce |
CRM 巨头转向 Agent,按对话计费试水 |
|
2024.11 |
Anthropic 发布 MCP 协议 |
"Agent 连接万物"的事实标准奠基 |
|
2024.12 |
纳德拉称"业务应用将崩塌" / DeepSeek-V3 |
SaaS 颠覆论与中国低成本开源同时引爆 |
|
2025.02 |
Karpathy 提出"vibe coding" |
自然语言编程成年度现象,全民可造软件 |
|
2025.05–07 |
OpenAI Codex Agent / Windsurf 收购风波 |
异步自主编码 agent 商用元年与赛道洗牌 |
|
2025.08 |
中国"人工智能+"行动 / MIT"95% 试点未见回报" |
政策强驱动与"落地难"质疑并存 |
|
2026.02 |
Anthropic $380B 估值 / "SaaSpocalypse"抛售 |
AI 原生估值狂飙,传统 SaaS 万亿市值蒸发 |
来源:本报告综合各公司官方公告与 TechCrunch、CNBC、The Information 等报道整理(详见附录 D 大事记)
企业用真金白银投票
时间线背后是真实的支出曲线。据 Menlo Ventures 一手调研,全球企业级生成式 AI 支出从 2023 年的 17 亿美元,跃升至 2024 年的 115 亿、2025 年的 370 亿美元——两年增长逾 20 倍。这不是炒作,而是 CIO 预算的真实再分配。
图 1-1 全球企业级生成式 AI 支出(2023–2025)

来源:Menlo Ventures《2025: The State of Generative AI in the Enterprise》(企业软件采购口径)
1.3 研究范围、方法论与分析框架
研究范围。 时间上聚焦 2022 年底至 2026 年,重点为 2024–2026 的最新进展;地域上以全球(欧美头部厂商与趋势)为主线,以中国市场为对照;视角上立足产品与商业团队,兼顾技术演进的必要背景。
方法论。 本报告基于 180+ 次网络信源检索与多源交叉验证,信息按可信度分层标注:官方(公司/机构自报)、三方(独立调研机构如 Menlo、Bessemer、McKinsey、Stack Overflow)、媒体(报道/估算)、估算/传闻。对同一指标存在多家不同口径的(如"AI 占 VC 比例""AI 生成代码占比"),一律并列呈现并注明差异来源;对私有公司财务,明确区分"官方披露"与"媒体估算"。
|
一个重要的方法论提醒 AI 领域的数字极易被误读。例如 DeepSeek"557 万美元训练成本"仅含正式训练、不含研究与实验投入;OpenAI"70% compute margin"是非 GAAP 口径、其 GAAP 毛利仅约 33%;各公司"AI 写了 X% 代码"的口径(补全建议 vs 最终合并代码)差异巨大。本报告在引用此类数字时均加注口径,读者据此决策时务必回到原始定义。 |
分析框架。 我们把"软件范式"拆解为四个相互咬合的维度,对应本报告第 2–5 章;它们并非孤立,而是构成一个相互强化的飞轮(第 6 章详述):
- 开发范式(怎么造)——软件被生产的方式:编程、测试、运维、协作。
- 产品与架构(造什么)——软件的形态与技术栈:从确定性程序到概率性 Agent。
- 商业模式(怎么卖、怎么赚)——定价、毛利、获客与价值捕获。
- 行业格局与组织(谁赢、靠什么赢)——护城河、资本、团队与人才。
1.4 核心论点:四个"从……到……"
如果用一句话概括这场变迁,那就是软件正在经历四个同步发生的迁移。它们是本报告全部论证的主线:
表 1-2 本报告核心论点:软件范式的四重迁移
|
维度 |
从(传统) |
到(AI 时代) |
|
开发 |
人写代码 |
人编排 AI(Agent 自主生产) |
|
产品 |
确定性逻辑、功能即价值 |
概率性智能、结果即价值 |
|
商业 |
订阅 + 按席位、高毛利 |
用量 / 按结果计费、毛利重构 |
|
格局 |
功能与切换成本筑墙 |
数据 / 工作流 / 实施深度筑墙,价值上移 |
来源:本报告分析框架
需要强调的是,本报告并非"AI 颠覆一切"的单边叙事。我们将同等认真地呈现另一面:DORA 与 Stack Overflow 揭示的"信任悖论"、MIT"95% 企业试点未见回报"、Gartner"幻灭低谷"、Michael Burry 的折旧质疑,以及 Klarna 高调自动化后又悄悄召回人工的现实。真正的图景是:范式确在重写,但兑现价值的路径远比叙事曲折。 这正是产品与商业团队需要冷静研判之处。
第 2 章 开发范式之变:软件如何被制造
如果说软件范式的变迁有一个"震中",那就是开发本身。在四十年里,软件的生产方式高度稳定:工程师用键盘把需求翻译成代码,效率受限于人的数量与经验,"加人"是扩张产能的主要手段。而从 2022 年底 ChatGPT 引爆生成式 AI 起,这台机器在不到三年里被彻底改写——AI 先是成为"更聪明的自动补全",继而成为"会聊天的结对程序员",再到 2025 年已能被指派一个任务、自己读代码、自己改、自己提交 Pull Request。本章按"工具与市场 → 自然语言编程 → 全流程 AI 化 → 自主智能体 → 效率与质量实证 → 中国对照"的顺序,铺陈这场变迁的事实、数据与争议。
本章的一个核心张力贯穿始终:采用率以前所未有的速度上升,信任度却在同步下降。理解这个"信任悖论",是产品与商业团队判断"AI 编程到底兑现了多少价值"的关键。
2.1 AI 辅助编程工具:两年从边缘到主流
生成式 AI 对开发的第一波改造,是"辅助编程工具"(AI coding assistant)的爆发。它们嵌入 IDE,提供代码补全、自然语言问答、整段生成与重构建议。短短两年,这个赛道从 GitHub Copilot 一家独大,演变为一个群雄并起、估值与收入双双失控式增长的新市场。
2.1.1 GitHub Copilot:先发者与"既得利益者"
作为 2021 年最早商用的 AI 编程助手,GitHub Copilot 凭借与 VS Code、GitHub 的深度绑定占据先发优势。微软在 2025 年 Q3 财报电话会上披露,Copilot 全周期用户突破 2000 万,三个月内净增 500 万(此前为 1500 万);到 FY26 Q2 财报(2026 年 1 月 28 日),付费订阅约 470 万,同比增长约 75%。第三方统计称其用于约 90% 的财富 100 强企业、5 万+ 组织在用,在付费 AI 编码工具中市场份额约 42%。需要提醒:微软不公开 Copilot 的独立 ARR,分析师估算在"低至中等数亿美元"区间,乐观假设下可能接近 10 亿美元——此为媒体估算,非官方数据。
数据来源:微软 FY25 Q3 / FY26 Q2 财报电话会(官方,用户与付费订阅);i2tutorials、getpanto.ai(第三方统计,市场份额与企业渗透为估算)
2.1.2 Cursor(Anysphere):刷新软件史的增长曲线
真正把这个赛道推向资本狂热的是 Cursor。其母公司 Anysphere 的 ARR 轨迹堪称软件史上最陡峭之一:2025 年 1 月约 1 亿美元 → 6 月超 5 亿 → 11 月突破 10 亿 → 2026 年 2 月,彭博报道其年化收入超过 20 亿美元,约合三年内 20 倍增长。估值同步飙升:2025 年 6 月 99 亿美元(融资 9 亿),11 月 Series D 达 293 亿美元 post-money(融资 23 亿),2026 年初更传出洽谈 500 亿美元估值。Cursor 自报拥有超过 100 万日活用户,财富 500 强中超半数、财富 1000 强中 70% 为其客户。
数据来源:TechCrunch(2025-06-05,估值与 $500M ARR)、The Next Web、Bloomberg(2026-02,$2B 年化);用户与客户渗透为公司自报(官方/媒体口径)
2.1.3 Windsurf:72 小时三方拆分的赛道缩影
AI 编程赛道之激烈,集中体现在 2025 年 7 月的 Windsurf(原 Codeium)收购风波——一桩堪称"72 小时三方拆分"的戏剧性事件:
- 2025 年 5 月: OpenAI 达成约 30 亿美元收购意向。
- 7 月 11 日: 交易告吹——OpenAI 不愿其最大股东微软借此获得 Windsurf 的技术访问权。
- 同日: Google 以约 24 亿美元许可 Windsurf 技术,并挖走 CEO Varun Mohan、联创 Douglas Chen 及核心研究员入职 DeepMind。
- 7 月 14 日: Devin 的母公司 Cognition 以约 2.5 亿美元收购 Windsurf 剩余主体。
被收购时,Windsurf 约有 8200 万美元 ARR、350+ 企业客户、数十万日活;其 ARR 在 2025 年 2 月还只有约 4000 万、4 月约 1 亿——增长之快与赛道洗牌之烈同样触目。
数据来源:TechCrunch(2025-07-11、2025-07-14)、Fortune(2025-07-11)。收购金额与 ARR 为媒体报道口径
2.1.4 Replit 与 Amazon Q:消费级爆发与企业级稳态
Replit 代表了"消费级 vibe coding"的爆发力:其 ARR 从 2024 年底约 1600 万美元飙升至 2025 年 10 月约 2.53 亿美元(同比 +2,352%),曾在 5.5 个月内从 1000 万冲到 1 亿;用户从 2025 年 9 月的 4000 万+ 增至 2026 年 3 月的 5000 万+。Amazon Q Developer 则走企业级稳态路线:AWS 自报内部年化节省 2.6 亿美元、节省约 4,500 "开发者年";试点企业数据显示开发吞吐量平均 +40%、代码缺陷 −30%,起价 3 美元/用户/月。需注意 Amazon Q 的成效数字均为 AWS 自报,缺乏独立第三方验证。
数据来源:Sacra(2025-10,Replit ARR,三方);AWS DevOps 博客(Amazon Q,官方自报)
表 2-1 主流 AI 编程工具关键指标速览(截至 2025 年底–2026 年初)
|
工具 / 公司 |
收入(ARR / 年化) |
用户 / 采用 |
估值 / 归属 |
口径 |
|
GitHub Copilot / 微软 |
未独立披露(估数亿–~10 亿) |
2000 万+ 用户;470 万付费 |
微软自有 |
官方+估算 |
|
Cursor / Anysphere |
~20 亿(2026.02) |
100 万+ 日活;F500 过半 |
~293 亿(洽谈 500 亿) |
媒体 |
|
Windsurf / Codeium |
~8200 万(被购时) |
数十万日活;350+ 企业 |
Google 许可 + Cognition |
媒体 |
|
Replit |
~2.53 亿(2025.10,+2352%) |
5000 万+ 用户 |
约 30 亿 |
三方(Sacra) |
|
Amazon Q Developer |
未披露 |
内部节省 ~2.6 亿/年 |
AWS 自有 |
官方自报 |
|
Tabnine |
未披露(2024 增长 300%) |
100 万+ 月活 |
累计融资 6500 万 |
官方+估算 |
来源:各公司财报与官方公告、TechCrunch、Bloomberg、Sacra、GlobeNewswire 综合整理。私有公司收入多为公司自报或媒体估算,口径不一,引用以最新官方披露为准
此外,Tabnine 走差异化的"企业隐私"路线(支持本地/气隙部署),2024 年同比增长 300%,100 万+ 月活,并在 2025 年 Gartner AI Code Assistants 魔力象限中升入"Visionary"象限。整体看,第三方机构估算 AI 代码助手市场 2025 年约 39 亿美元,2035 年达约 66 亿——但需提醒:不同机构对该市场的规模与增速口径差异极大(部分给出 24% 的 CAGR),引用时应注明来源。
数据来源:GlobeNewswire(2025-09,Tabnine Gartner,官方);Future Market Insights、market.us(市场规模,三方,口径分歧大)
2.2 Vibe Coding 与 prompt-to-app:人人皆可造软件
如果说辅助工具改造的是"专业开发者怎么写代码",那么 2025 年的"vibe coding"现象,则把软件生产的门槛降到了"会说话就行"。
2.2.1 一个词如何定义一个时代
2025 年 2 月,前特斯拉 AI 总监、OpenAI 创始成员 Andrej Karpathy 在 X 上发帖造出"vibe coding"一词,原文是:There's a new kind of coding I call "vibe coding", where you fully give in to the vibes, embrace exponentials, and forget that the code even exists.(他以 Cursor Composer + Claude Sonnet + 语音输入为例)。该帖浏览量超 450 万次,"vibe coding"随后被 Collins Dictionary 评为 2025 年度词汇。其内涵已从 Karpathy 原意(语音放手、彻底交给 AI、忘掉代码本身)泛化为"任何 prompt 驱动的开发"。
值得注意的是争议的一面:独立开发者 Simon Willison 等人强调,并非所有 AI 辅助编程都是 vibe coding——真正的 vibe coding 是"不审阅、不理解代码"地接受 AI 产出,而专业场景下的 AI 辅助仍需人来把关。术语的快速泛化本身,正是这场范式变迁热度的注脚。
数据来源:Karpathy X 原帖(2025-02,一手);CodeRabbit 语义史、Simon Willison 博客(2025-03-19);Collins Dictionary 年度词汇(官方)
2.2.2 Prompt-to-App 工具:从一句话到一个可运行的应用
与概念同步爆发的,是一批 prompt-to-app(自然语言生成完整应用) 工具,它们把"造软件"这件事交付给非专业用户与产品经理:
- Lovable(瑞典) ——软件史上最快 ARR 爬坡之一。ARR 从 2025 年 7 月 1 亿美元 → 11 月 2 亿 → 2026 年 1 月 3 亿 → 2 月 4 亿美元,自首个 100 万美元起仅 8 个月破亿,自称"快过 OpenAI、Cursor、Wiz 及史上所有软件公司"。平台每日新建 10 万+ 项目,首年累计 2500 万+ 项目,近 800 万用户;2025 年 12 月 Series B 融资 3.3 亿美元、估值 66 亿。
- Vercel v0 ——擅长 React/前端 UI 生成。截至 2026 年 2 月用户超 400 万;母公司 Vercel 2026 年 3 月年化收入约 3.4 亿美元(同比 +84%)。
- Bolt.new(StackBlitz) ——全栈生成。2024 年 10 月上线后,4 周内 400 万美元 ARR、约 2 个月 2000 万、2025 年 3 月 4000 万美元 ARR;500 万注册用户。StackBlitz 累计融资 1.35 亿美元,2025 年 8 月估值约 7 亿。
数据来源:Lovable 官方博客与 TechCrunch(2025-12-18);Sacra(v0、Bolt.new,三方)。收入为年化运行率口径,私有公司数据含自报成分
|
一个值得警惕的口径提醒 prompt-to-app 工具的"用户数""项目数"极易制造繁荣假象——大量项目是一次性试用、demo 或未上线的玩具应用,与"生产级软件交付"不是一回事。这些 ARR 数字虽真实反映了付费意愿的爆发,但把"创建了多少项目"等同于"创造了多少真实价值"是危险的。产品团队评估这类工具时,应区分"可玩性指标"与"留存 / 投产指标"。 |
2.3 SDLC 全流程 AI 化:不止于"写代码"
AI 对开发的渗透,早已越过"写代码"这一环,向软件开发生命周期(SDLC)的需求、设计、测试、评审、文档、运维全流程扩散。
2.3.1 测试生成与代码评审:从"人审人"到"AI 先审"
- Qodo(原 CodiumAI) ——2024 年由测试生成工具转型为全栈质量平台,Series A 融资 4000 万美元,入选 2025 Gartner "Visionary"。其 2.0 版(2026 年 2 月)推出多智能体评审架构(bug、质量、安全、测试覆盖各一个 agent 并行),在 8 款工具对比中 F1 最高(60.1%)。
- CodeRabbit ——最广泛采用的专用 AI 评审工具,连接仓库超 200 万、已评审 PR 超 1300 万;2025 年 5 月推出免费 IDE 插件(VS Code / Cursor / Windsurf),在 PR 开启前即提供行内评审。
- Diffblue Cover ——面向大型 Java 代码库,用符号分析(而非 LLM)生成确定性、可回归的单元测试,深度集成 CI/CD。
数据来源:Qodo、CodeRabbit 官方与 LogRocket、DEV Community 等媒体评测(2025–2026)。F1 与仓库 / PR 数据为厂商披露口径
2.3.2 AIOps:运维与事件管理的自动化
在交付之后的"运维"环节,AIOps(AI for IT Operations)正从规则告警走向"agent 原生"的半自主修复。第三方机构估算其市场规模在 2024–25 年约 160–180 亿美元(部分口径 2025 年约 111.6 亿、CAGR 25.3%,2029 年达 326 亿,口径分歧明显)。成效方面,可观测性叠加 AIOps 可将 MTTR(平均修复时间)降低至多 50%、L1/L2 工单量降 35–40%、根因分析(RCA)从小时缩至分钟;2024 年已有 75%+ 全球企业部署或正在探索 AIOps。2025 年的新趋势,是支持自然语言洞察与半自主修复工作流的"agent-native AIOps"平台兴起。
数据来源:Thoughtworks(2025 复盘)、IBM/Gartner AIOps 市场指南、AIOps Community(三方)。市场规模多机构口径不一
表 2-2 SDLC 各环节的 AI 渗透与代表工具
|
SDLC 环节 |
AI 能力形态 |
代表工具 / 信号 |
|
编码 |
补全 / 自然语言生成 / 重构 |
Copilot、Cursor、Windsurf、Tabnine |
|
原型 / 应用生成 |
一句话生成可运行应用 |
Lovable、v0、Bolt.new、Replit |
|
测试 |
自动生成单测 / 集成测试 |
Qodo、Diffblue Cover |
|
代码评审 |
AI 先审 PR / 多智能体评审 |
CodeRabbit、Qodo 2.0 |
|
文档 |
AI 生成 / 同步文档 |
DORA 2024:文档质量 +7.5% |
|
运维 / 监控 |
异常检测 / 半自主修复 |
AIOps:MTTR −50%、工单 −35~40% |
来源:各工具官方与第三方评测综合;DORA 2024 报告(每提升 25% AI 采用率对应的环节增益)
2.4 Agentic 软件工程:从"结对"到"自主"
2024–2026 年开发范式最深刻的跃迁,是 agentic(智能体)软件工程的成熟——AI 不再只是"建议下一行代码",而是被指派一个任务后,自主地读仓库、制定计划、改代码、跑测试、提交 Pull Request。这把"人写代码"推向了"人编排 AI 自主生产"。
2.4.1 Devin 与 SWE-bench:一条快速攀升的能力曲线
2024 年 3 月,Cognition 发布 Devin,号称"全球首个自主 AI 软件工程师",并以 SWE-bench 自报得分 13.86% 引爆关注——这一成绩远超当时业界 1–4% 的 SOTA 水平。SWE-bench 由此成为衡量自主编码能力的核心标尺,其分数曲线在两年内陡峭攀升:从 2024 年初的个位数,到 2026 年 5 月,SWE-bench Verified 榜首已报出 ~88–94% 的高分(Claude 系列领先,GPT-5.5 约 82.6%)。
但这里必须呈现争议的另一面:SWE-bench Verified 存在数据污染质疑。OpenAI 审计发现,前沿模型能够逐字复现部分测试任务的"标准答案补丁"(gold patch),说明训练数据可能已包含基准答案;OpenAI 因此停止报告 Verified 分数,转而推荐更难、分数显著更低的 SWE-bench Pro(约 46% 即可领先)。因此,引用"接近 90%"这类高分时,必须附上污染 caveat,不能直接等同于"AI 已能解决 90% 的真实工程问题"。
数据来源:Cognition(2024-03,Devin 自报);llm-stats.com、localaimaster(第三方榜单,谨慎);Scale、Morph(SWE-bench Pro 与污染争议,2026)
Cognition 自身的商业化也印证了赛道热度:Devin 的 ARR 从 2024 年 9 月的 100 万美元增至 2025 年 6 月的 7300 万(收购 Windsurf 前);公司估值从 2025 年 9 月的 102 亿美元(Founders Fund 领投 4 亿融资),到 2026 年 4 月传出洽谈 250 亿美元。
数据来源:Sacra(Devin ARR,三方);TechCrunch(2025-09-08)、Bloomberg(估值,媒体)
2.4.2 Claude Code:终端里的"ChatGPT 时刻"
2025–2026 年最具现象级的 agentic 产品,是 Anthropic 的 Claude Code。其运行率收入已超过 25 亿美元(自 2026 年初已翻倍),公开发布仅 6 个月即破 10 亿美元运行率。一个尤其能说明范式变迁的指标:GitHub 公开提交(commit)中约 4% 由 Claude Code 撰写,且一个月内翻倍;周活用户自 2026 年 1 月 1 日起翻倍,企业收入占其总收入 50% 以上。母公司 Anthropic 借此把整体运行率收入推高至 140 亿美元(2026 年 2 月),并完成 300 亿美元 Series G、估值 3800 亿美元,连续三年保持 10 倍以上增长。
数据来源:Anthropic Series G 官方公告(2026-02-12,官方,已逐字核实)
2.4.3 OpenAI Codex 与 GitHub Copilot agent:大厂的自主化
- OpenAI Codex(2025 新版) ——2025 年 5 月重新发布为云端自主软件工程 agent(不再只是模型),可并行处理多任务,每个任务运行在独立云沙箱并预装仓库,能写功能、答疑、修 bug、提 PR。最初由 codex-1(o3 优化版)驱动,后续版本升级至 GPT-5.5 / GPT-5.3-Codex;6 月 3 日对 ChatGPT Plus(20 美元/月起)开放,提供 CLI(本地、Rust、开源)与 Cloud Agent 两种形态。
- GitHub Copilot coding agent ——Microsoft Build 2025 发布,2025 年 9 月 25 日全面可用(GA)。可将一个 GitHub issue 直接指派给 "Copilot" 作为 assignee,由它自主研究仓库 → 制定计划 → 建分支 → 改代码 → 开 draft PR → 请人评审,全程运行在 GitHub Actions 环境中;10 月起支持在任意 PR 中用 @copilot 追加修改。它与 IDE 内的"agent mode"(本地直接编辑)是两套机制。
此外,开源世界的 SWE-agent(Princeton + Stanford,NeurIPS 2024)是 agentic 编码的学术鼻祖,其核心"Agent-Computer Interface"解决长程任务的上下文丢失问题,被 Meta、NVIDIA、IBM 等采用;衍生的 mini-swe-agent 仅 100 行代码,在 SWE-bench Verified 上仍超 74%。
数据来源:OpenAI、GitHub 官方文档与 Changelog(2025);princeton-nlp/SWE-agent GitHub(官方)
2.5 效率与质量实证:被夸大还是被低估?
喧嚣的叙事之外,AI 编程到底带来了多少真实收益、又埋下了哪些隐患?这一节回到实证数据,并刻意同时呈现"提效"与"隐忧"两面。
2.5.1 提效的硬证据
- Copilot 随机对照试验(RCT)。 GitHub 与学者的经典 RCT 显示,使用 Copilot 组完成"用 JS 实现一个 HTTP server"任务快 55.8%(95% 置信区间 21–89%;1 小时 11 分 vs 2 小时 41 分),完成率 78% vs 70%;经验较少、年长、每天编程时长更多者获益最大。
- 大厂高管口径。 Google CEO Sundar Pichai 在 2024 年 10 月财报称"约 25% 新代码由 AI 生成",2025 年 4 月升至"超 30%";Anthropic 披露 GitHub 公开提交约 4% 由 Claude Code 撰写。
- DORA 2024 的环节增益。 每提升 25% 的 AI 采用率,文档质量 +7.5%、代码质量 +3.4%、代码评审速度 +3.1%;75%+ 开发者每天至少用 AI 完成一项职责。
数据来源:GitHub / arXiv 2302.06590(RCT,官方研究);Alphabet 财报电话会(2024-10、2025-04,官方表态);Google Cloud DORA 2024 官方博客(三方权威,已核实)
2.5.2 信任悖论与质量隐忧
然而,同样权威的数据揭示了一个反方向的事实——采用率越高,信任度反而越低,交付稳定性甚至下滑:
- DORA 2024(Google)。 在带来个人提效的同时,AI 采用每提升 25% 对应交付吞吐量 −1.5%、交付稳定性 −7.2%;39% 开发者对 AI 生成代码"很少或毫不信任"。报告称这是一个"悖论":AI 提升个人产出与代码质量,却可能损害整体交付绩效,凸显小批量、健全测试等基本功不可替代。
- Stack Overflow 2025。 AI 使用率升至 84%(2024 为 76%),但信任准确性的比例从 2024 的 40% 跌至 29%,46% 开发者主动不信任、仅 3% 高度信任;最大挫败是"AI 方案几乎对、但差一点"(66%),其次是"调试 AI 代码更耗时"(45%);正面情绪从 2023–24 的 70%+ 降至 60%。
- GitClear 代码质量研究。 分析 2020–2024 约 1.5–2.1 亿行代码变更后发现:复制粘贴(克隆)代码占比从 2021 的 8.3% 升至 2024 的 12.3%,2024 年复制粘贴行数首次超过重构行数、重复代码块增长约 8 倍;两周内被改写的"churn"代码从 2020 的 5.5% 升至 2024 的 7.9%;重构占比从 2021 的 25% 跌至 2024 的不足 10%。需注明:GitClear 有自有商业产品立场,数据系其自报方法论,应标注引用。
数据来源:Google Cloud DORA 2024(官方核实);Stack Overflow 2025 开发者调查官方页(三方,已核实);GitClear AI Code Quality 2025(三方,厂商自报,建议加注)
图 2-1 信任悖论:开发者 AI 采用率上升,信任度同步下降

来源:Stack Overflow 2024/2025 开发者调查、DORA 2024 报告(三方)。采用率为"使用或计划使用"口径,信任为"信任 AI 输出准确性"口径
图 2-2 "AI 生成了多少代码":多口径并存,差异巨大

来源:Alphabet 财报(Google 25%→30%+,自报)、Anthropic(GitHub 公开提交 ~4%,官方)等。各口径定义不同(补全建议 vs 最终合并代码 vs 公开 commit),不可直接横向相加
|
如何正确解读"AI 写了 X% 代码" 这类数字是被误读的重灾区。Google 的"30%"指 AI 辅助生成的新代码占比(含被采纳的补全建议),Anthropic 的"4%"指 GitHub 公开 commit 中由 Claude Code 撰写的比例——两者口径完全不同,不能横向比较,更不能简单相加为"行业平均"。同理,"提效 55%"来自受控的小任务实验,并不等于真实项目端到端提速 55%。结论:AI 编程的提效是真实的,但其幅度高度依赖任务类型、口径定义与度量边界;而 DORA / SO / GitClear 一致提示的质量与信任隐忧,同样真实,不可被增长叙事掩盖。 |
2.6 中国对照:大厂主导的国产 AI 编程版图
中国的 AI 编程赛道呈现"大厂主导、IDE 化跟进、生成代码量惊人"的特征。本节作为对照速览,深度的中国市场分析见后续章节。
- 字节跳动 Trae ——2025 年 1 月 19 日上线,号称"国内首个 AI 原生 IDE"。总注册用户超 600 万,月活 160 万+,覆盖近 200 个国家和地区,一年生成近 1000 亿行代码;IDC 数据称其以 41.2% 市场份额居中国第一(份额数据需谨慎)。
- 阿里通义灵码 ——插件下载量超 2000 万,累计生成代码超 30 亿行;2025 年公共云版升级为 Qoder CN,覆盖独立 IDE 与 JetBrains / VS Code 插件。
- 蚂蚁 CodeFuse ——蚂蚁集团自研代码大模型,2024 年发表 10 篇论文,定位研发流程简化与智能建议(未检索到公开的具体用户数)。
- 百度文心快码(Comate) ——定位"第二代 AI 原生 IDE",对标 Cursor,依托文心大模型迭代。
- 华为云 CodeArts ——主打鸿蒙系统适配与嵌入式开发,硬件驱动调试提速约 40%,贴合制造业技术栈;腾讯 CodeBuddy 在多份国产横评中亦与上述并列。
数据来源:字节跳动 TRAE 2025 年度产品报告(官方)、IDC(市场份额,三方,谨慎);阿里云官方(通义灵码下载与生成量);蚂蚁 CodeFuse、百度 Comate、华为 CodeArts 官方与国产横评媒体
一个值得对照的观察:国产工具的"生成代码量"动辄数十亿到千亿行级别,数字极其亮眼,但与海外一样,"生成量"不等于"采纳量"或"价值量";且国内更多走"大厂自有大模型 + IDE 集成 + 价格战"的路线,与欧美由独立创业公司(Cursor、Lovable)领跑、靠估值驱动的格局形成鲜明对比。
|
给产品/商业团队的要点 一、开发范式已确定性地从"人写代码"迁移到"人编排 AI"。 两年内 Copilot 破 2000 万用户、AI 工具采用率达 84%、Cursor / Claude Code 刷新软件史增长曲线,agentic 编码已能自主提 PR——这不是趋势,是既成事实。 二、但"提效"与"信任 / 质量"是一枚硬币的两面。 DORA、Stack Overflow、GitClear 一致揭示:采用率飙升的同时,信任度下滑、交付稳定性回落、代码克隆与 churn 上升。把 AI 当作"无需把关的产能"是危险的;真正的杠杆来自"AI 生产 + 人 / AI 双重把关 + 健全测试"的新工作流。 三、警惕被夸大的数字口径。 "AI 写了 X% 代码""提效 55%""生成千亿行"——务必回到定义(补全建议 vs 合并代码、受控实验 vs 真实项目、生成量 vs 采纳量)再做决策。 四、对产品定位的启示。 最危险的位置是停留在"给开发者一个更聪明的补全";最稀缺、最具商业纵深的,是把测试、评审、运维乃至端到端任务"替客户交付结果"的 agentic 能力——这也正是 Cursor、Claude Code、Devin 估值与收入同时失控式增长的根本原因。 |
第 3 章 产品形态与技术架构的重构
如果说第 2 章讲的是"软件怎么被造出来"的变化,本章关注的则是"软件本身长成什么样、底层由什么搭起来"。这是一场比 UI 换肤深刻得多的重构:软件的确定性内核被一个概率性的语言模型取代,围绕它生长出 RAG、向量数据库、记忆层、Agent 编排、Evals、Guardrails、AI 网关等一整套前所未有的技术栈;交互范式从"点按 GUI"滑向"表达意图";而 CRM、客服、网络安全、设计、办公、BI 等存量软件品类,正被逐一"Agent 化"重做。
本章先讲最根本的一层变化——从确定性到概率性(3.1);再拆解 LLM-native 应用的新架构(3.2)与 Agent / 多 Agent 体系及其连接标准 MCP(3.3);随后梳理支撑这一切的 AI 基础设施新栈(3.4);接着看交互范式的迁移(3.5);最后用一组案例说明传统品类如何被重做(3.6),并以中国对照(3.7)收尾。
3.1 最根本的转变:从确定性到概率性
过去四十年软件工程的全部信心,建立在一句话上:相同输入,得到相同输出。单元测试、CI/CD、形式化验证、SLA——整座大厦都以"行为可预测"为地基。大语言模型动摇的正是这块地基。
测试断言为何失效
学界与工程界已形成共识:LLM 应用是从"确定性计算"(deterministic computation)转向"概率性生成"(probabilistic generation)。同一个 prompt 在多次运行间可能产生差异巨大的响应,并且即便把 temperature 设为 0,重复查询仍可能得到不一致的输出(受浮点运算、批处理、硬件等非确定性因素影响)。对于摘要、生成、推理类任务,多个不同的输出可以同时正确,根本不存在唯一正确答案可供断言。
这意味着传统的"确定性测试预言机"(deterministic oracle)整体失灵。一篇 2025 年的研究把这种困境概括为 LLM 软件的一场"QA 危机":传统测试假定世界是可预测的,而 LLM "运行在近似、解释与不可复现的世界里",质量保障必须从"精确匹配"转向"基于标准的判定"(criteria-based)。学界也开始提出可度量化的新协议(如 AICL),把 概率评估、动态探索、运行时保障、方法协作 四个范式转变变为可自动化的工程实践。
来源(三方/学界):arXiv 2508.20737《Rethinking Testing for LLM Applications》(2025);arXiv 2503.00481《Challenges in Testing LLM-Based Software: A Faceted Taxonomy》(2025);LogRocket《LLMs are facing a QA crisis》。
"Software 3.0":用自然语言编程
如果概率性是"代价",那么它的"红利"是编程方式本身的解放。2025 年 6 月,前特斯拉 AI 总监 Andrej Karpathy 在 Y Combinator 的演讲《Software in the Age of AI is Changing (Again)》中提出 "Software 3.0" 框架,把软件演进划为三阶段:
- Software 1.0——人手写的传统代码(确定性规则)。
- Software 2.0——神经网络的权重(用数据"训练"出行为)。
- Software 3.0——自然语言 + LLM 接口,"prompt 就是用英语写成的程序"(prompts are programs written in English)。
Karpathy 进一步断言 LLM 兼具"公用事业(电力)、晶圆厂、操作系统"三重属性,是一种新型可编程基础设施;并提出 "2025–2035 是 Agent 的十年"。由他推广的 "vibe coding"(凭感觉编程)一词也在 2025 年成为年度现象——这部分属于愿景与观点,需与可核实事实区分,但它精准刻画了产品形态变化的方向:软件的边界不再由"功能菜单"划定,而由"能表达的意图"划定。
来源(媒体转述演讲,属观点/愿景):Techmeme 汇总 + YC / Andrej Karpathy YouTube 演讲(2025-06-19);catalaize《Software Is Changing (Again)》解读。
3.2 LLM-native 应用的新架构
围绕一个概率性的语言模型,工程界用两年时间长出了一整套"喂上下文、管记忆、控质量"的新架构。其核心命题只有一句:如何把"强大的检索与推理能力"塞进"有限而宝贵的上下文窗口"。
RAG:从"朴素检索"到"Agentic RAG"
检索增强生成(RAG, Retrieval-Augmented Generation)是 LLM 落地企业知识最主流的范式:在模型回答前,先从外部知识库检索相关片段塞进上下文,以缓解幻觉、引入私有/实时数据。自 2020 年提出后,RAG 在 2025 年完成了一次关键跃迁——从静态、规则驱动的检索管线,演进为 Agentic RAG / Reasoning-RAG:
- 朴素 RAG(Naive RAG)的局限。 简单拼接检索片段,易产生碎片化或自相矛盾的回答,在法律、生物医学等需要多跳推理(multi-hop)的场景尤其明显。
- Agentic RAG 的进化。 把决策嵌入检索过程,模型主动判断 "何时检索、检索什么、如何检索";引入自我评估与纠错(Self-Evaluation & Error Correction)、自适应检索(Adaptive Retrieval)、以及 ReAct 式"思考-规划-调用工具"的交织。
- 结果。 到 2025 年,RAG 系统"不再只是取文档,而是会思考、会检查、会自适应、会行动",从被动问答走向自主推理。
来源(三方/学界):arXiv 2501.09136《A Survey on Agentic RAG》(2025);arXiv 2506.10408《Reasoning RAG via System 1 or System 2》(2025);RAGFlow《From RAG to Context: 2025 年度回顾》。
向量数据库:新栈的"存储底座",但正在"去专用化"
RAG 的检索依赖向量数据库(vector database)——把文本/图像编码为高维向量,按相似度检索。2024–2026 年,主流产品分工逐渐清晰;与此同时,一个值得产品团队注意的趋势是向量能力正在"去专用化":传统关系型 / NoSQL 数据库纷纷原生集成向量类型(如 pgvector、Redis 于 2025 年推出原生 "vector sets"),多模型(multi-model)引擎兴起,"是否必须引入一个专用向量库"开始成为真问题。
表 3-1 主流向量数据库定位与选型经验(2025–2026)
|
产品 |
部署形态 |
核心强项 |
典型适用场景 |
|
Pinecone |
托管 / Serverless |
易用、零运维,抽象掉基础设施 |
要快速上线、不想运维的团队 |
|
Weaviate |
开源 / 托管 |
混合检索(向量 + BM25 + 图式元数据) |
需要关键词与语义混合查询 |
|
Milvus |
开源 / 分布式 |
存储-计算-元数据分离,可扩展至数亿—数十亿向量 |
超大规模、高 QPS、成本敏感 |
|
pgvector |
PostgreSQL 扩展 |
零新增基础设施,复用现有 Postgres |
已用 Postgres、规模适中 |
来源(三方/厂商口径):DataCamp《Best Vector Databases 2026》;Milvus 官方对比文档;DEV Community 向量库选型指南。选型结论为来源方观点,非独立基准测试。
Prompt Engineering → Context Engineering
随着应用复杂化,行业话语在 2025 年中从"提示词工程"(prompt engineering)迁移到"上下文工程"(context engineering)。二者的区别可以这样理解:prompt engineering 是"在上下文窗口内部做什么"(zero-shot / few-shot / 思维链 / 角色设定);而 context engineering 是"如何决定什么填入这个窗口"——它涵盖系统提示、对话历史、检索文档、可用工具、记忆系统与动态状态管理的整体信息架构。这一概念已获 Anthropic、LangChain、LlamaIndex 等集体背书;与之相对,prompt engineering 在 2023 年达到热度顶峰(一度出现六位数薪资)后,于 2025 年明显回落。
来源(三方):Weaviate《Context Engineering》;mem0《Context Engineering in 2025》;Neo4j《Why AI Teams Are Moving From Prompt Engineering to Context Engineering》。
记忆层(Memory):一个独立赛道的崛起
Agent 要跨会话"记得"用户与任务,催生了独立的"记忆层"市场。其核心思想借鉴操作系统:把 LLM 的上下文当作"虚拟内存",按需把信息换入换出(page in / out),而非被动堆积。2025–2026 年四家厂商占据主导:
- Letta(MemGPT 的生产化演进)——双层记忆:主上下文(main context,函数调用访问)+ 外部上下文(recall storage 近期历史向量检索、archival storage 长期事实语义检索)。
- Mem0——三层作用域(user / session / agent),混合存储(向量 + 图 + 键值);事实冲突时"自我编辑"而非追加,保持记忆精简。社区热门,48,000+ GitHub stars,获 2,400 万美元 A 轮。
- Zep——围绕时序知识图谱引擎 Graphiti 构建。
- LangMem(LangChain 原生)——区分 episodic(过往交互)、semantic(事实偏好)、procedural(Agent 更新自身指令)三类记忆。
来源(三方/学界,市场规模为机构估算):arXiv 2504.19413《Mem0》(2025);TokenMix《Mem0 vs Letta vs MemGPT 2026》;AgentMarketCap《Agent Memory at Scale 2026》。
编排框架:LangChain / LlamaIndex / LangGraph
把上述组件串成应用,靠的是编排框架。早期"LangChain 管编排、LlamaIndex 管检索"的清晰分工在 2025 年已模糊:LangChain 推出 LangGraph,把 Agent 工作流建模为有向有环图(directed cyclic graphs),提供有状态抽象——时间旅行调试、人在环中断(human-in-the-loop)、容错;LlamaIndex 则以显式 Context store 管理状态。2025–2026 年的主流实践不再是"二选一",而是 "LlamaIndex 做检索层 + LangGraph 做 Agent 编排层"的组合。LangGraph 已在 LinkedIn、Uber 等 400+ 公司生产运行。
来源(三方):Xenoss《LangChain vs LangGraph vs LlamaIndex》;Latenode《LangChain vs LlamaIndex 2025》。生产采用数为厂商口径。
3.3 Agent 与多 Agent 系统:MCP 成为事实标准
如果说 2023 年的 AutoGPT 让世界第一次看到"自主 Agent"的雏形(也暴露了它的脆弱),那么 2024–2026 年的主线就是 Agent 从"玩具"走向"生产"——而这背后,是一个连接标准的迅速确立。
MCP:从 Anthropic 的提案到全行业标准
模型上下文协议(MCP, Model Context Protocol) 由 Anthropic 于 2024 年 11 月 25 日发布,定位为"连接 AI 助手到数据所在系统的新标准"。它要解决的是一个经典的"M×N 集成"难题:每接一个新数据源都要写一套自定义连接器,无法规模化。MCP 用一套统一标准取而代之,核心由三类角色构成——Servers(暴露数据源/工具)、Clients(连接的 AI 应用)、Hosts(如 Claude Desktop 等运行环境);技术上复用 LSP(语言服务器协议)的消息流思想,基于 JSON-RPC 2.0 传输,标准化 tools / resources / prompts 三类原语。
MCP 的采用速度是这场范式变迁中最有力的事实之一:一个由竞争对手提出的协议,在一年内被几乎所有主要厂商采纳。
表 3-2 MCP 采用时间线(2024.11–2025.12)
|
时间 |
事件 |
意义 |
|
2024.11 |
Anthropic 发布 MCP,提供 Python/TS SDK |
"Agent 连接万物"的标准奠基 |
|
2025.03 |
OpenAI 全面采用(Agents SDK、Responses API、ChatGPT 桌面端) |
头号竞争对手公开背书(Altman 3/26 表态) |
|
2025.04 |
Google DeepMind 确认 Gemini 支持 |
三大模型厂商集齐 |
|
2025.07 |
微软集成进 Copilot Studio(累计约 4500 万次下载) |
进入主流企业开发平台 |
|
2025.11 |
AWS 加入(累计约 6800 万次下载) |
云厂商完成卡位 |
|
2025.12 |
Anthropic 将 MCP 捐赠给 Agentic AI Foundation(Linux 基金会下属) |
从"公司协议"变为"中立标准" |
来源(官方 + 媒体核实):Anthropic 官方公告(2024-11-25);Wikipedia《Model Context Protocol》时间线;Pento《A Year of MCP》;The New Stack《Why the Model Context Protocol Won》。下载量为来源方口径。
需要并列呈现的是其安全代价:2025 年 4 月已有研究者指出 MCP 面临 提示注入(prompt injection)、工具权限组合导致的数据外泄、以及"李鬼工具"(lookalike tools)静默替换可信工具 等风险。标准的普及与攻击面的扩大是同一枚硬币的两面。
多 Agent:orchestrator-worker 架构
2025 年 Agent 框架"集中爆发":OpenAI 的 Agents SDK(2025.03,核心抽象是 handoff——Agent 间显式移交控制权并携带上下文)、Google ADK(2025.04)、Anthropic Agent SDK,以及微软在 2025 年 10 月把 AutoGen 与 Semantic Kernel 合并为统一的 Microsoft Agent Framework。架构层面,最具代表性的是 orchestrator-worker(编排者-工人)模式。
Anthropic 公开的多 Agent 研究系统是一个范本:一个 Lead Researcher(编排者)协调并委派给多个并行的专职 subagent。据其官方工程博客,该系统在内部研究评测中较单 Agent 的 Claude Opus 4 提升 90.2%,复杂查询的研究时间下降约 90%——但代价是约 15 倍于普通对话的 token 消耗。其关键工程教训对产品团队极具参考价值:每个 subagent 必须有明确的目标、边界、输出格式与工具指引,否则会重复劳动或留下缺口;还需把"扩展规则"写进 prompt 防止简单任务过度投入(一次简单事实核查只应用 1 个 Agent、3–10 次工具调用)。
来源(官方):Anthropic Engineering《How we built our multi-agent research system》(2025);Codecademy《Top AI Agent Frameworks in 2025》。性能数字为 Anthropic 内部评测口径。
3.4 支撑一切的 AI 基础设施新栈
概率性软件需要一套与确定性时代不同的"运维与质量"基础设施。如果说传统软件有日志、监控、测试、API 网关,那么 LLM 应用对应地长出了可观测性、Evals、Guardrails、AI 网关四类新组件。
可观测性(Observability)
Langfuse 是开源可观测性的领跑者(MIT 许可、19,000+ GitHub stars、YC W23),覆盖链路追踪(多轮会话)、prompt 版本管理(含 playground)、以及 LLM-as-judge / 用户反馈 / 自定义指标评估,并集成 OpenTelemetry、LangChain、OpenAI SDK、LiteLLM。LangSmith(LangChain 出品)则是其生态内的首选,对 LangChain / LangGraph 应用捕获高细节 trace、可视化 Agent 执行、支持标注队列。
Evals 与 LLM-as-a-Judge
既然不能用精确断言,就用"模型当评委"。LLM-as-a-Judge 已成为规模化评测的默认方法:一个 LLM 评委与人类评审的一致率约为 85%——据来源方称,这甚至高于"两个人类在同一任务上的相互一致率"。常用做法包括单输出打分(single-output scoring,用于回归与监控)与成对比较(pairwise comparison,用于 A/B 测试 prompt/模型),以及用思维链先生成评分步骤再打分的 G-Eval。
但必须如实指出其局限:评委模型存在位置偏见(positional)、冗长偏好(verbosity)、自我增强偏见(self-enhancement),其可靠性高度依赖 prompt 质量与任务复杂度。生产中的务实做法是"LLM 评委跑大头、人工复核做校准与边缘案例"。
来源(三方):Evidently AI《LLM-as-a-judge 完整指南》;Confident AI;The Pragmatic Engineer《A pragmatic guide to LLM evals》。85% 一致率为来源方口径。
Guardrails 与 AI 网关
Guardrails(护栏) 用于在运行时拦截越狱、提示注入、数据外泄等风险。主流开源工具为 NVIDIA NeMo Guardrails(可编程 rails,内置 24 类提示注入、8 种语言覆盖与 Jailbreak Detection 微服务)与 Guardrails AI,二者常组合使用。背景数据触目惊心:据 IBM 2025 年报告,77% 的企业在过去一年遭遇过生成式 AI 相关安全事件。
AI 网关(AI Gateway) 则是"概率时代的 API 网关",提供多模型路由、故障转移、语义缓存(semantic caching)与成本治理。代表产品:LiteLLM(开源自托管,OpenAI 兼容接口,100+ provider,40k+ stars)、Portkey(统一路由/可观测/治理/护栏/MCP,可路由 1,600+ 模型)、Cloudflare AI Gateway(边缘网络做地理缓存与限流)。常见组合是"Cloudflare 在边缘做缓存降延迟 + Portkey/LiteLLM 在后做路由与可观测"。
来源(三方/厂商):NVIDIA-NeMo/Guardrails GitHub;Palo Alto Networks 安全博客;Portkey-AI/gateway GitHub;Cloudflare AI Gateway 官方文档。安全事件比例为 IBM 口径。
3.5 交互范式:从 GUI 到意图驱动
产品形态变化的最终落点是人机交互。过去几十年,软件的交互是"用户学习软件的菜单与按钮";AI 时代的方向是"软件理解用户的意图并动态生成界面"。
- 生成式 UI(Generative UI)。 界面由 AI Agent 部分或全部生成——Agent 决定屏幕显示什么、信息如何组织、甚至布局如何构成;随 Agent 能力提升,UI 本身成为系统的动态输出(dynamic output),而非预先写死的页面。
- 标准化尝试:A2UI。 Google 于 2025 年推出开放项目 A2UI(v0.9 为 framework-agnostic 的"声明 UI 意图"标准),让本地/远程 Agent 用统一语言与任意客户端通信,按当前对话动态渲染最适配的界面。
- 愿景:NUI / Agent Kernel。 学术界(如 AgentOS)提出用以自然语言/语音为中心的"自然用户界面"(NUI)取代传统 GUI 桌面,系统核心变为解释意图、分解任务、协调多 Agent 的"Agent Kernel"——这部分属前瞻愿景,尚未规模落地。
来源(厂商/学界,含前瞻愿景):CopilotKit / Google Cloud《Generative UI》;Google Developers Blog《A2UI v0.9》(官方);arXiv 2603.08938《AgentOS》。
3.6 传统品类被 Agent 重做:六个案例
抽象的架构变化,最终体现在一个个具体软件品类的"被重做"。从 CRM 到 BI,AI 不是给老产品加一个"智能助手"侧边栏,而是把核心工作流交给 Agent 端到端执行。
图 3-1 ChatGPT 周活用户增长:AI 原生应用规模的标志,也是"重做"浪潮的需求底盘

来源(官方 + 媒体转述):OpenAI 官方披露及 Reuters、The Verge 等报道(周活跃用户 WAU 口径,详见附录 C)。
CRM:Salesforce Agentforce
Salesforce 的路径最具代表性:2023 年 3 月推出"全球首个面向 CRM 的生成式 AI"Einstein GPT;2024 年 9 月 12 日发布 Agentforce(覆盖 service/sales/marketing/commerce 的自主 Agent 套件);同年 12 月 17 日发布 Agentforce 2.0,定位"首个企业数字劳动力平台",引入预构建 skills 库、可部署到 Slack,并强化 Agentic 推理与 RAG。厂商口径的早期效果为响应时间降 27%、case 解决率升 35%。这一案例同时印证了第 4 章将展开的"按对话/按结果计费"的商业模式迁移。
来源(官方):Salesforce《Agentforce Announcement》(2024-09-12)、《Agentforce 2.0 Announcement》(2024-12-17)。效果数据为 Salesforce 口径。
客服:Sierra / Decagon(与 Klarna 的"回调")
客服是被重做得最彻底的品类之一。行业分析将其分为两代:旧代(Forethought、Ada、Intercom Fin 等)围绕"意图分类 + 路由到固定答案";新代(Sierra、Decagon,均 2023 年成立)围绕自主 Agent——读知识库、遵循结构化 SOP、采取真实行动、干净升级。据 Sacra 估算,Sierra 在 2026 年 1 月约 1.5 亿美元 ARR(2024 年底约 2,600 万),Decagon 在 2025 年 11 月约 3,500 万美元 ARR(2024 年底约 1,000 万)。
但本报告坚持呈现另一面——Klarna 的"回调":其 AI 客服 2024 年 2 月与 OpenAI 合作上线,首月处理 230 万次聊天、自动化 2/3 对话、解决时间从 11 分钟降至 2 分钟以内;然而到 2025 年初,因边缘案例幻觉、复杂/情感工单的满意度(CSAT)下降与合规顾虑,Klarna 悄然重新引入了人工支持产能。这提示产品团队:自动化的"最后一公里"远比 demo 曲折。
来源(三方/媒体):Sacra《Decagon vs Sierra》、Upstarts Media;Fini Labs / Twig 关于 Klarna 的复盘。ARR 为 Sacra 估算口径。
网络安全 / 设计 / 办公 / BI(四例速览)
表 3-3 四类传统软件品类的"Agent 化"重做(2024–2026)
|
品类 |
代表动作 |
重做的核心 |
来源类型 |
|
网络安全 |
CrowdStrike Fall 2025 发布 7 个任务就绪 Agent;Charlotte Agentic SOAR;微软 Security Copilot |
"Agentic SOC":Agent 自动 triage 漏洞、驱动调查,分析师用自然语言定制 Agent |
官方 |
|
设计 |
Figma Config 2025 发布 Figma Make(基于 Claude,自然语言→可交互原型+代码)、Sites、Draw、Buzz |
从"设计工具"升级为"产品创造平台" |
官方 |
|
办公协作 |
微软 365 Copilot(90%+ Fortune 500 在用);Ignite 2025 推 Copilot Cowork |
从 1:1 助手转向 1:many / many:many,Agent 跨参与者持有上下文 |
官方 |
|
BI / 数据 |
ThoughtSpot Spotter / Spotter Semantics;对话式 BI + 语义层 |
语义层成"可信 AI 分析"前提,约束 SQL 生成以恢复确定性 |
官方/三方 |
来源:CrowdStrike Fall 2025 Release(官方);Figma《Config 2025 Recap》(官方);微软 Ignite 2025 博客(官方);ThoughtSpot 公告 + TDWI(三方)。采用率为厂商口径。
BI 这一例尤其耐人寻味:当 LLM 把自然语言转成 SQL(text-to-SQL)时,概率性会带来"答案不一致"。业界给出的解法是引入语义层(semantic layer)——用预定义的指标口径约束 SQL 生成,让"概率性的提问"落到"确定性的指标"上。Gartner 2025 年甚至称语义技术对 AI 分析的成功"non-negotiable"。这是一个精彩的隐喻:重做存量软件的关键,往往不是去掉确定性,而是在概率性外壳与确定性内核之间,重建一道可信的"翻译层"。
来源(三方):ThoughtSpot《Spotter Semantics》;TDWI《Conversational BI with a Semantic Layer》(2025);Gartner 2025 指引(经媒体转述)。
3.7 中国对照:低成本、开源生态与分发为王
中国的产品与架构重构呈现出与欧美不同的纹理:模型层异常繁荣,而胜负更多由"分发渠道"决定,开源则成为独特的战略杠杆。
- 多强并立。 DeepSeek、通义千问(Qwen)、Kimi、智谱 GLM、豆包(Doubao)、文心(Ernie)各占不同生态位,在许可、API 可得性与技术强项上差异化竞争。
- 分发决定终局。 豆包之强不仅在模型本身,更在其背靠抖音、剪映/CapCut、火山引擎(Volcano Engine)的分发机器——据字节口径,豆包于 2025 年 12 月日活用户(DAU)突破 1 亿;DeepSeek 则强在技术品牌与开发者心智。
- 开源成为战略杠杆。 到 2025 年中,通义千问 Qwen 成为 Hugging Face 上衍生模型最多的基座——超过 11.3 万个基于 Qwen 的模型、20 万+ 仓库标记,远超 Llama 的约 2.7 万、DeepSeek 的约 6 千。开源生态的繁荣,让中国模型在全球开发者技术栈中获得了独特的渗透力。
来源(三方/媒体,DAU 为厂商口径):Groundy《Chinese AI Model Ecosystem》;Hugging Face Blog《One Year Since the DeepSeek Moment》;IntuitionLabs《Chinese Open-Source LLMs (Sept 2025)》。
需要提醒的是,中国的应用架构生态同样在快速吸收 RAG、Agent、MCP 等全球范式,但落地节奏与商业逻辑受本土 SaaS 市场量级、价格战烈度与信创国产化政策的强约束(详见第 5、7 章)。本节仅作产品/架构层面的对照点缀,不构成对中国市场的完整判断。
|
给产品/商业团队的要点 一、把"概率性"当作设计前提,而非缺陷去消灭。 不要试图让 LLM 像传统程序一样"每次都一样";应在产品中预留 Evals、Guardrails、人在环与"翻译层"(如 BI 的语义层),把不确定性管理起来。二、新技术栈是真实成本,不是炫技。 RAG、向量库、记忆层、可观测性、AI 网关——每一层都对应一类故障与一笔账单(多 Agent 可达 ~15× token),架构选型要算总账。三、"重做"的赢家不在侧边栏,而在工作流。 Agentforce、Sierra 的价值在于端到端"替客户把活干完";但 Klarna 的回调提醒你:最后一公里的可靠性、合规与情感场景,仍是护城河也是雷区。四、MCP 值得现在押注。 一个被 OpenAI/Google/微软/AWS 集体采纳、并已交给中立基金会的标准,是当前连接 Agent 与企业系统的最稳妥下注——同时要把它的攻击面纳入安全设计。 |
第 4 章 商业模式与定价的变迁
如果说前几章讲的是软件"怎么造"与"造什么",那么本章触及的是最敏感、也最关乎生死的问题:软件怎么卖、怎么赚钱。商业模式是范式变迁的"最后一公里"——开发方式可以悄然改变、技术栈可以渐进替换,但定价模型一旦松动,影响的是收入确认、毛利结构、估值倍数与销售组织的每一根神经。
本章的核心判断是:按席位收费的 SaaS 经典范式正在被结构性瓦解。当一个 Agent 能干十个、五十个人的活,"按人头数席位"这一沿用了二十年的计价基础就失去了根基。取而代之的,是用量计费(usage-based)、按结果计费(outcome-based)与混合定价(hybrid)的三足鼎立。但这场迁移有沉重的代价:AI 软件的毛利率被 token 与推理成本压到 50–60%,远低于传统 SaaS 的 80–90%——软件公司第一次需要像制造业一样,认真对待"边际成本"。
我们将依次讲清五件事:① SaaS 经典商业模式的"基本盘";② 席位制为何瓦解;③ 新定价范式的三条路线与 Bessemer 的框架;④ 主流厂商的真实定价(带具体数字);⑤ 成本结构剧变与 GTM 获客的连锁反应。最后以"中国对照"收尾。全章定价/财务数字均标注来源与时点,并区分官方、三方/机构、媒体与估算口径;对非 GAAP 口径(如 OpenAI 的 compute margin)逐处加注。
4.1 SaaS 经典商业模式:订阅、席位与三个健康指标
要理解"变了什么",先要讲清这台运转了二十年的"高毛利机器"是怎么搭起来的。它由三块彼此咬合的部件构成。
4.1.1 从买断到订阅:Salesforce 立下的模板
2000 年前后,Salesforce 以一句"No Software"起家,用"按用户/月"的订阅取代了传统本地部署 CRM 的一次性买断与高昂实施费。到它突破 1 亿美元 ARR(约第 5–6 年)时,已确立了一套多层级、按席位的定价体系,成为后来整个企业 SaaS 的模板。直到今天,Salesforce 的底层计价依然是 per-seat:Sales Cloud Enterprise 约 175 美元/用户/月、Unlimited 约 350 美元/用户/月。(来源:CRV、SchematicHQ、MindStudio,2025–2026,媒体/分析口径)
按席位计价的精妙之处在于:它把"软件的价值"近似为"使用软件的人数"。客户公司越成长、用的人越多、买的席位越多,软件公司的收入就随之线性增长——这构成了 SaaS 最重要的增长引擎:净扩张(net expansion)。
4.1.2 三个被奉为圭臬的健康指标
整个 SaaS 行业用三组指标来度量一家公司是否健康。它们既是投资人的估值标尺,也是产品/商业团队的北极星:
- NRR / NDR(净收入留存率,Net Revenue / Dollar Retention)。 衡量"老客户群"在不算新客的情况下,今年比去年多付了多少钱。它是 SaaS 商业模式是否成立的最核心信号——超过 100% 意味着即便不获新客,收入也在自然增长。经验阈值:100% 为 Good、110% 为 Better、≥120% 为 Best。
- Rule of 40(40 法则)。 营收增长率 + 利润率应 ≥ 40%,用来平衡"增长"与"盈利"。它回答的是:一家公司是否在以健康的方式扩张,而非烧钱换增长。
- CAC 回收期与 LTV/CAC。 获客成本(CAC)需要多久通过订阅收入收回、客户终身价值(LTV)是获客成本的几倍——决定了增长是否可持续、单位经济模型是否成立。
这套指标体系的现实基准如下表。值得注意的是其中一条交叉验证度极高的规律:采用用量计费的公司,NRR 更高、流失更低、增长更快——这恰恰预示了后文席位制松动的方向。
表 4-1 SaaS 经典健康指标的现实基准(2023–2025)
|
指标 |
现实基准 |
关键发现 |
来源 / 口径 |
|
私有 SaaS 中位 NRR |
约 106% |
能"自然增长"的中位水平线 |
ChartMogul 2024(机构) |
|
公开 SaaS NRR |
约 110% |
上市公司连续多季稳定 |
Ordway 2024–25(机构) |
|
分层 NRR |
企业型 115–125% / SMB 90–105% |
客单价越高、留存越强 |
SaaS Capital 2025(机构) |
|
Snowflake NRR |
158%(2023) |
纯用量计费的"扩张神话"标杆 |
Togai 转述(媒体) |
|
Rule of 40 达标率 |
仅 11–30% |
多数公司其实达不到 |
SaaS Metrics Board(机构) |
|
用量计费的红利 |
+10% NRR、−22% 流失、2× 增速 |
价格与价值对齐驱动扩张 |
OpenView(机构,被多源引用) |
来源:综合 ChartMogul、Ordway Labs、SaaS Capital、OpenView、SaaS Metrics Standard Board 公开基准整理。注:各机构样本与口径不同,数值用于量级参照而非精确对比。
|
为什么这套"机器"过去如此完美 三块部件咬合后,构成了一个高毛利(成熟 SaaS 毛利常达 80–90%)、可预测、可复制的商业机器:边际成本几乎为零(多一个用户只是数据库里多一行),收入随客户成长而线性扩张,留存与扩张可被精确度量。正因为它太完美,当 AI 同时撬动"席位"与"零边际成本"这两块基石时,冲击才显得格外剧烈。 |
4.2 席位制的瓦解:当 Agent 替代"人头"
席位制的全部前提是一句话:更多的人使用软件 = 更多的收入。AI Agent 恰恰击穿了这个前提。
4.2.1 瓦解的内在逻辑
AI Agent 不登录、不占用命名用户许可、不映射到 headcount(人员编制)。它在系统里执行成千上万次任务,却不占据任何一个"席位"。于是一个残酷的算术出现了:当一个 Agent 能完成原本需要 10 个、20 个、50 个人类用户的工作,按席位计价不是被温和压缩,而是被 结构性坍塌(collapse)。(来源:MindStudio《SaaS Pricing Is Breaking》,2025,分析口径)
更要命的是它打击的恰恰是 SaaS 最赖以生存的净扩张引擎:过去客户公司成长会"加人加席位",如今客户用 Agent 替代席位,于是 NRR 不升反降。对一家增长全靠 net expansion 支撑的 SaaS 公司而言,这等于动了主动脉。
4.2.2 标志性事件:Atlassian 史上首次席位下滑
抽象的逻辑在 2026 年变成了财报上的真实数字。Atlassian——一家整个收入模型都建立在"席位扩张"假设上的公司——报告了公司历史上首次企业席位数下滑,主因正是其 AI Agent 产品 Rovo 替代了原本需要人工操作 Jira、Confluence 的任务。消息公布后,股价在 Q3 财报后一度 下跌约 35%(随后因云业务增长超预期反弹约 +29%)。耐人寻味的是,同期其 AI 驱动的 Service 产品线 ARR 突破 10 亿美元——这正是"席位在缩、用量在涨"两股力量的同框。(来源:CNBC、Quartz,2026-05,媒体报道口径)
4.2.3 资本市场已经重新定价:"SaaSpocalypse"
市场不会等到尘埃落定才行动。对 AI-Agent 颠覆的担忧叠加 2025 Q4 的疲软业绩,触发了被称为"SaaSpocalypse"的抛售:2026 年第一季度抹去约 1 万亿美元的 SaaS 总市值(另有 2850 亿美元的不同口径估算)。更直观的是估值倍数的塌缩——公开 SaaS 公司的 EV/TTM 收入中位倍数,从 2024 年末的 6.2×,降到 2025 年末的 4.9×,再到 2026 年 3 月 31 日的 3.3×。(来源:Aventis Advisors、Taskade,2026 Q1,媒体/分析口径;不同统计口径差异较大,建议以最新财报季数据复核)
结构性数据同样指向同一方向(注意:以下多为单一来源或机构估算,标注为待核实):per-seat 定价的采用率在 12 个月内从 21% 降至 15%;约 40% 的企业 SaaS 合同已包含某种 outcome-based 要素;Bain 对 30 余家主流 SaaS 厂商的分析发现,约 65% 已在原有席位定价之上叠加了"AI 消费计量表"。(来源:MindStudio / SoftwareSeni 转述 Bain,2025–2026,分析/估算口径)
|
一个必须厘清的边界 席位制"瓦解"不等于"消失"。对人本身就是价值载体的工具(如 IDE、设计软件、协同文档),席位计价依然合理且会长期存在。真正被瓦解的,是那些软件替人把活干完、人只是旁观者的场景——客服、工单、数据录入、L1 支持。判断标准很简单:你的产品到底是"给人一件更聪明的工具",还是"替人交付一个结果"?后者,按席位收费已难以为继。 |
4.3 新定价范式:用量、结果与混合的三足鼎立
席位塌陷之后,三条新路线浮现出来。它们并非互斥,而是常常叠加。理解它们最清晰的框架,来自风投机构 Bessemer 的《AI 定价与货币化手册》。
4.3.1 Bessemer 的"四模型"框架
Bessemer 把 AI 定价拆成四种基本形态,核心逻辑是让收入与可度量的结果对齐,而非与"访问权(access)"对齐:
- 用量计费(Consumption / Usage-based)。 按 token、API 调用、推理次数计费。优点是贴近基础设施成本、毛利可控;缺点是非技术买家难以理解——"用户不会用 token 来思考"。
- 工作流计费(Workflow-based,按任务)。 按一个可识别的工作单元计费。例如法律 AI 公司 EvenUp 按"AI 生成的一封索赔函"收费,价值直观。
- 结果计费(Outcome-based,按结果)。 只在 AI 自主达成一个可计费结果(如解决一张工单、挽回一次取消、完成一次追加销售)时才收费。价值对齐最强,但厂商承担最大的成本波动风险。Bessemer 引用的典型案例正是"Intercom Fin 按每解决一张工单 0.99 美元收费"。
- 混合定价(Hybrid,推荐)。 固定的基础订阅 + 按用量/结果的阶梯——既给客户可预测性,又让厂商捕获上行价值。这是 Bessemer 明确推荐、也是当下企业续约最常落地的形态。
Bessemer 进一步提出七条原则,对产品/商业团队尤具操作性:① 定价绑结果而非访问权;② 用混合模型平衡可预测性与弹性;③ 所有测算都必须纳入推理(inference)成本;④ 重塑预算叙事——围绕"AI 能力"而非"省成本";⑤ 重新定义成功指标(解决率、采纳率、自主完成率);⑥ 定价会反向塑造 GTM 与组织结构;⑦ 把 AI 当"同事"而非"工具"来计酬。其中明确给出的唯一量化数字是:AI 毛利 50–60% vs SaaS 80–90%。(来源:Bessemer Venture Partners《The AI pricing and monetization playbook》,2026-02,VC 一手,已核实原文)
4.3.2 三条路线的真实采用率
新范式不是纸上谈兵,采用率在快速攀升(不同机构口径有别,并列呈现):
- 用量计费(UBP): OpenView 口径从 27%(2023)升至约 38%(2024+);Metronome 2025 报告称 85% 的 SaaS 已采用或正在测试用量计费;另一口径称超过 60% 已提供某种用量计费(2018 年仅 27%)。
- 混合定价(Hybrid): Chargebee《2025 订阅状态报告》称 43% 公司当前使用混合模型,预计 2026 年末升至 61%;约 46% 的 SaaS 已采用"订阅 + 用量"组合。混合定价公司的 NRR 比纯订阅公司高约 38%。
- 结果计费(Outcome-based): 仍处早期但增速最快。Zendesk 被广泛视为"首个推出 AI Agent 结果计费的大型在位 SaaS 厂商"(2024-08)。彭博的长期预测(经二级引用,估算口径)认为:订阅制占比将从 60% 降向 30%,而结果计费将从 10% 升向 60%。
权威机构的预测则给出了时间锚点:Gartner 预计到 2030 年,至少 40% 的企业 SaaS 支出将转向用量、Agent 或结果计费模式。 (来源:Maxio、Flexera、Chargebee 转述,2025–2026,机构/媒体口径)
4.4 厂商定价对照:从"按席位"到"按结果"的真实价格
抽象框架之外,最有说服力的是真金白银的标价。下面逐一核实主流厂商的定价数字,并汇总成对照表。请特别注意每一行的来源性质——是官方标价、媒体报道,还是行业估算。
4.4.1 客服 / CX 赛道:结果计费的"试验田"
客服是结果计费落地最快的品类,因为"一张工单是否被解决"是一个清晰、可验证的结果:
- Intercom Fin —— 按 每个 outcome(成功解决)0.99 美元 计费,一次会话只收一次费,与现有 helpdesk 叠加时无席位费、无集成费、无平台费。"outcome"定义为一次 resolution 或一次 procedure handoff。其月订阅 49 美元含 50 次解决,超出后才按 0.99 美元计;背书有"100 万美元绩效保证"。(官方 fin.ai / intercom.com,已核实)
- Sierra(Bret Taylor 创办)—— 纯 outcome-based:仅当 Agent 自主完成可计费结果(解决会话、挽回取消、追加/交叉销售)才收费,升级到人工的情况多数不收费;对路由/问候类交互提供 consumption-based 备选。媒体报道其中位客户约 1.50 美元/解决。(官方博客已核实机制;单价为媒体口径)
- Zendesk —— 按"自动解决(Automated Resolution, AR)"计费:承诺量 1.50 美元/AR、按需 2.00 美元/AR,大批量有折扣;AR 定义为问题完全由 AI 解决、无人工介入。Suite Professional 的 20 人团队含 200 次/月免费 AR。2024-08 推出,2024-11 全面切换。(官方 newsroom,已核实)
- Decagon —— per-conversation 与(更高价的)per-resolution 双模式并存,具体费率未公开,估算起步约 9.5 万美元/年。(Sacra / 媒体,估算口径)
4.4.2 平台巨头:在席位上"叠加"AI 计量
在位巨头的策略则是"渐进叠加"——保留席位底座,在其上挂载用量/对话计量:
- Salesforce Agentforce —— 旧模式按 2 美元/对话(仍保留);2025-05 推出新的 Flex Credits:每个 action 消耗 20 credits = 0.10 美元/action,credits 按 10 万包 = 500 美元售卖;Enterprise Edition 及以上经 Salesforce Foundations 可获 10 万 Flex Credits 免费。三种付费方式:随用随付 / 预承诺 / 预购。(官方 PR 2025-05 + SaaStr、MarTech 交叉验证)
- Microsoft 365 Copilot —— 企业版 30 美元/用户/月(年付,360 美元/用户/年),作为 E3/E5/Business Standard/Premium 的 add-on;Business 版促销 18 美元/月(标准价 21 美元)。关键提醒:30 美元仅为加购价,需先持合规底座许可,单用户全包月成本实为 24–60+ 美元。(官方 microsoft.com,已核实)
- ServiceNow Now Assist / Pro Plus —— 不公开报价、走 NDA。行业估算:Pro Plus 相对 Pro 溢价 40–60%(如 ITSM Pro 80 美元/Fulfiller/月 → Pro Plus 112–128 美元);Now Assist 在 Pro Plus 座位价之上再加约 25–60%;最高级 agentic 功能保留在更高的 ITSM Prime 层。(Redress Compliance 等,估算口径)
把这些数字汇总到一张表里,定价范式的全貌一目了然——从"按席位"到"按对话"再到"按结果",价值计量的颗粒度在变细,与"软件实际交付了什么"贴得越来越近:
表 4-2 主流厂商 AI 产品定价对照(含来源性质标注)
|
厂商 / 产品 |
定价模式 |
具体价格 |
来源 / 性质 |
|
Intercom Fin |
结果计费 |
0.99 美元/解决;月订阅 49 美元含 50 次 |
官方(已核实) |
|
Salesforce Agentforce(旧) |
按对话 |
2 美元/对话 |
官方 + SaaStr |
|
Salesforce Agentforce(Flex) |
按 action/credit |
20 credits=0.10 美元/action;10 万 credits=500 美元;10 万免费 |
官方 PR 2025-05 |
|
Sierra |
结果计费 |
约 1.50 美元/解决(中位);升级人工多不收费 |
官方机制+媒体单价 |
|
Zendesk AI Agents |
结果计费(AR) |
承诺量 1.50 / 按需 2.00 美元/AR |
官方 newsroom |
|
Microsoft 365 Copilot(企业) |
per-seat add-on |
30 美元/用户/月(360 美元/年) |
官方 |
|
Microsoft 365 Copilot(Business) |
per-seat add-on |
18 美元/月促销(标准 21 美元) |
官方 |
|
Decagon |
per-conversation / 结果 |
费率未公开;估约 9.5 万美元/年起 |
Sacra/媒体(估算) |
|
ServiceNow Now Assist |
订阅 + 消费 |
Pro Plus 溢价 40–60%;Now Assist 再加 25–60% |
Redress(估算) |
|
GitHub Copilot Pro / Pro+ |
订阅 + premium requests |
10 美元/月(300 reqs,超 0.04 美元/次) |
getDX/NxCode |
|
Cursor Pro / Pro+ / Ultra |
订阅 + credit |
20 / 60 / 200 美元每月 |
NxCode |
|
Cognition Devin |
订阅(beta) |
20 美元/月(beta) |
NxCode |
来源:各公司官方定价页与公告,辅以 SaaStr、MarTech、getDX、NxCode、Sacra 等报道。价格为检索时点(2025–2026)数据,可能随时调整;ServiceNow / Decagon 为行业估算,引用时请以官方报价为准。
4.4.3 AI 编程与应用工具:从"固定价"转向"按用量/credit"
定价范式的迁移在 AI 编程工具上体现得最为剧烈。2025 年是这条赛道的"改价年":Cursor 从按请求计费转向按 credit 计费、Windsurf 两次大改定价、GitHub Copilot 引入分层 premium request——整体从简单固定价转向 credit/quota 计费。GitHub Copilot Pro 10 美元/月(含 300 premium requests,超出 0.04 美元/次);Cursor 分 Pro 20 美元、Pro+ 60 美元、Ultra 200 美元三档;Devin beta 20 美元/月。(来源:getDX、NxCode,2025–2026,媒体口径)
这些工具的商业意义不止于定价模型本身,更在于它们刷新了软件史上的增长速度。下图汇总了 AI 编码/应用工具年化收入的飙升曲线——这是"结果即价值"被市场用真金白银验证的最直接证据。
图 4-1 AI 编码 / 应用工具年化收入飙升:用一两年走完传统 SaaS 十年的路

来源:各公司官方及 The Information、SaaStr、TechCrunch 转述(年化运行率 ARR 口径,部分为媒体估算,详见附录 C)
4.5 成本结构剧变与 GTM 重塑
定价模型只是硬币的一面。另一面更隐蔽、也更致命:软件第一次有了显著的边际成本。这迫使软件公司重新理解自己的损益表。
4.5.1 毛利率:从 80–90% 跌向 50–60%
传统 SaaS 的毛利秘密在于"零边际成本"——多服务一个用户几乎不增加成本。AI 把这个前提打破了:每一次 prompt 与响应都消耗 token,直接对应付给大模型厂商的推理费用,用户用得越多、COGS(销货成本)越高。
- 量级对比(多源交叉验证): AI 公司 COGS 约 40–50%(其中 inference 约占 23%)→ 毛利 50–60%;传统 SaaS at scale 的 COGS 仅 10–25% → 毛利 75–90%。a16z 早在 2020 年就指出 AI SaaS 毛利常为 50–60% vs 传统 60–80%,近期则承认毛利挑战、但主张"毛利并不能完全说明商业可行性"。(SoftwareSeni、Bessemer、a16z)
- 微观冲击: 在一个 80 美元/月的席位上加 AI 功能,约增加 15 美元的推理/路由/基础设施直接变动成本,单座毛利"一夜之间从 80% 降到约 65%"。(The SaaS CFO,2025)
- 财报已开始反映: 多家上市垂直 SaaS 在 2025 Q4 披露了 6–9 个百分点的同比毛利压缩,并明确归因于 AI 功能成本;部分公司 2026 Q1 起在 MD&A 中单列推理成本占比,通常为营收的 4–9%。(The SaaS CFO、SFAI Labs,2025–2026)
行业由此诞生了一个新指标:Inference Efficiency Ratio(IER,推理效率比),专门用于追踪 AI 毛利健康度,被视为"SaaS 财务的第六支柱(AI Economics)"的锚点指标。ICONIQ 的行业均值显示,AI-native 产品毛利正从 2024 年的 41% 改善到 2026 年的约 52%,预计向 60–65% 靠拢,但难以重返 SaaS 的 80%+。(ICONIQ《2026 State of AI》,经二级引用,注意时效)
一个必须加注的口径陷阱:OpenAI 的"70% margin"
媒体常引用"OpenAI compute margin 从 2024-01 的约 35% 升至 2025-10 的约 70%"作为"AI 毛利转好"的证据。但这是一个非 GAAP 口径:compute margin 仅扣除付费用户的云成本,不含训练、人力等开销。其更宽口径的 GAAP 毛利实际仅约 33%,受巨额推理成本拖累——2025 年推理成本约 84 亿美元,2026 年预计升至 141 亿美元。其 ARR 则从 2023 年约 20 亿、2024 年 60 亿,飙升到 2025 年超 200 亿美元。(来源:SaaStr、wheresyoured.at,2025–2026;引用 70% 时务必标明"compute margin(非 GAAP)≠ 毛利")
表 4-3 AI 软件 vs 传统 SaaS:成本结构与毛利对照
|
维度 |
传统 SaaS |
AI 软件 / AI-native |
来源 / 口径 |
|
毛利率(成熟期) |
75–90% |
50–60% |
Bessemer / SoftwareSeni |
|
COGS 主体 |
托管/带宽(10–25%) |
推理/token(40–50%,inference ~23%) |
SoftwareSeni |
|
边际成本 |
近似为零 |
随用量线性上升 |
行业共识 |
|
加 AI 后单座毛利 |
— |
80% → 约 65%(+15 美元/座) |
The SaaS CFO 2025 |
|
上市公司财报信号 |
稳定高毛利 |
Q4 2025 压缩 6–9 个百分点 |
The SaaS CFO/SFAI |
|
推理成本占营收 |
不适用 |
约 4–9%(MD&A 披露) |
The SaaS CFO 2026 |
|
ICONIQ AI-native 均值 |
— |
41%(2024) → 52%(2026) |
ICONIQ(二级引用) |
|
OpenAI(口径警示) |
— |
compute margin 70%(非 GAAP)/ GAAP 毛利约 33% |
SaaStr/媒体 |
来源:综合 Bessemer、a16z、SoftwareSeni、The SaaS CFO、SFAI Labs、ICONIQ 及媒体报道。注:AI 毛利数字波动大且口径不一,OpenAI 的 compute margin 为非 GAAP 口径,切勿与 GAAP 毛利混用。
4.5.2 上游降价:token 价格的"摩尔定律"
毛利压力的另一面,是上游 token 价格的持续跳水,这为下游应用层提供了喘息空间。OpenAI 的 GPT-4o mini(2024 年中)定价为 0.15/0.60 美元每百万 token(输入/输出);Anthropic(2026-05 口径)Claude Haiku 4.5 为 1/5 美元、Sonnet 4.6 为 3/15 美元、Opus 4.7 为 5/25 美元。两家均提供 prompt caching(最多省 90%)与 batch(省 50%)。整体趋势是同等能力的 token 单价快速下行——这是 AI 软件毛利得以逐步修复的关键外部变量。(来源:IntuitionLabs、platform.claude.com,2025–2026)
4.5.3 GTM 与获客:PLG 重生与"续约音乐停止"时刻
定价范式的迁移,连锁改变了 go-to-market(进入市场)的玩法:
- PLG(产品驱动增长)并未衰退,而是"全栈化"。 趋势是在自助式底座上叠加 sales-assisted、AI 驱动 onboarding 与按用量扩张,形成"全栈 GTM 引擎"。Menlo Ventures《2025 State of AI》显示:27% 的 AI 应用支出经由 PLG 进入,是传统 SaaS(7%)的约 4 倍。(Menlo Ventures、Extruct AI,2025)
- 2026 是"续约音乐停止"的时刻。 大量在 12 个月内从 0 冲到 1 亿美元 ARR 的 AI 公司,将在 2026 年迎来第一个续约周期——届时定价必须反映"真实兑现的价值"而非"潜力与承诺"。这是一场对 AI 应用层商业模式的集中"成色检验"。(ProductLed、Bessemer,2026)
- 获客方式向 AI 搜索迁移。 GEO(面向生成式引擎的优化)平均 CAC 约 559 美元(比 SEO 贵约 14.4%,但转化高 27%);内容型 SEO 平均 CAC 约 480 美元。也有 B2B 案例报告引入 AI 驱动外呼后 CAC 下降约 30%、品牌用 AI 平均报告约 37% 的 CAC 下降。(First Page Sage,2026,媒体口径)
4.6 中国对照:项目制困境、价格战与"按结果计费"的萌芽
中国软件市场的商业模式变迁,走着一条与欧美既相似又迥异的路径。相似在于"按结果计费"的方向认同;迥异在于,它要先迈过"订阅制本身都没跑通"这道更前置的坎。
4.6.1 订阅制的"原罪":项目制困境与普遍亏损
在中国,"原教旨主义的 SaaS"(纯订阅)短期内并不成立。大客户多以项目制签约——这是生态决定的:很多大型客户根本无法接受订阅制的签约方式。项目制下软件需深度定制,从厂商视角看导致"做一单赔一单"、收入可持续性差、客户服务成本(CSC)随人工投入持续上升;从客户视角看则是"投入大、见效慢"。其结果是:纯订阅模式获客成本高、流失率高,LTV 无法覆盖 CAC,行业 90%+ 厂商长期亏损。Salesforce 在 2023 年"败走"中国,正是这一困境的注脚。(来源:牛透社、掘金、艾瑞,2024–2025,媒体/机构口径)
市场量级的差距进一步放大了困境:2024 年中国企业级 SaaS 市场约 1.03–1.20 万亿元,其中 AI SaaS 约 7028 亿元(CAGR 约 29.3%),预计 2027 年超 1.5 万亿——但整体仍仅为美国市场的约十分之一量级。(来源:前瞻产业研究院、艾瑞,2025)
4.6.2 大模型 API 价格战:80%+ 降幅与 2025 的涨价回调
如果说应用层在为商业模式发愁,基础模型层则上演了全球最惨烈的价格战:
- 2024-05 引爆: DeepSeek-V2 将 API 价格降至输入 1 元 / 输出 2 元每百万 token,引发智谱、字节、阿里、百度、讯飞、腾讯集体跟进,最高降幅达 80%–97%。字节豆包主力模型降至 0.0008 元/千 token;阿里通义千问 Qwen-Long 直降 97%。
- 2025 趋势逆转: "六小虎"中智谱、月之暗面、MiniMax、阶跃星辰已对部分 API 上调价格;大厂普遍转向阶梯定价,或拉开"推理/非推理"模式价差。华尔街见闻称:17 家厂商中"超 7 成在涨价"——价格战从"无脑降价"转入"分层精算"。
- 2026 再降(注意时效): DeepSeek V4 系列再次降价,V4-Flash 缓存命中价从 0.2 元降至 0.02 元每百万 token。
(来源:证券时报、华尔街见闻、第一财经,2024–2026,媒体口径)
4.6.3 "按结果计费"在中国的萌芽
与全球同频的是,中国厂商也开始把目光投向 outcome-based。前瞻产业研究院将中国 AI Agent 商业模式分为 SaaS / MaaS / RaaS 三类,其中 SaaS 主导、MaaS 增速最快;并明确判断"按效果付费"(performance-based)将成为 SaaS 行业的重要分支——"客户愿意为确定的结果付费,而非可能的功能"。合思(费控 SaaS)创始人马春荃公开提出"AI 加速渗透 SaaS,按效果付费或成重要趋势";金蝶等头部厂商亦在探索将 AI 能力与"结果交付"挂钩的计价方式。(来源:前瞻产业研究院、21 世纪经济报道,2025,媒体/机构口径)
|
中国对照小结 中国市场的特殊性在于三重变量叠加:① 订阅制本身尚未跑通(项目制困境 + 普遍亏损),AI 是"在未完成的转型上再叠加一次转型";② 基础模型层价格战烈度远超海外,压缩了应用层的议价空间;③ 信创国产化这一万亿级政策市场,提供了与欧美完全不同的需求结构。因此"按结果计费"在中国更可能以项目制的改良形态(如"效果对赌""节点验收")落地,而非欧美式的纯 SaaS outcome-based。 |
4.7 本章小结
商业模式的变迁,是本轮范式重构中最"硬"的部分——它直接写进损益表与资产负债表。我们可以把本章浓缩为四句话:
- 席位制在瓦解,但不会消失。 凡"软件替人交付结果"的场景(客服、工单、L1 支持),按人头收费已难以为继;凡"人本身是价值载体"的工具(IDE、设计),席位制长期有效。
- 结果计费是方向,混合定价是现实。 outcome-based 价值对齐最强、增速最快,但厂商承担成本波动风险;当下企业续约最常落地的是"基础订阅 + 用量/结果阶梯"的混合形态。
- 毛利模型被重写,token 成为 COGS。 AI 软件毛利 50–60% vs SaaS 80–90%,IER 成为新的健康指标;引用 OpenAI"70% margin"时务必区分 compute margin(非 GAAP)与 GAAP 毛利(约 33%)。
- 2026 是成色检验之年。 大量 AI 应用迎来首个续约周期,"音乐停止"时定价必须兑现真实价值;中国则在"订阅制未通 + 价格战 + 信创政策"的三重变量下走自己的路。
|
给产品/商业团队的要点 第一,重新审视你的计价单位。 如果它仍是"席位 × 功能",问自己一个问题:当客户用 Agent 替代员工,你的收入是涨还是跌?如果是跌,你的定价模型与 AI 价值是反向的,必须重构。 第二,把推理成本搬上桌面。 AI 不是零边际成本的功能。在定价前先建立单位经济模型(每次调用/每个结果的 COGS),并把 Inference Efficiency Ratio 纳入财务看板——否则你可能在"卖得越多、亏得越多"。 第三,向"结果"对齐,但用"混合"落地。 纯 outcome-based 会让你承担全部成本波动风险;更稳健的路径是"基础订阅保底 + 用量/结果捕获上行"。先定一个价,客户秒答"成交"说明定低了,逐步上调直到听见"我们得再想想"——这是 Bessemer 给出的最实用的定价探针。 第四,为 2026 续约季备好"价值证据"。 提前把解决率、采纳率、自主完成率、为客户节省的工时/成本量化成可呈现的 ROI——续约谈判桌上,能兑现的数字才是你的定价权。 |
第 5 章 行业格局、组织与人才
前四章回答了"软件怎么造、造什么、怎么卖"的问题。本章把镜头拉到产业层面,回答最后一个、也是产品与商业团队最关心的问题:在这场范式重写中,谁赢、靠什么赢,又靠什么样的组织与人去赢? 我们将依次穿过五个相互咬合的切面——护城河的重估、投融资浪潮、并购与人才收购、组织结构的"瘦身化"、岗位与人才的迁徙,最后以一节"中国对照"收束。
一条主线贯穿全章:价值正在技术栈中向上迁移,而创造价值所需的"人"却在急剧变少。模型层在价格战中被快速商品化,价值向应用层和基础设施层两端沉淀;与此同时,极小团队借"AI 杠杆"做出过去需要数百人才能做到的产出,初级岗位首当其冲被结构性压缩。这既是机会,也是 对既有组织形态与人才结构的同时冲击。
5.1 护城河重估:模型层、应用层还是基础设施层?
AI 时代最核心的战略问题,是"护城河(moat)到底在哪里"。传统软件的护城河建立在功能完备度与切换成本上;而当底层能力可以一次 API 调用获得,旧地图开始失效。2024–2025 年,这场争论围绕一个尖锐的标签展开——套壳(thin wrapper)。
5.1.1 "套壳之争":正方与反方
反方(套壳没有护城河)。 批评者认为,仅在基础模型外面套一层 prompt 模板和 UI 皮肤的产品("thin wrapper"),一旦底层模型自己变强就会被碾平。最常被引用的反面教材是 Jasper:缺乏超越 prompt 工程与模板的壁垒,ChatGPT 改进后用户大量流失,营收据估算从 2023 年峰值约 1.2 亿美元跌至 2024 年约 3,500 万–5,500 万美元(媒体/咨询机构估算,非公司披露)。
来源:Hatchworks《AI Wrapper Product Strategy》https://hatchworks.com/blog/gen-ai/ai-wrapper-product-strategy/(咨询机构估算,Jasper 未官方披露营收)
正方(应用层就是创新所在)。 Y Combinator 合伙人反驳道:称一家 AI 创业公司是"OpenAI 的套壳",等同于称一家 SaaS 公司是"MySQL 的套壳"——技术上没错,却完全无视了应用层正在发生的创新。a16z 合伙人 Bryan Kim 用一个比喻概括这一立场:"模型只是引擎,用户关心的是车"(the model is just an engine, what users care about is the car)。支撑这一方的,是企业在应用层投入的爆发式增长:据估算,2024 年企业级 AI 应用层投入约 46 亿美元,较前一年的约 6 亿美元增长近 8 倍。
来源:Tech Startups《The Rise of AI Wrappers》2025-03-31 https://techstartups.com/2025/03/31/the-rise-of-ai-wrappers-why-value-is-moving-up-the-stack-from-foundation-models-to-ai-apps/(定性论述,应用层投入为机构估算口径)
5.1.2 真正的护城河:数据、工作流与品牌
争论的结论并非"套壳必死",而是"必须从薄变厚"。综合多方观点,AI 应用的可防御性来自三层叠加,外加品牌作为复利加速器:
- 数据护城河:专有数据与持续的用户反馈闭环——模型可外购,数据飞轮不可。
- 工作流护城河:深度嵌入客户的端到端业务流程,把"工具"变成"流程的一部分",抬高切换成本。
- 行为护城河:用户习惯、协作网络与积累的上下文(记忆)形成黏性。
- 品牌:作为复利加速器,在能力同质化时成为关键区分项。
产品演进的路径因此清晰:从 prompt engineering → RAG → 微调 → agentic AI,正是从"薄 MVP"走向"厚产品"的过程。换言之,护城河不在模型本身,而在你围绕模型沉淀了什么。
5.1.3 价值上移,与"卖铲人"的确定性收益
如果说应用层是价值上移的一端,那么基础设施层就是另一端——而且是确定性的一端。这里的经典类比是 1849 年淘金热:卖铲子的商人往往比淘金者更稳赚。今天的 AI 资本开支重演了这一幕:模型实验室在快速变化的竞技场里厮杀、利润率充满不确定,而基础设施供应商无论哪家实验室胜出都照样收钱。
- Nvidia / TSMC 是"当下的铲子制造商":Nvidia 数据中心营收约占其总营收 90%,营业利润率约 52%,毛利率持续高于 70%(媒体/机构测算)。
- 测试设备商(KLA、Teradyne)2025 年增长约 48.1%,高于几乎所有半导体细分品类,由 AI 芯片复杂度推升。
- 四大超大规模云厂商 2026 年合计约 7,100 亿美元 AI 基建资本开支(Amazon ~2,000 亿、Microsoft ~1,900 亿、Alphabet ~1,850 亿、Meta ~1,350 亿;媒体测算)。
来源:Technostatecraft、FourWeekMBA、EODHD、24-7 Wall St(卖铲人逻辑与资本开支为媒体/投资机构测算,非各公司统一官方口径)
|
护城河重估:一句话 AI 把价值从中间的"模型层"挤向两端——向上到沉淀了专有数据与工作流的应用层,向下到掌握算力瓶颈的基础设施层。最危险的位置,恰恰是夹在中间、只做"薄套壳"或纯卖通用模型 token 的玩家。对产品团队而言,问题不是"要不要用大模型",而是"我在模型之上独占了什么别人复制不了的东西"。 |
5.2 投融资浪潮:AI 吸走了一半以上的风险资本
护城河之争的背后,是一场量级空前的资本再分配。2024–2025 年,AI 不只是"一个热门赛道",而是几乎吞掉了全球风险投资的半壁江山。
5.2.1 AI 占 VC 比例:从三分之一到六成
据 Crunchbase 口径,AI 创业公司占全球 VC 资金的比例从 2024 年的 34% 跃升至 2025 年的 61%;另有 OECD 等口径给出约 50%(统计范围与"AI 公司"界定不同,故并列呈现)。2025 年全球 AI 募资达约 2,110 亿美元,同比 2024 年的约 1,140 亿美元增长 85%;其中美国 AI 公司独占约 1,590 亿美元(占全球 AI VC 的 79%),地理集中度极高。
图 5-1 AI 占全球风险投资比例(Crunchbase 与 OECD 两家口径并列,2024–2025)

来源:Crunchbase News《Big AI Funding Trends 2025》https://news.crunchbase.com/ai/big-funding-trends-charts-eoy-2025/;OECD《VC investments in AI through 2025》。两家对"AI 公司"界定不同,数值不可直接互换。
一个标志性事实:2025 年是历史上第一次,AI/ML 创业公司的融资额超过其他所有行业之和。资本市场用真金白银投票,押注这场范式重写。
5.2.2 头部厂商估值:从百亿到近万亿
基础模型与 AI 原生厂商的估值在两年内被反复刷新。下表汇总主要厂商的代表性轮次,并严格区分官方公告与媒体估算——这一点对引用至关重要,因 AI 领域私有公司估值传闻极多。
表 5-1 主要 AI 厂商代表性融资轮次与估值(2024–2026,区分官方/媒体口径)
|
厂商 |
轮次 / 募资 |
估值 |
时间 |
领投 / 口径 |
|
OpenAI |
约 400 亿美元 |
约 3,000 亿美元(投后) |
2025 |
SoftBank 领投,Microsoft 等参与 官方/机构 |
|
Anthropic |
Series F 约 130 亿 → Series H 约 650 亿 |
约 1,830 亿 → 约 9,650 亿 |
2025 →2026.05 |
Iconiq/Fidelity → Altimeter/Sequoia 等;超越 OpenAI 成最高估值 AI 创企 官方/媒体 |
|
xAI |
约 100 亿股权 +35 亿债务 |
约 2,000 亿美元 |
2025 |
Valor、QIA 等;2026 初再募约 200 亿 媒体 |
|
Mistral AI |
€17 亿 Series C |
€117 亿(约 138 亿美元) |
2025.09 |
ASML 领投 €13 亿(约 11% 股权),Nvidia 等参与;欧洲史上最大 AI 轮 官方 |
|
Safe Superintelligence |
约 20 亿美元 |
约 320 亿美元 |
2025.04 |
Greenoaks 领投约 5 亿;无产品即达此估值 媒体 |
|
Thinking Machines |
约 20 亿美元(种子) |
约 100 亿美元 |
2025 |
a16z 领投;史上最大种子轮(Mira Murati 创立) 媒体 |
|
Perplexity |
约 2 亿美元 |
约 200 亿美元 |
2025.09 |
年内 140 亿→180 亿→200 亿;ARR 接近 2 亿 媒体 |
来源:TechFundingNews《10 AI mega-rounds 2025》、Axios(2026-05-28,Anthropic $965B)、CNBC(2025-09-09,Mistral)、TechCrunch(2025-04-12,SSI;2025-09-10,Perplexity)、Maginative(Thinking Machines)。标注"媒体"者为报道/传闻口径,引用时以最新官方披露为准。
补充几笔同期大额轮次以见全貌:Databricks 约 50 亿美元 @ 约 1,340 亿估值;Jeff Bezos 参与创立的 Project Prometheus 约 62 亿美元;防务 AI Anduril 约 25 亿 @ 约 305 亿;编码赛道的 Anysphere(Cursor,见 5.4 节)与 Reflection AI(约 20 亿 @ 约 80 亿)同样跻身十大 megaround。
来源:TechFundingNews《$84B story: 10 AI mega-rounds 2025》https://techfundingnews.com/openai-anthropic-xai-ai-funding-trends-2025/(媒体汇总口径)
5.3 并购与 acqui-hire:巨头如何"绕道"收购人才
资本的另一面是整合。2024–2025 年出现了一种被反复使用、又被监管反复盯上的特殊交易结构——反向人才收购(reverse acqui-hire):巨头招走创业公司的核心团队,同时支付一笔技术授权费,并刻意保留目标公司的独立法人地位,以规避正式并购触发的反垄断审查。
5.3.1 四起典型的"反向 acqui-hire"
表 5-2 重大并购与人才收购事件(2024–2025)
|
事件 |
金额 / 估值 |
时间 |
结构与去向(来源) |
|
Microsoft ← Inflection |
约 6.5 亿美元 |
2024.03 |
约 6.2 亿授权费 + 约 3,000 万和解金;招走 Suleyman 等约 70 人几乎全员,Suleyman 任 Microsoft AI 部门 CEO 掌管 Copilot;Inflection 保持独立(TechCrunch、Fortune,The Information 口径) |
|
Google ← Character.AI |
约 27 亿美元 |
2024.08 |
非独占技术授权 + 招回 Noam Shazeer、De Freitas 及约 30 名核心回 DeepMind(Shazeer 主导 Gemini);公司由总法务任临时 CEO(Bloomberg、Nasdaq;亦有 25 亿口径) |
|
Amazon ← Adept |
授权金额未披露 |
2024.06 |
招走 CEO David Luan 及多名联创并授权其 agent 技术;Luan 任 Amazon VP,2024-12 组建 AGI SF Lab(CNBC、TechCrunch;注:2026-02 Luan 已离职) |
|
Amazon ← Covariant |
约 3.8 亿 + 2,000 万尾款 |
2024.08 |
招走联创 Pieter Abbeel 等及约 1/4 员工,非独占授权机器人基础模型;尾款一年后支付(TechCrunch、Wikipedia,媒体披露) |
|
Meta ← Scale AI |
约 143 亿美元取 49% 股权 |
2025.06 |
Scale 估值约 290 亿;CEO Alexandr Wang 加入 Meta"超级智能"团队直接向扎克伯格汇报(个人股份约 50 亿);系 Meta 史上最大对外投资(Fortune、TechCrunch) |
来源:各家 TechCrunch / Fortune / CNBC / Bloomberg 报道(详见正文脚注)。授权费多为 The Information 等媒体口径,非交易方官方披露。
5.3.2 Windsurf 风波:72 小时三方拆分
最戏剧化的一例是编码工具 Windsurf:2025 年 7 月,一家公司在约 72 小时内被三方分食。
- OpenAI 出局:4 月曾拟以约 30 亿美元收购,但因不愿让大股东 Microsoft(其 GitHub Copilot 为 Windsurf 竞品)一并取得该编码技术、且 Windsurf CEO 坚拒 Microsoft 介入,谈判破裂。
- Google 截胡人才:以约 24 亿美元授权费招走 CEO Varun Mohan、联创 Douglas Chen 及顶尖研究员进 DeepMind——不占股、非独占授权,是典型的"反向 acqui-hire"。
- Cognition 收尾:数日后,Devin 母公司 Cognition 收购 Windsurf 剩余的 IP、产品、品牌与团队(金额未披露)。
来源:TechCrunch 2025-07-11、CNBC 2025-07-14(Google 授权费 24 亿为报道口径)
5.3.3 监管的反扑
这种"授权费 + 招团队 + 留壳"的结构很快引来监管。批评的核心是它可能系统性规避并购审查。美国参议员 Ron Wyden 直言:"少数公司控制了大部分市场,却把精力放在买光别人的人才、而非创新上。"具体动作上:
- 英国 CMA 于 2024-07-17 启动正式调查,评估是否升级为完整并购调查。
- 美国 FTC 自 2024 年 6 月起调查 Microsoft–Inflection,并索取 Amazon–Adept 交易细节。
来源:Fortune《Big AI acquihire... scrutiny in the U.K. and U.S.》2024-07-17 https://fortune.com/2024/07/17/big-ai-acquihire-microsoft-inflection-amazon-adept-antitrust-cma-ftc/
5.4 组织结构:更小的团队,更高的杠杆
资本与并购重塑了行业的"骨架",而 AI 正在重塑公司的"肌肉"——组织形态。一个鲜明趋势是:团队在变小,单位人效在飙升。
5.4.1 从"效率年"到"AI 杠杆"
这一趋势的序章是 Meta 的 效率年(Year of Efficiency)。2023-02-01 财报电话会上,扎克伯格定义 2023 为"效率年",核心理念是"让公司变好的,是用更少资源把事做成";措施包括扁平化、削减中层管理、部署 AI 工具提升工程师生产力(2022 Q4 已裁约 1.1 万人)。两年后,这一理念被 AI 推向极致——Sequoia 已调整其承销模型,以纳入所谓 "agentic leverage"(小团队借 AI agent 编排实现的超额产出)。
来源:About Meta《Update on Meta's Year of Efficiency》2023-03;The AI Journal《Tiny Teams...》(agentic leverage 提法)
5.4.2 极小团队独角兽:人效的极端样本
两个被反复引用的样本,重新定义了"一家公司能有多小、又能有多大":
表 5-3 极小团队独角兽的人效对照
|
公司 |
收入规模 |
团队规模 |
人均营收 / 备注 |
|
Midjourney |
2025 营收约 5 亿美元(2024 约 3 亿) |
约 107–163 人 |
人均约 470 万美元(对比 Google ~180 万、Meta ~160 万、OpenAI ~50 万);自筹无 VC、零营销,两个月即盈利 |
|
Anysphere(Cursor) |
2026.03 约 20 亿美元 ARR |
约 50 人(该里程碑时) |
史上 0→20 亿 ARR 最快的 B2B 软件(约 3 年);2025 年 Series D 募 23 亿 @ 约 293 亿估值 |
|
Gamma |
近 5,000 万用户 |
约 28 人 |
"比多数公司市场部还少的人,服务近 5,000 万用户" |
|
Perplexity |
ARR 接近 2 亿美元 |
(精简团队) |
人均营收约 85 万美元,远高于传统 SaaS 的 10–20 万 |
来源:getLatka、Product Growth、Sacra(Midjourney);TechCrunch 2025-06-05、CNBC 2025-11-13(Cursor);The AI Journal、The VC Corner。私有公司收入多为自报或媒体估算口径。
5.4.3 新角色:从"写代码的人"到"AI 编排者"
团队变小的另一面,是工程师角色的质变。业界提出一条清晰的演进路径:从 Conductor(指挥) 到 Orchestrator(编排者)。
- Conductor:与单一 AI agent 紧密协作、实时引导其行为、随时介入修正——人始终在每一步的回路里。
- Orchestrator:统筹多个 agent 并行工作于项目的不同部分,只设定高层目标与任务边界,让自主 agent 各自完成实现细节。
一句广为流传的判断概括了终局:"未来软件工程师的工作不是写代码,而是编排 AI agent 替你写代码。" 行业因此提出从 SDLC(软件开发生命周期)向 AO-DLC(agent 编排的开发生命周期) 迁移的设想——GitHub 的 agent 已让一名工程师得以监督多个并行的"AI 初级工程师"。
来源:O'Reilly Radar / Addy Osmani《Conductors to Orchestrators》https://www.oreilly.com/radar/conductors-to-orchestrators-the-future-of-agentic-coding/;LangChain Blog
5.5 岗位与人才:新工种崛起,初级岗位承压
组织瘦身的尽头,是劳动力市场的重构。AI 既创造了全新的工种,也对另一些岗位形成了结构性挤压——其中初级开发者首当其冲。
5.5.1 "AI Engineer"的崛起与"Prompt Engineer"的退潮
AI Engineer 崛起。 2023-06,swyx(Shawn Wang)在 Latent Space 发表《The Rise of the AI Engineer》,提出一个全新工种定义:用 LLM、agent、RAG、AI API 出产品的软件工程师,区别于做模型训练的传统 ML 工程师;其论点"过去需 5 年加一支研究团队的 AI 任务,如今凭 API 文档加一个下午即可完成"被广泛传播,Andrej Karpathy 公开认同。配套的 AI Engineer Summit(2023-10)以 10:1 报名比秒罄,2024-06 的 World's Fair 吸引 3,000+ 人,成为全球最大面向工程师的技术 AI 会议。
来源:Latent Space《The Rise of the AI Engineer》https://www.latent.space/p/ai-engineer;RedMonk
Prompt Engineer 退潮。 与之形成对照的是一度被称"2024 年度岗位"的 prompt engineer 的迅速降温:微软调查中它在企业未来 12–18 个月拟新增岗位里排倒数第二;据 LinkedIn 口径,相关档案在 2024 年中至 2025 年初约下降 40%,职位发布趋近于零。原因是模型成熟到"能自己 prompt 自己",微软 CMO 称"不再需要完美的 prompt"。但该技能并未消失,而是被吸收进 AI Engineer、Applied ML Engineer、LLM Engineer、AI Solutions Architect 等更宽的岗位。
来源:Fortune 2025-05-07 https://fortune.com/2025/05/07/prompt-engineering-200k-six-figure-role-now-obsolete-thanks-to-ai/;TechRepublic、Fast Company(微软调查与 LinkedIn 档案降幅为报道口径)
5.5.2 初级岗位的结构性收缩(多项研究并列)
最受关注、也最具警示意义的,是 AI 对初级/应届岗位的冲击。多项独立研究指向同一方向——这是 结构性收缩而非周期性波动:
- Stanford Digital Economy Lab《Canaries in the Coal Mine?》(2025-11,Brynjolfsson 等,ADP 薪资数据覆盖 2,500 万+ 工人):在 AI 暴露度最高的 IT/软件工程岗,22–25 岁就业下降约 6%,而 35–49 岁反增约 9%。
- Harvard 研究(追踪 6,200 万工人 / 28.5 万家公司,2015–2025):采用 AI 的公司在 6 个季度内初级岗位下降约 9–10%,高级岗位基本不变。
- 入门级科技招聘 2024 年同比降约 25%;大厂入门级招聘近三年降幅超 50%。NY Fed 数据:CS 应届失业率 6.1%、计算机工程 7.5%。
- 雇主态度:SHRM 2024 调查中 70% 招聘经理认为 AI 能干实习生的活、57% 更信任 AI 产出;IDC/Deel 2025 调查中 66% 全球企业计划因 AI 削减入门级招聘。
来源:Stanford Digital Economy Lab;Harvard(经 Stack Overflow Blog 2025-12-26 https://stackoverflow.blog/2025/12/26/ai-vs-gen-z/ 综述);IEEE Spectrum、SoftwareSeni、IntuitionLabs(各研究样本与口径不同)
5.5.3 科技裁员中的 AI 因素
宏观裁员数据同样被 AI 叙事重新定义。据 Layoffs.fyi,2024 年约有 26.2 万名科技工人被裁;2025 年截至 11 月超 15.7 万(其他统计口径如 12.2 万等并存,差异源于统计范围)。越来越多公司明确将 AI 效率/自动化列为裁员理由,包括 Dell、Dropbox、HP、IBM、Cisco、Salesforce;Meta 亦于 2025–2026 宣布裁约 10%。论战焦点被一句话点破:"AI 不是让工人更高效,而是让工人变得冗余。"
来源:Layoffs.fyi https://layoffs.fyi/;TechCrunch 2025-12-22;a3i、Crunchbase News(不同来源裁员总数口径不一,已并列说明)
5.6 中国对照:六小虎分化、价格战洗牌与团队并入
把镜头转向中国,同样的范式力量在不同的资本与政策环境中,演化出一条颇为不同的路径。三个关键词足以勾勒:分化、价格战、收缩。
5.6.1 "六小虎"叙事的终结与 IPO 竞速
2023 年并称"AI 六小虎"的——智谱、月之暗面、MiniMax、百川、零一万物、阶跃星辰——到 2025 年,这一叙事被业内称为"已成过去式",格局明显分化:
- 冲刺资本市场:智谱与 MiniMax 率先通过港交所聆讯。智谱于 2025-12-30 启动招股、预计 2026-01-08 在港交所上市,定价 116.2 港元/股、募资约 43 亿港元,被称"全球大模型第一股"。
- 继续冲营收条件:月之暗面最新一轮融资收尾,估值有望升至约 40 亿美元,目标次年下半年启动 IPO;MiniMax 累计三轮融资超 7.5 亿美元。
- 退守垂类:百川聚焦医疗、零一万物转向 To B 与垂直应用,阶跃星辰重注多模态。
一位接近厂商的行业人士直言:"'六小虎'已是上一代标签,现在只有一条赛道——全模态能否进第一梯队。"
来源:21 经济网《一文看完大模型六小虎的 2025》、第一财经《年终盘点|大模型洗牌》https://www.yicai.com/news/102982883.html、投中网、cls.cn(IPO 定价与募资为招股口径)
5.6.2 价格战洗牌:从"价格屠夫"到逆向涨价
国内 API 价格战的烈度远超海外。2024-05,DeepSeek 以 DeepSeek-V2 率先把价格压到输入 ¥1/百万 tokens、输出 ¥2/百万 tokens 的行业低位,有"价格屠夫"之称,随即带动智谱、字节、阿里、腾讯、讯飞、百度、360、月之暗面集体跟进降价。
但 2026 年出现耐人寻味的逆转:据对 17 家厂商定价的统计,超 7 成转为涨价——智谱 API 提价约 83%,腾讯云自研模型 API 涨幅一度达 463%,阿里云、百度智能云相继上调算力价格。与此同时 DeepSeek 又宣布 V4-Pro API 在 2026-05-31 后永久调为原价的 1/4。一个结构性观察是:使用开源 AI 栈的初创公司中约 80% 跑在中国模型上;token 价格的地区差异,已成为由能源成本、芯片获取与产业政策共同塑造的长期格局。
来源:华尔街见闻/知乎《深扒 17 家厂商最新定价》https://wallstreetcn.com/articles/3753987;新浪财经 2026-05-26;36氪《Token 生意在重新洗牌》(涨跌幅为厂商公告/媒体统计口径)
5.6.3 资本与人才:零一万物预训练团队并入阿里
资本与人才市场的洗牌,在 零一万物 一案上体现得最为典型。2025-01-02,零一万物宣布将大部分预训练与 AI Infra 团队并入阿里、与阿里云成立"产业大模型联合实验室",不再追求超大模型。创始人李开复澄清这"并非被收购",而是主动转向"小而美"做垂直应用与产业落地。
- 业绩:2025 年实现约 5 亿元订单、2.5 亿元审计收入;截至 2026-05 订单累计超 15 亿元,目标 2027 年交表上市。
- 信号意义:与王小川(百川转向医疗)同期,李开复的转身被解读为"大模型创业上半场结束"——预训练超大模型的赛道,正向少数资本与算力雄厚者收敛。
来源:新浪财经 2025-01-09 https://finance.sina.com.cn/roll/2025-01-09/doc-ineeitny9747373.shtml;21 经济网 2025-01-10;证券时报、53AI(订单/收入为公司自报口径)
5.6.4 中外对照小结
同一场范式重写,中外呈现出耐人寻味的差异:欧美由充裕的私有资本驱动头部估值狂飙(Anthropic 近万亿、xAI 两千亿),并以"反向 acqui-hire"完成人才整合;中国则在更紧的资本与更烈的价格战中加速分化,叠加信创国产化这一政策市场,更多走"提效拓市 + 垂类落地"而非"颠覆存量"的路径。护城河、资本与人才三者的配置逻辑,在两个市场并不相同。
|
给产品/商业团队的要点 ① 护城河上移:模型层在价格战中被快速商品化,可防御性来自专有数据、工作流嵌入与品牌——别停留在"薄套壳",也别幻想纯卖通用 token。② 资本极度集中:2025 年 AI 吸走全球 VC 的 50–61%(口径不一),头部估值狂飙,但私有公司估值多为媒体口径,决策时回到官方披露。③ 人才整合走捷径:"反向 acqui-hire"成巨头标配,但正受 FTC/CMA 审查,相关交易存在监管不确定性。④ 组织瘦身化:极小团队 + AI 杠杆成为新常态,工程师角色从"写代码"转向"编排 agent",团队设计应据此重构。⑤ 人才结构性变化:AI Engineer 崛起、prompt engineer 被吸收,初级岗位出现 6–10% 的结构性收缩——招聘与培养策略需要前瞻调整。⑥ 中国不同路径:更烈的价格战、更紧的资本、政策市场加持,"提效拓市"重于"颠覆存量"。 |
第 6 章 跨维度洞察与趋势研判
前五章分别拆解了开发范式、产品与架构、商业模式、行业格局四个维度。本章把镜头拉远,做跨维度的合流分析:当估值逻辑、市场重心、风险结构与未来情景被放在同一张图上,会浮现出哪些单看一个维度看不到的判断。本章的写作原则是——观点必须标明提出者与时点,对"SaaS 已死""AI 泡沫"这类争议性命题,严格呈现正反双方,不替读者下定论。
说明:本章数字多为机构预测或自有调研,VC/分析机构的报告天然带有立场,部分私有公司财务为媒体估算或公司自报口径,引用时已逐处标注来源与时间,读者据此决策时务必回到原始定义。检索口径截至 2026 年 5 月。
6.1 估值逻辑的重写:资本市场已经先行定价
如果说前几章讨论的是软件"怎么造、卖什么、怎么赚",那么资本市场是把这一切折算成一个数字的地方。而这个数字,已经被重新计算过了。
6.1.1 倍数压缩:一个清晰的下行台阶
上市 SaaS 公司的 EV/TTM 收入中位倍数 走出了一个清晰的下行台阶:2024 年底 6.2× → 2025 年底 4.9× → 2026 年 3 月 31 日 3.3×(Multiples.vc《Software Valuation Multiples》/ SaaS Capital,2026)。传统 SaaS 普遍回落到 2.5–7× EV/Revenue 区间。与此同时,公开市场上 AI 公司的市值/收入中位倍数仍高于 10×——按 Eqvista 一种口径,AI 平均收入倍数 37.5× 对 SaaS 的 7.6×,鸿沟之大前所未见。
图 6-1 上市 SaaS 估值倍数压缩:EV/收入中位数 6.2×→3.3×(2024 年底—2026 年 3 月)

来源:Multiples.vc《Software Valuation Multiples》、SaaS Capital《Four Early 2026 SaaS Trends》(上市 SaaS 中位 EV/TTM 收入口径)
6.1.2 "SaaSpocalypse":万亿市值蒸发,与"幻象论"的反方
2026 年初起,软件股经历了一场被称作"SaaSpocalypse"(SaaS 末日)的滚动式抛售。各家口径不一,需并列呈现:
- 市值规模(财经媒体口径,非官方统计)。 自 2026 年初起软件股累计蒸发约 2 万亿美元(TechCrunch,2026-03-01;FinancialContent,2026-03-30);另有"单次事件 48 小时内 SaaS 估值蒸发 ~2850 亿美元"的更窄口径。
- 关键拐点信号。 软件板块前瞻市盈率首次跌破标普 500 整体市盈率,从 2020–2022 峰值 84.1× 降至 2026 年 3 月 22.7×;软件 ETF(IGV)较 2025 年 9 月峰值回撤约 30%。
- 导火索(归因存争议)。 一种流行说法是 Anthropic 发布 Claude Cowork,市场据此认为 Agent 可替代"按席位收费"支撑的整类知识工作,叠加 2025 Q4 疲软财报共振。
|
争议呈现:SaaSpocalypse 是真崩塌,还是叙事幻象? 看空方(Forrester) 在《SaaS As We Know It Is Dead》中主张"我们所知的 SaaS"正被瓦解。反方("幻象论") 则针锋相对:Fast Company 直接以《Everything you've heard about the 'SaaSpocalypse' is wrong》反驳,Dev Interrupted 称《The AI SaaSpocalypse is a mirage》。反方核心论据是支出基本盘并未消失——IDC 预计全球 SaaS 支出仍从 2025 年 3180 亿美元增至 2028 年 5120 亿、2029 年 5760 亿美元。本报告判断:股价层面的"末日"是真实发生的重定价,但它惩罚的是"按席位 × 功能"的旧增长引擎,而非企业软件这个品类本身。 |
6.1.3 AI 溢价:市场把软件切成"被增强"与"被替代"两类
重定价不是普跌,而是分化。具备真实 AI 能力的软件公司较同类非 AI 软件获得 30–50% 估值溢价(Livmo,2026);SEG Research 记录 AI-native SaaS 相对非 AI 同业有 1–3× 倍数溢价。市场用真金白银把软件资产切成两类:AI-enhanced(被增强) 与 AI-threatened(被替代)——浅层 AI 定位、Agent 可直接替代其功能的产品,正遭遇下修重估(Multiples.vc)。
6.1.4 两份"State of AI"报告:VC 视角下的乐观主线
两家头部 VC 的年度报告提供了产业侧的另一面,需注意其多头立场:
- Bessemer《The State of AI 2025》。 提出"没有不含 AI 的云"——几乎所有传统 SaaS 都已在产品与运营中引入 AI;自 2023 年起向 AI-native 初创投入超 10 亿美元。其 Cloud 100 Benchmarks(2025) 显示榜单总价值 1.117 万亿美元(较 2024 年 +36%),AI 公司占 4640 亿美元;AI 公司达成 1 亿美元 ARR 平均仅 5.7 年(整体 7.5 年),垂直 AI 增速约 400%、ACV 约为传统 SaaS 的 80%。Bessemer 断言:垂直 AI 有潜力超越最成功的传统垂直 SaaS 市场。
- Battery Ventures《State of AI 2025》。 将年度报告更名为"State of AI",宣称"AI 超级周期(supercycle)已到来"。三大云(AWS+GCP+Azure)合计运行率收入 2025 Q3 达 2850 亿美元、同比 +29%;企业 CXO 在 2025 Q1 首次把"生成式 AI/LLM"列为未来 12 个月支出第一优先级,33% 企业已从试点转入部署、近 75% 预计两年内跟进。
来源:Bessemer Venture Partners《The State of AI 2025》《Cloud 100 Benchmarks Report 2025》;Battery Ventures《It is Here: The AI Supercycle Has Arrived》《State of Enterprise Tech Spending》(2025,均为机构自有调研,含多头立场)
6.2 Service-as-Software:市场重心从"工具"迁往"服务"
估值重定价的背后,是一个更深的叙事转向:软件要争夺的,不再只是软件的钱。
6.2.1 纳德拉"业务应用将崩塌":原话与媒体标签之别
这场叙事最具引爆力的一句话来自微软 CEO Satya Nadella,在 2024 年 12 月 BG2 播客(主持人 Brad Gerstner、Bill Gurley)中的表述。务必区分"原话"与"媒体标签":
- 原话(多源互证)。 纳德拉称业务应用大概率会"崩塌(collapse)"——"它们本质上就是带一堆业务逻辑的增删改查数据库(CRUD databases with a bunch of business logic)";并断言"所有逻辑都将进入 AI 层(all the logic will be in the AI tier)",Agent 成为跨平台编排者;微软将"相当激进地(aggressively)去崩塌这一切",无论客服还是财务与运营,并称在 Dynamics 后端 + Agent 组合上赢率很高。
- 媒体标签。 "SaaS is dead(SaaS 已死)"是媒体对上述言论的概括标签,纳德拉本人并未逐字如此表述(参见 Medium《Did Satya Nadella really say SaaS is dead?》)。撰稿与引用时应保留这一区分,避免以讹传讹。
|
争议呈现:SaaS 是消亡还是演化? 消亡/颠覆论:纳德拉(业务应用崩塌)、Forrester(《SaaS As We Know It Is Dead》)。演化非消亡论:IDC《Is SaaS Dead?》主张下一章不是"SaaS vs AI"而是"以 AI 为核心的 SaaS";Bain & Company《Will Agentic AI Disrupt SaaS?》认为部分类目受冲击但整体企业软件市场继续增长。两方的实质分歧不在"会不会变",而在"存量 SaaS 的价值是被替代还是被吸收"。 |
6.2.2 Foundation Capital:真正的奖品是 4.6 万亿美元的"服务"
如果说纳德拉指出了"应用层会塌",那么 Foundation Capital 的合伙人 Ashu Garg 与 Jaya Gupta 指出了"塌向哪里"。他们提出 Service-as-Software(服务即软件) 命题:
- 核心论断。 真正的奖品不是约 2000 亿美元的 SaaS 工具市场,而是企业花在薪资与外包服务上的 4.6 万亿美元。AI-native 公司不再"加速工作流",而是"替你把活干了(do the work for you)"——AI SDR、AI 会计、AI 律师助理、AI SRE 等端到端系统。Jaya Gupta 称这是"远超传统软件市场的数万亿美元机会"。
- 三条制胜模式。 ① 实施即护城河——差异化来自深度定制而非代码,"前向部署工程师(forward-deployed engineers)"成为战略资产;② 销售-交付融合——"客户现在期望在签合同前就体验到功能、集成与结果",POC 需真实数据,催生"销售成本危机";③ 结果导向定价演进——席位制 → 用量制 → 工作流制 → 结果制。代表公司:Sierra(客服)、Harvey(法律)、Clay(销售)。
- 同一机构的风险提示。 Foundation Capital 在《When model providers eat everything》中警告:基础模型厂商(OpenAI、Anthropic)正"向上吞噬技术栈",从基础设施转为产品公司,对 Service-as-Software 初创构成生存威胁。
6.2.3 定价范式迁移:从席位制到结果制
商业模式的迁移已是可观测事实。当一个 Agent 能干十个、五十个人的活,"按人头收费"被结构性瓦解:AI agent 不登录、不占命名用户许可、不对应 headcount——有观点称 Agent 可压缩席位数 90%。
表 6-1 定价范式迁移:从席位制走向结果制(2025–2030)
|
定价模式 |
计量方式 |
现状与代表信号 |
出处/时点 |
|
席位制(旧) |
按命名用户/月 |
Agent 经济下结构性失效;Salesforce 仍坚持按席位 AI 许可 |
The Register,2025-12 |
|
用量制 |
按 token/API 调用/算力 |
混合定价(基础+用量超额)成行业标准 |
Bessemer Pricing Playbook |
|
结果制 |
按验证的业务结果 |
Intercom Fin 每解决一次对话 0.99 美元;Sierra 按结果计费 |
Sierra / Intercom,2025 |
|
迁移预测 |
用量/Agent/结果型 |
到 2030 年 ≥40% 企业 SaaS 支出转向,席位制收入占比 21%→15% |
Gartner,2025 |
|
厂商重构 |
围绕新价值度量 |
到 2028 年纯席位制过时,70% 软件厂商重构定价 |
IDC,2025 |
来源:MindStudio、Bessemer《AI Pricing & Monetization Playbook》、Sierra、The Register、Gartner、IDC(2025–2026);混合定价采用率据 Bessemer 2026 Playbook 为 41%(2025 年为 27%)
需要并陈反例:并非全行业统一。Salesforce 在 2025 年 12 月仍选择按席位的 AI 许可(The Register),显示头部厂商对"按结果计费"的可计量性与收入可预测性仍有保留。
6.3 风险与不确定性:范式重写,但兑现路径曲折
本报告无意做单边的"AI 颠覆一切"叙事。把四类风险并置,能看清"叙事"与"兑现"之间的鸿沟。
6.3.1 可靠性:复合错误是 Agent 的阿喀琉斯之踵
概率性系统最致命的风险是误差累积。即便每一步可靠率高达 85%,一个 10 步工作流端到端成功率也只有约 20%——单点准确率不等于多步可靠性(arXiv《Towards a Science of AI Agent Reliability》,2026)。其他实证:工具误用/错误参数约占 2024–2025 生产失败的 31%;约 91% 的 ML 系统随时间出现性能退化;当幻觉率超过 30%,用户即弃用产品。基准差异极大——Gemini-2.0-Flash 约 0.7%(2025-04),但在法律、医疗、引用检索、多轮研究等硬任务上错误率陡升。51% 用 AI 的组织至少遭遇一次负面后果。
来源:Trantor《AI Agent Failure Modes》、Maxim AI《State of AI Hallucinations in 2025》、arXiv 2602.16666(2025–2026)
6.3.2 安全:OWASP LLM Top 10(2025)
OWASP Gen AI Security Project 2025 版重写了 LLM 应用的风险图谱,其中 prompt injection(提示注入) 高居 LLM01,且定义扩展为直接 + 间接两类——间接注入指 LLM 从网页等外部源摄入内容而被操纵,对联网 Agent 尤为危险。
- LLM01 提示注入(直接 + 间接) LLM02 敏感信息泄露 LLM03 供应链漏洞
- LLM04 数据投毒 LLM05 不当输出处理 LLM06 过度自主性(Excessive Agency)
- LLM07 系统提示泄露(新增) LLM08 向量与嵌入弱点(新增) LLM09 错误信息 LLM10 无限消耗
Agent 场景的特殊性在于:供应链、过度自主性、提示注入三类风险常在 LLM 集成系统的多个执行阶段共现,单点防御不足以兜底。
来源:OWASP Gen AI Security Project(2025 版);TrojAI《The 2025 OWASP Top 10 for LLMs》
6.3.3 合规:全球 vs 中国的两套监管逻辑
合规是 Service-as-Software 落地绕不开的约束,且欧盟与中国走的是两套不同逻辑——前者以"风险分级 + 重罚"为轴,后者以"分类分级 + 内容安全 + 标识"为轴。
表 6-2 全球 vs 中国 AI 监管要点对照
|
维度 |
欧盟 EU AI Act |
中国 |
|
监管轴心 |
横向风险分级(禁止/高风险/有限/最小) |
分类分级 + 内容安全 + 生成内容标识 |
|
关键时点 |
2025-08-02 GPAI 义务生效 2026-08-02 执法权生效(含罚款)、高风险与透明度规则适用 2027-08-02 存量 GPAI 须合规 |
2023-08-15《生成式 AI 服务管理暂行办法》施行 2025-09-01《AI 生成合成内容标识办法》施行 2025-11-01 三项生成式 AI 安全国标生效 |
|
核心义务 |
GPAI 提供者透明度、系统性风险模型须通报 AI Office |
安全评估 + 算法备案;算法/内容/语料/标注合规;显式 + 隐式(元数据/水印)双标识 |
|
罚则 |
禁止性行为:最高 3500 万欧元或全球营收 7% 其他义务:最高 1500 万或 3% 虚假信息:最高 750 万或 1% |
配合监督检查,说明训练数据来源/规模/标注规则/算法机理 |
来源:EU AI Act 实施时间表、DLA Piper;中央网信办《生成式人工智能服务管理暂行办法》、China Law Translate、Bird & Bird(2023–2025)
6.3.4 "AI 泡沫"之争:严格呈现正反双方
这是当下最大的争议。本报告不下断语,只把双方最硬的论据摆出来。
看空方(泡沫论)
- MIT NANDA《The GenAI Divide: State of AI in Business 2025》(2025-08-18,主笔 Aditya Challapally):95% 企业 GenAI 试点未见可测财务回报,仅约 5% 实现快速营收加速。方法为 150 场高管访谈 + 350 员工调查 + 300 个公开部署分析;根因非模型质量,而是"学习鸿沟"与资源错配(>50% 预算投向销售/营销,而后台自动化 ROI 最强)。外部估算企业 GenAI 支出约 300–400 亿美元(Fortune)。
- Gartner Hype Cycle(2025):生成式 AI 进入"幻灭低谷(Trough of Disillusionment)";2024 年企业平均投入 190 万美元做 GenAI,但 <30% CEO 满意回报;预计需 2–5 年才能爬出低谷。
- Michael Burry(折旧/做空论,2025-12 至 2026-05):指大型科技公司高估芯片可用年限以虚增利润——AI 硬件 2–3 年即商业过时(云资产可用 5–6 年);估算 2026–2028 行业折旧被低估约 1760 亿美元,点名 Meta、Oracle 到 2028 年或分别虚增利润 20.8%、26.9%。其 Substack 长文引发 Nvidia 罕见地向卖方分析师发备忘录反驳。
- 结构性担忧:OpenAI–CoreWeave–Nvidia 之间的"算力换股权、兜底未用产能(至 2032)"等循环融资结构被质疑;Morgan Stanley 顶级分析师称"非常担忧",类比"思科时刻/互联网泡沫"。
看多方(非泡沫论)
- Jensen Huang(Nvidia,2026-02):效率提升将增加而非减少算力需求;称科技业 7000 亿美元 AI capex"只是更大事物的开端"。
- Larry Fink / BlackRock:真实盈利与利润增长使当下区别于互联网泡沫,称资本部署"花得其所(well spent)"。
- Howard Marks(Oaktree):估值"高,但不疯狂(high, but not crazy)"。
- 结构论据:超大规模厂商可用经营现金流覆盖 capex——Meta 2025 年 capex 720 亿、计划本年最高 1350 亿;Google 计划最高 1850 亿。强经营利润率与健康资本回报支撑其前倾式投资(Guinness Global Investors、Wikipedia《AI bubble》汇总各方)。
|
本报告对泡沫之争的中立判断 双方其实在回答两个不同问题。看空方质疑的是短期 ROI 与资产折旧会计("现在赚到钱了吗、利润是不是虚增");看多方押注的是长期算力需求曲线("需求会不会持续到填满产能")。两者可以同时成立:企业级 GenAI 当下兑现率确实偏低(MIT/Gartner),而长期算力需求确实可能巨大(黄仁勋)——危险不在"有没有价值",而在"估值是否已透支了尚未兑现的价值"。产品/商业团队的可操作结论是:把赌注下在"已能产生经营数据飞轮与续约"的真实用例上,而非"vibe revenue"。 |
6.4 未来 2–3 年情景推演(2026–2028)
综合各家预测,2026–2028 大概率是 Agent 从"试点"走向"经济基础设施"、同时经历一轮"洗牌出清"的两面过程。以 Gartner 的系列预测为主轴(注意其同时给出乐观与冷却两类信号):
表 6-3 关键预测与论断清单(2026–2028 及更远)
|
论断 / 预测 |
提出者 |
时点 |
出处 |
|
业务应用将在 Agent 时代"崩塌",逻辑迁入 AI 层 |
Satya Nadella(微软) |
2024-12 |
BG2 播客 |
|
真正机会是 4.6 万亿服务市场,非 2000 亿 SaaS |
Ashu Garg、Jaya Gupta(Foundation Capital) |
2025–26 |
foundationcapital.com |
|
95% 企业 GenAI 试点无可测财务回报 |
MIT NANDA |
2025-08 |
Fortune |
|
生成式 AI 处于"幻灭低谷",需 2–5 年爬出 |
Gartner |
2025 |
gartner.com |
|
>40% agentic AI 项目将于 2027 年底前取消 |
Gartner |
2025-06 |
gartner.com |
|
2026 年底 40% 企业应用集成任务型 Agent(2025 <5%) |
Gartner |
2025-08 |
gartner.com |
|
2028 年 33% 企业软件含 agentic AI(2024 <1%) |
Gartner |
2025 |
gartner.com |
|
2028 年 ≥15% 日常工作决策由 Agent 自主作出(2024 为 0) |
Gartner |
2025 |
gartner.com |
|
2028 年 90% B2B 采购由 Agent 中介,>15 万亿美元经 Agent 流转 |
Gartner |
2025-11 |
digitalcommerce360 |
|
AI agent 软件支出 2027 年达 3763 亿美元(2025 为 864 亿) |
Gartner |
2025 |
gartner.com |
|
上市 SaaS 中位收入倍数跌至 3.3×(2024 为 6.2×) |
Multiples.vc / SaaS Capital |
2026-Q1 |
multiples.vc |
|
AI 硬件折旧被低估约 1760 亿(2026–28),利润虚增 |
Michael Burry |
2025-12 |
thedeepdive.ca |
来源:见各行出处;Gartner 多篇新闻稿(2025–2026),含其预测的乐观与冷却两类信号
把这些预测合流,可勾勒三条情景主线:
- 渗透加速线:Agent 从 2025 年 <5% 企业应用渗透率,到 2026 年底 40%、2028 年 33% 的企业软件内嵌——Agent 成为软件默认形态。AI agent 软件支出三年从 864 亿增至 3763 亿美元。
- 洗牌出清线:>40% agentic 项目将在 2027 年底前因成本攀升、价值不清、风控不足被取消;"代理洗白(agent washing)"普遍,厂商夸大 agentic 能力。这与"渗透加速"并不矛盾——高渗透与高失败率同时发生,正是技术从炒作走向务实的典型特征。
- 经济重构线:到 2028 年 90% B2B 采购经 Agent 中介、>15 万亿美元经 Agent 交易所流转,≥15% 日常工作决策由 Agent 自主作出。这意味着竞争对象从"人类买家"变为"Agent 买家",GTM、定价与产品发现机制都需重写。Gartner 同时判断自主业务将在 2028–2029 年成为净增就业来源。
6.4.1 对软件行业结构的长期影响
- 市场重心迁移:价值从约 2000 亿 SaaS 工具市场转向 4.6 万亿服务/劳动力市场(Foundation Capital),垂直 AI 有望超越传统垂直 SaaS(Bessemer)。
- 整体盘子仍扩张:全球 SaaS 支出 2025→2029 由 3180 亿增至 5760 亿美元(IDC)——存量核心不消失但形态改变。
- 护城河迁移:从"功能"转向"实施深度 + 运营数据飞轮 + 续约";市场把软件清晰区分为"被增强"与"被替代"两类。
- 基础模型厂商上移:OpenAI/Anthropic 从基础设施转向产品层,挤压应用层初创的生存空间(Foundation Capital)。
6.5 全球 vs 中国:两条路径的研判
本章的所有判断在中国市场需要做一次"本地化折射"。全球(欧美)主线与中国路径在驱动力、监管逻辑与商业模式上存在系统性差异。
表 6-4 全球 vs 中国:趋势研判对照
|
维度 |
全球(欧美主线) |
中国路径 |
|
核心叙事 |
Service-as-Software,软件吃掉 4.6 万亿服务业 |
AI 提效拓市为主,颠覆存量为辅;信创国产化叠加 |
|
估值/资本 |
SaaSpocalypse 重定价 + AI 30–50% 溢价;泡沫之争激烈 |
国内 SaaS 量级约为美国 1/10、90%+ 厂商仍亏损,更重落地 |
|
监管逻辑 |
EU AI Act 风险分级 + 重罚(最高营收 7%) |
分类分级 + 内容安全 + 生成内容标识(显式 + 隐式) |
|
定价迁移 |
席位→用量→结果,按结果计费走向主流 |
价格战烈度更高,结果制渗透较慢,更依赖项目制交付 |
|
未来情景 |
Agent 经济、B2B 采购 Agent 化、洗牌出清并行 |
"人工智能+"政策强驱动,落地难与提效并存 |
来源:本报告综合 Foundation Capital、Gartner、IDC、EU AI Act、中央网信办及国内 SaaS 市场公开数据整理(详见正文与附录)
一句话研判:全球在用软件"吃掉服务业",中国更多在用 AI"提效与拓市"。两者并非优劣之分,而是市场结构(中国 SaaS 基数小、服务业数字化程度不同)、监管重心(内容安全优先)与产业政策(信创这一万亿级政策市场)共同塑造的不同路径。对出海或跨市场运营的团队,最大的风险是把"全球叙事"不加折射地套用到中国,反之亦然。
|
给产品/商业团队的要点 ① 估值已重定价:若产品仍以"席位 × 功能"为内核,资本市场已在惩罚这一模式(SaaS 倍数 6.2×→3.3×),而"被 AI 增强"获 30–50% 溢价——尽快把价值主张从"工具"迁向"结果"。② 盯住 4.6 万亿而非 2000 亿:真正的增量在服务/劳动力预算,把产品设计成"替客户交付结果"而非"给客户一件更聪明的工具";护城河押在实施深度与运营数据飞轮上。③ 定价迁移要主动:席位制正被结构性瓦解,向用量/结果制迁移,但需同步解决可计量性与收入可预测性(参考 Intercom $0.99/解决、混合定价成标准),并正视 Salesforce 仍守席位制的反例。④ 把风险当一等公民:复合错误(85%/步→10 步仅 20%)、OWASP LLM Top 10、EU AI Act(2026-08 执法、最高营收 7% 罚款)、中国内容标识(2025-09 强制)——可靠性与合规是 Service-as-Software 能否签单的前置门槛。⑤ 对泡沫保持清醒而非站队:企业级 GenAI 当下兑现率偏低(MIT 95%)与长期算力需求巨大(黄仁勋)可同时为真,把赌注下在能产生数据飞轮与续约的真实用例,而非 vibe revenue。⑥ 中国要做本地折射:勿把全球叙事直接套用——国内更重提效拓市与项目制落地,叠加信创政策市场与内容安全监管。 |
第 7 章 结论与行动建议
本报告的核心结论可以浓缩为一句话:软件的范式确实在被重写,但价值的兑现远比叙事曲折。 四个维度——开发、产品、商业、格局——正同步迁移,彼此强化;与此同时,信任悖论、落地鸿沟、毛利压力与泡沫争议,构成了同样真实的另一面。对产品与商业团队而言,正确的姿态不是 all-in 豪赌,也不是观望等待,而是在确定性的方向上,做有纪律的下注。本章给出面向三类角色的具体建议。
7.1 给产品团队的建议
- 把"交付结果"而非"提供工具"作为北极星。 重新审视你的产品:它是在帮用户更快地操作,还是在替用户把活干完?前者是 AI 增强(AI-enhanced),后者是 AI 原生(AI-native)。Foundation Capital 的判断很直接——奖品在 4.6 万亿美元的"服务"市场,而非 2000 亿美元的"工具"市场。
- 为概率性重新设计产品。 接受"输出不可完全复现"这一事实:在关键路径上引入人审(human-in-the-loop)、置信度提示、可回溯与可纠错机制;把 Evals(评测)、Guardrails(护栏)、可观测性当作与功能同等重要的一等公民,而非事后补丁。记住 DORA 的警告:个体提效不等于交付绩效,基本功(小批量、健全测试)不可替代。
- 用 Agent 重做工作流,而不是给老界面加个聊天框。 真正的机会在于端到端地接管一段工作流(客服解决、对账、排期、合规检查),而非在既有 GUI 旁边挂一个 copilot。CRM、客服、安全、BI 的"Agent 化重做"已验证这条路径。
- 正视可靠性的复合衰减。 即便每步 85% 可靠,10 步工作流端到端成功率仅约 20%。选择"容错成本低、可清晰升级人工"的场景切入(Klarna 的教训:复杂与情感工单仍需人)。
- 把"上下文工程"作为核心能力。 竞争的焦点正从"调一个好 prompt"转向"为 Agent 组织正确的上下文"——数据、记忆、工具、状态。这是新的产品护城河所在。
7.2 给商业 / GTM 团队的建议
- 主动重构定价,不要等席位被 Agent 蚀空。 席位制在 Agent 经济下是结构性暴露的负债。务实路径是混合定价:保留可预测的基础订阅,叠加用量 / 按结果的上行阶梯(Bessemer 框架)。参考 Intercom($0.99/解决)、Zendesk($1.50/AR)、Salesforce(Flex Credits)的实验。
- 把推理成本纳入每一笔定价测算。 AI 软件毛利 50–60%,远低于 SaaS 的 80–90%。在 $80 的席位上加 AI 功能可能让单座毛利从 80% 跌到 65%。设立"推理效率比"(Inference Efficiency Ratio)等新指标,把 token 成本当作 COGS 来经营。
- 警惕"续约时刻"。 2026 是大量"12 个月 0→1 亿美元 ARR"的 AI 公司首轮续约的"音乐停止"时刻——续约价必须反映已兑现的真实价值,而非当初的潜力。把可量化的结果(解决率、节省工时、转化提升)做成续约叙事。
- 重做获客(GTM)。 AI 应用经 PLG 进入的支出占比是传统 SaaS 的 4 倍(Menlo);"销售-交付融合"成为新常态——客户期望在签约前就用真实数据看到结果,POC 成本上升,"前向部署工程师"成为战略资产。
- 用"结果"讲估值故事。 资本市场已把软件切成"被增强"与"被替代"两类,真实 AI 能力带来 30–50% 溢价。商业叙事要能证明你在哪一边。
7.3 给企业决策者的建议
- 从后台自动化要 ROI,而非在销售/营销上撒钱。 MIT 报告指出 95% 企业 GenAI 试点未见可测回报,根因是资源错配——超半数预算投向前台,而后台自动化 ROI 最强。先在高频、可度量、容错的后台流程上跑通闭环。
- 买大于自建,但别被"代理洗白"迷惑。 76% 企业选择采购而非自建(Menlo)。但 Gartner 预测 40%+ 的 agentic 项目将在 2027 年底前被取消——采购时要穿透"agent washing",用真实场景验收可用性与可靠性。
- 把治理与合规前置。 EU AI Act 执法权 2026 年 8 月生效(违规最高罚全球营收 7%);中国《生成式 AI 管理办法》与《内容标识办法》已落地。安全上对照 OWASP LLM Top 10(提示注入、过度自主、系统提示泄露)建立防线。
- 为组织的"高杠杆化"做准备。 小团队 + AI 编排的产出模型正在重写人效基准(Cursor 约 50 人 20 亿美元 ARR)。这既是机会也是挑战:重投 AI Engineer 等新岗位,审慎对待初级岗位的结构性收缩与再培训。
7.4 全球与中国:两条路径的研判
表 7-1 全球 vs. 中国:AI 重写软件的路径差异
|
维度 |
全球(欧美主线) |
中国 |
|
模型路线 |
超大资本开支 + 闭源旗舰 |
低成本 + 开源(DeepSeek / Qwen),倒逼全球 |
|
商业土壤 |
SaaS 万亿美元、订阅成熟 |
SaaS 千亿元、90%+ 亏损、项目制痼疾 |
|
AI 定位 |
颠覆存量、重写商业模式 |
提效拓市为主,叠加信创国产化政策市场 |
|
价格竞争 |
相对理性,转向用量/结果 |
API 价格战极致(降幅 80%+),后现涨价回调 |
|
驱动力 |
资本与市场驱动 |
政策强驱动("人工智能+")+ 资本 |
来源:本报告综合整理(详见第 2–6 章中国对照小节)
|
结语:把不确定,当作要管理的对象 AI 没有让软件的经营变简单,它让软件变得更像"雇佣一位能力强但偶尔出错的同事"——你需要给它清晰的目标、可核验的产出、可控的权限和可升级的退路。赢家不会是喊得最响的"颠覆者",而是那些既敢在正确方向上重写产品与定价、又有纪律地管理概率性风险的团队。范式已经改变;剩下的,是执行的颗粒度。 |
附录
附录 A 关键厂商与产品速览
表 A-1 AI 时代代表性厂商 / 产品速览(按维度)
|
类别 |
厂商 / 产品 |
定位与关键数据(截至 2026 年初) |
|
AI 编程 |
GitHub Copilot |
用户 2000 万+,付费 470 万;coding agent 2025-09 GA |
|
AI 编程 |
Cursor(Anysphere) |
约 20 亿美元年化收入,估值 $29.3B;约 50 人团队 |
|
AI 编程 |
Claude Code(Anthropic) |
运行率收入 $2.5B+,半年破 $10 亿 |
|
AI 编程 |
Devin(Cognition) |
"自主 AI 软件工程师",估值 $10.2B→洽谈 $25B |
|
Prompt-to-app |
Lovable / Replit / v0 / Bolt |
Lovable 8 个月破 $100M ARR;Replit $253M ARR |
|
Agent 协议 |
MCP(Anthropic) |
2024-11 发布,OpenAI/Google/微软/AWS 集体采纳 |
|
CRM |
Salesforce Agentforce |
2024-09 发布,按对话/Flex Credits 计费 |
|
客服 Agent |
Sierra / Decagon / Intercom Fin |
Sierra ARR>$150M;Fin $0.99/解决 |
|
安全 |
CrowdStrike Charlotte AI |
2025 "Agentic SOC",7 个任务就绪 agent |
|
设计 |
Figma Make |
2025-05 发布,自然语言转可交互原型 |
|
办公 |
Microsoft 365 Copilot |
$30/用户/月;90%+ 财富 500 强使用 |
|
基础模型 |
OpenAI / Anthropic |
ARR $25B / 运行率 $14B;估值 $800B+ / $380B |
|
中国模型 |
DeepSeek / Qwen / 豆包 |
开源冲击;Qwen 占全球开源下载 50%+;豆包 MAU 2.27 亿 |
|
中国 Agent |
字节扣子 Coze |
2025-07 开源,开发者/智能体规模领先 |
|
中国软件 |
用友 / 金蝶 |
YonGPT 2.0;金蝶按结果计费、EMAI |
来源:本报告综合各公司官方与媒体报道整理;财务多为年化运行率或媒体估算口径
附录 B 术语表
表 B-1 关键术语
|
术语 |
释义 |
|
LLM-native |
以大语言模型为核心重新设计的应用,区别于在传统软件上叠加 AI 功能 |
|
Agent / 智能体 |
能自主规划、调用工具、采取行动以完成目标的 AI 系统 |
|
RAG |
检索增强生成:先检索外部知识再让模型生成,缓解幻觉、引入实时知识 |
|
MCP |
Model Context Protocol,Anthropic 提出的"Agent 连接数据与工具"开放标准 |
|
Vibe coding |
Karpathy 2025 提出,指放手让 AI 按自然语言意图生成代码的编程方式 |
|
Outcome-based pricing |
按结果计费:按"解决一张工单""完成一次任务"等可度量结果收费 |
|
Per-seat pricing |
按席位计费:按使用软件的命名用户数订阅收费 |
|
NRR / NDR |
净收入留存率:衡量存量客户收入的扩张/流失,SaaS 核心健康指标 |
|
Evals |
对 AI 系统输出质量的系统化评测,常用 LLM-as-a-judge |
|
Guardrails |
约束 AI 行为的护栏,防提示注入、越权、不当输出 |
|
Service-as-Software |
服务即软件:AI 用软件直接交付原本由人提供的服务(法律、客服、会计等) |
|
Context engineering |
上下文工程:为 Agent 组织数据/记忆/工具/状态,prompt 工程的演进 |
|
信创 |
信息技术应用创新:中国 IT 基础软硬件国产化替代的政策性市场 |
来源:本报告整理
附录 C 主要信源清单
本报告基于 180+ 次网络检索与多源交叉验证,下列为各维度的代表性一手与权威信源(非全部)。完整数据点的来源已在正文与各表/图下方逐处标注。
权威调研与数据机构
- Menlo Ventures — 2025: The State of Generative AI in the Enterprise
- McKinsey — The State of AI 2025
- Stack Overflow — 2025 Developer Survey: AI
- Bessemer Venture Partners — The State of AI 2025 / Cloud 100 Benchmarks
- GitHub — Octoverse 2025
- Gartner / IDC — AI 支出与 agentic AI 预测(多篇新闻稿,详见正文标注)
- PitchBook / Crunchbase — 2025 年 AI 风投数据(Crunchbase)
开发范式
- GitHub — Copilot 生产力 RCT 研究
- Google Cloud — 2024 DORA Report
- Andrej Karpathy — "vibe coding" 原帖
- GitClear — AI Copilot Code Quality 2025 研究
产品形态与技术架构
- Anthropic — Introducing the Model Context Protocol
- Anthropic — How we built our multi-agent research system
- Salesforce — Agentforce 发布公告
- Figma — Config 2025 Recap
商业模式与定价
- Bessemer — The AI Pricing and Monetization Playbook
- Sierra — Outcome-based pricing for AI Agents
- Intercom — Fin AI Agent Pricing
- The Pragmatic Engineer — Klarna's AI chatbot: how revolutionary is it, really?
- Bain — Will Agentic AI Disrupt SaaS?
行业格局、组织与人才
- Foundation Capital — The $4.6T Service-as-Software opportunity
- Latent Space — The Rise of the AI Engineer
- Stanford Digital Economy Lab — Canaries in the Coal Mine?(初级岗位研究,2025-11)
- Fortune — Big AI acqui-hire 反垄断报道
趋势与风险
- MIT NANDA — The GenAI Divide(Fortune 报道)
- Gartner — Hype Cycle for Generative AI
- OWASP — LLM Top 10 (2025)
- EU AI Act — 实施时间表
- TechCrunch — SaaS in, SaaS out: the SaaSpocalypse
中国市场
- DeepSeek — V3 Technical Report
- 新华网 — 《关于深入实施"人工智能+"行动的意见》
- 华尔街见闻 — 深扒 17 家厂商大模型定价
- 第一财经 / 21 世纪经济报道 — 中国 SaaS 与六小虎年度盘点(详见正文标注)
附录 D 大事记时间线(扩展)
表 D-1 生成式 AI 重写软件范式:扩展大事记
|
时间 |
事件 |
|
2022.11 |
OpenAI 发布 ChatGPT,五天破百万用户 |
|
2023.03 |
GPT-4 发布;Salesforce 推 Einstein GPT;GitHub 预览 Copilot X |
|
2023.06 |
swyx 发表《The Rise of the AI Engineer》 |
|
2024.02 |
Klarna 上线 AI 客服,首月处理 230 万次对话 |
|
2024.03 |
Cognition 发布 Devin,SWE-bench 自报 13.86%;微软招募 Inflection 团队 |
|
2024.05 |
DeepSeek-V2 引爆中国大模型 API 价格战(输入 1 元/百万 token) |
|
2024.09 |
Salesforce 发布 Agentforce;Amazon 招募 Adept/Covariant 团队 |
|
2024.11 |
Anthropic 发布 MCP;Zendesk 转向按结果计费 |
|
2024.12 |
纳德拉 BG2 播客称业务应用将"崩塌";DeepSeek-V3 发布 |
|
2025.01 |
DeepSeek-R1 引发全球震动;字节 Trae 上线 |
|
2025.02 |
Karpathy 提出 "vibe coding"(后入选 Collins 年度词汇) |
|
2025.05 |
OpenAI 重新发布 Codex 为云端自主编码 agent;Agentforce Flex Credits |
|
2025.06 |
Meta 约 143 亿美元投资 Scale AI |
|
2025.07 |
Windsurf "72 小时三方拆分"(OpenAI/Google/Cognition) |
|
2025.08 |
中国《"人工智能+"行动意见》印发;MIT 发布"95% 试点未见回报" |
|
2025.09 |
GitHub Copilot coding agent 全面可用(GA) |
|
2025.11 |
Sierra ARR 破 $100M(成立不到两年) |
|
2026.02 |
Anthropic $30B Series G、$380B 估值;软件股 "SaaSpocalypse" 抛售 |
|
2026.03 |
上市 SaaS EV/收入中位倍数跌至约 3.3×;Cursor 年化收入约 $2B |
来源:本报告综合各公司官方公告与权威媒体报道整理
— 报告正文完 —
更多推荐



所有评论(0)