TCO 成本测算:训练与推理的完整成本模型

《大模型知识与部署》系列 · No.25 / 35(工程实践篇收官)
适合人群:AI 工程师、技术决策者、CFO
阅读时间:约 25 分钟


在这里插入图片描述

写在前面

前面 24 篇我们走完了"技术"——从架构、训练、推理优化、部署到工程实践。这一篇要把所有技术决策翻译成同一个语言

钱。

为什么这个话题这么重要?

✓ CFO 看的是 TCO,不是 FLOPS
✓ 老板批不批预算看 ROI
✓ 选自部署还是 API 看月度账单临界点
✓ 团队规划看 18 个月预算
✓ 投资人估值看单位成本下降曲线

读完本文你将能:

  1. 算清训练一个 70B 模型要多少钱
  2. 算清推理 1M token 的真实成本
  3. 决策自部署 vs API(什么时候反超)
  4. 优化任何业务的 TCO 30-50%

我们开始。


一、TCO 的定义与误区

1.1 什么是 TCO

TCO(Total Cost of Ownership,总拥有成本) = 一项资产从获得到淘汰整个生命周期的所有成本之和。

对大模型来说:

TCO = 硬件采购 + 折旧 + 电力 + 网络 + 运维 + 软件 + 人力 + 机会成本

很多团队只算前两项,严重低估真实 TCO——这就是为什么"看起来便宜"的方案上线后处处花钱。

1.2 大模型 TCO 三大误区

误区 1:只算 GPU 单价
错误:8 张 H100 × 25 万 = 200 万
真实:服务器整机 350 万,电费 + 机房 100 万/年,运维 80 万/年

实际 TCO 是单价的 3-5 倍

误区 2:忽视利用率
A 方案:买 16 卡,利用率 50% → 等效 8 卡
B 方案:买 8 卡,利用率 90% → 等效 7.2 卡

B 方案 TCO 远低于 A,但效果差不多。
误区 3:忽视时间成本
方案 A:自建训练集群,6 个月跑出模型
方案 B:用云租赁,2 个月跑出模型

B 多花 50% 硬件费,但提前 4 个月上线 → 业务收益 >> 硬件多花的钱

时间也是钱——尤其在大模型快速演进的当下。


二、训练 TCO:从一个真实案例开始

2.1 DeepSeek V3 训练成本拆解

DeepSeek V3 公开的 557 万美元 是怎么算的?

训练规模:14.8T tokens
模型规模:671B 总参数 / 37B 激活
GPU 资源:2.79M H800·小时

成本明细:
  H800 租赁单价:$2/小时
  总成本:2.79M × $2 = $5.58M ✓

但这是"狭义训练成本"。完整 TCO 还包括:

项目 金额(估算)
算力(GPU·小时) $5.58M
数据采集与清洗 $1-2M
实验与失败成本 $2-5M(多次失败重训)
工程师团队(200 人 × 18 月) $30-50M
基础设施(机房、网络) $5M
完整 TCO $50-100M+

核心认知

媒体报道的"几百万美元训练成本"是冰山一角。

2.2 训练成本公式

对工程师来说,简化估算公式:

训练成本 ≈ 6 × N × D / GPU_FLOPS × 利用率 × 时薪

N:模型参数量
D:训练数据 tokens
GPU_FLOPS:硬件 FP16 算力
利用率:实际 MFU(Model FLOPS Utilization)通常 40-50%
时薪:GPU 小时单价
实操:训练 70B 模型多少钱

设定:

  • N = 70B
  • D = 14T tokens(Chinchilla 200×)
  • H100 SXM:989 TFLOPS
  • MFU = 45%
  • 自购成本 ¥1/小时(按 3 年折旧 + 电费)
总 FLOPS = 6 × 70 × 10⁹ × 14 × 10¹² = 5.88 × 10²⁴ = 5.88 ZFLOPS
有效算力 = 989 × 10¹² × 0.45 = 445 × 10¹² FLOPS/秒

需要 GPU·秒 = 5.88 × 10²⁴ / 445 × 10¹² = 1.32 × 10¹⁰ 秒
转换 GPU·小时 = 3.67M GPU·小时

成本(自购)= 3.67M × ¥1/小时 = ¥3.67M
成本(云租)= 3.67M × ¥14/小时 = ¥51M

真实参考

  • Llama 3-70B 官方 ≈ 6.4M H100·小时(数据多了一倍,所以略高)
  • DeepSeek V3 671B / 37B 激活 ≈ 2.79M(因为只算激活参数)

2.3 训练 TCO 优化策略

策略 1:用 MoE 降算力

DeepSeek V3 671B 总参数 / 37B 激活——训练算力按 37B 算,节省 90%

策略 2:用 FP8 训练

DeepSeek V3 用 FP8 训练,比 BF16 节省 30-50% 算力

策略 3:合成数据 + 精炼

Phi 系列用 GPT-4 合成"教科书"数据,3.8B 干掉 70B——用算法智慧替代算力

策略 4:Continued Pretraining 而非 from scratch

不要"从零训",在开源底座上继续训:

从零训 70B:~¥3.7M
Continued pretrain 70B(5% tokens):~¥185K

成本降 20×


三、推理 TCO:业务的"持续支出"

3.1 推理成本拆解

推理 TCO = 硬件折旧 + 电力 + 网络 + 运维 + 软件 + 人力

8 卡 H100 服务器(自购)3 年 TCO 为例:

金额 月均
服务器采购 ¥2.5M ¥69K(3 年折旧)
电费 5.6 kW × 24 × 30 × ¥1.0 ¥4K
机房(机架、网络) ¥3K/月 ¥3K
运维 SRE 摊销 ¥10K
软件 / License ¥2K
月度 TCO ~¥88K

3 年 TCO 总计:~¥3.16M。

3.2 每 1M token 真实成本

假设这台服务器跑 Llama-3-70B(FP8):

  • 单卡吞吐:~400 tokens/s(含 prefill + decode 混合)
  • 8 卡集群吞吐:~3000 tokens/s(考虑通信开销)
  • 月可处理 tokens = 3000 × 86400 × 30 × 0.7(利用率)= 5.4 × 10⁹
每 1M token 成本 = ¥88K / 5400 = ¥16.3

对照主流 API(2026 中):

服务 输出价格(每 1M token)
Claude Opus 4.7 ¥538($75 → 含税 ¥538)
GPT-5 ¥287($40)
Claude Sonnet 4.6 ¥108($15)
Gemini 2.5 Pro ¥72($10)
Qwen3 API ¥8(¥1.1 输入 + 输出加价)
自部署 Llama-3-70B ¥16.3
DeepSeek-V3 API ¥8(¥0.27 输入 + ¥1.1 输出)

关键洞察

  • 自部署比 Claude / GPT 便宜 10-30×
  • 但比 DeepSeek / Qwen 国产 API 贵 2×

这是当下 2026 年最重要的成本认知。

3.3 推理 TCO 优化策略

策略 1:量化压缩
  • FP16 → INT8:吞吐 +50%、显存减半
  • FP16 → INT4:吞吐 +120%、显存减 75%

直接效果:单 token 成本降 50-70%。

策略 2:高 batch 利用率
单序列:单卡 ~50 tokens/s
batch=64:单卡 ~2000 tokens/s

单 token 成本降 40×——这就是为什么 Continuous Batching 这么重要。

策略 3:模型分级
  • 简单查询 → 7B 模型(成本 1/10)
  • 复杂任务 → 70B 模型
  • 极难任务 → Claude / GPT API

混合后整体成本下降 60-80%。

策略 4:Prefix Caching

对 RAG / Multi-turn 场景,重复 prefix 不算钱

  • OpenAI 的 prompt caching:50% 折扣
  • Anthropic 的 prompt caching:90% 折扣
  • 自部署:免费且彻底
策略 5:Off-peak 调度

非高峰跑批量任务(如离线总结),错峰利用闲置 GPU:

高峰:50% 容量在线服务
低峰:剩余 50% 跑离线任务
利用率从 50% → 90%

四、自部署 vs API:临界点分析

4.1 决策模型

月度 API 账单 = 调用量 × 单价
月度自部署 TCO = 固定(GPU 折旧 + 运维)

临界点:月 API 账单 = 月 TCO
        调用量 = TCO / API 单价

4.2 实操案例

场景:要做一个客服助手,需要 Claude Sonnet 级别能力。

方案 A:用 Claude Sonnet API
  • 单价:¥108 / 1M output token
  • 假设月均生成 1B token
  • 月费:¥108K
方案 B:自部署 Llama-3-70B FP8(同级能力)
  • 8 卡 H100 服务器,月度 TCO:¥88K
  • 容量:5.4B token/月

结论

  • 月调用 < 800M token:API 划算
  • 月调用 800M-5B token:自部署划算
  • 月调用 > 5B token:自部署 + 扩容
不同 API 的临界点
服务 反超月 token
Claude Opus ~160M
GPT-5 ~300M
Claude Sonnet ~800M
Gemini Flash 永远不反超(太便宜了)
DeepSeek V3 API 永远不反超(更便宜)

4.3 决策矩阵

业务规模 数据合规要求 推荐
月费 < ¥30K 用 Claude / GPT API
月费 < ¥30K 严格 用国产 API
月费 ¥30K-¥100K 用 DeepSeek / Qwen API(最划算)
月费 ¥30K-¥100K 严格 单 H100 自部署
月费 > ¥100K 混合:闭源 API + 自部署
月费 > ¥100K 严格 全自部署 + 国产卡(合规)

4.4 不要忽视隐藏成本

自部署除了 TCO 还有:

  • 运维责任:服务挂了你修,不是云厂商
  • 升级成本:模型版本迭代你要跟
  • 冷启动慢:从订机柜到上线 1-3 个月
  • 机会成本:现金占用大笔预算

API 模式则有

  • 不可控延迟:API 厂商抽风没办法
  • 数据出域:合规风险
  • 政策变化:定价可能上涨

4.5 实战:混合策略最实用

业界做得好的团队都用分层混合

↑ 高复杂 / 重要请求 → Claude Opus / GPT-5(贵但好)
│ 中等任务         → 自部署 Llama-3-70B
│ 大量普通任务     → 自部署 Qwen3-32B
↓ 简单分类         → Qwen3-1.7B(端侧)

成本:高复杂 5% × 贵 + 中等 30% × 中 + 普通 65% × 廉

实测能把总成本压到纯 API 方案的 20-30%


五、训练 + 推理生命周期 TCO

5.1 一个完整的大模型业务 18 个月成本

设定:

  • 团队 30 人 AI 工程师
  • 自研垂直模型(基于 Llama-3-70B + 持续微调)
  • 业务量:3 亿 MAU / 日均 2 亿次调用
阶段 时间 成本
筹备(招人、买设备) 1-3 月 ¥10M(设备 ¥7M + 人力 ¥3M)
数据准备 + 训练(含 5 次失败) 4-9 月 ¥8M(GPU 租赁 ¥3M + 人力 ¥5M)
微调与对齐 10-12 月 ¥3M
推理上线 12 月+ ¥3M/月(4 套 8 卡 H100 + 运维)
持续迭代 13-18 月 ¥18M(持续微调 + 推理扩容)
完整 18 月 TCO ~¥42M

5.2 ROI 视角

月收入(来自 AI 业务):¥3M
月运营成本(推理 + 团队):¥4M
回本周期:约 24 个月(需要持续优化)

这就是为什么大模型业务前 1-2 年都很难赚钱——基础设施投入太重。

5.3 成本下降曲线(行业趋势)

2023-2026 推理成本下降速度:

2023:GPT-3.5 ¥21 / 1M output token
2024:GPT-4o ¥36 / 1M output token (能力升级)
2025:DeepSeek V3 ¥8 / 1M output token
2026:Qwen3 / DeepSeek 维持 ¥8 / 1M

单位智能价格每年下降 50%+。规划时一定要考虑这条曲线。


六、成本优化 Playbook

6.1 训练阶段

优化 收益
用开源底座 + Continued Pretraining 节省 95%
用 MoE 而不是 Dense 节省 60-80%
FP8 训练 节省 30-50%
数据精炼(Phi 路线) 节省 50-90%
用国产卡训练 节省 30-40%
训练后蒸馏 → 小模型推理 推理成本节省 80%

6.2 推理阶段

优化 收益
FP8 / INT4 量化 节省 40-70%
高 batch(Continuous Batching) 节省 60-90%
Prefix Caching 节省 30-50%(RAG 场景)
分级模型路由 节省 60-80%
投机解码 节省 30-50%(单序列场景)
Off-peak 调度 节省 30-50%
国产 API 替代 节省 80-90%(vs Claude/GPT)

6.3 整体架构

↑ 闭源 API(关键 / 复杂场景,5-10% 流量)
│
│ 自部署大模型(重要场景,20-30% 流量)
│
│ 自部署中模型(主力,40-50% 流量)
│
↓ 自部署小模型(简单任务,20-30% 流量)

这是 2026 年最实用的成本架构。

6.4 监控与归因

工业团队需要成本看板

按业务线:哪个业务花得最多?
按模型:哪个模型用得最多?
按时间:高峰 vs 低峰
按用户:哪个 API key 最贵

LiteLLM Admin UI(第 19 篇讲过)直接支持。也可以自研接 BI 看板。


七、扩展 + 系列预告

7.1 长期成本的判断

未来 2-3 年的成本变化预判:

  • 训练成本:年降 30-50%(架构 + 硬件)
  • 推理成本:年降 50-70%(量化 + 优化 + 硬件)
  • GPU 价格:H100 → B200 → B300 → … 性能 / 价比每代提升 2-3×
  • 小模型崛起:3-7B 模型能力快速接近 70B → 推理成本骤降

对工程团队的启示

  1. 不要现在就锁死多年硬件 —— 灵活租赁 + 渐进自购
  2. 始终关注国产 + 开源进展 —— 替换闭源的窗口期来得快
  3. 长期投资在数据 + 工程化 —— 这两个不会被硬件迭代抹除

7.2 系列预告

工程实践篇(第 21-25 篇)正式收官!

回顾这 5 篇:

篇号 主题
21 GPU 选型指南
22 集群运维
23 模型权重管理
24 显存优化实战
25 TCO 成本测算

至此,前 25 篇覆盖了从认知 → 训练 → 推理 → 部署 → 工程实践的完整链路——你已经具备做一家大模型公司的全部技术能力。

接下来进入应用生态篇(第 26-30 篇)——把模型变成产品:

  • 第 26 篇:RAG 实战 - 从向量数据库到 GraphRAG
  • 第 27 篇:Function Calling / Tool Use
  • 第 28 篇:Agent 框架对比
  • 第 29 篇:多模态部署
  • 第 30 篇:Prompt 工程方法论

之后是前沿与思考篇(第 31-35 篇)——MoE / 推理模型 / 端侧 / 开源 vs 闭源 / 安全。

我们下篇见。


结语:技术决策最终都是钱的决策

读完本文你应该明白:

  • TCO 不只是 GPU 单价——人力、机房、运维、机会成本都要算
  • 训练成本远高于"算力"那一项——失败、迭代、数据是大头
  • 推理成本随业务量持续累积——很快超过训练
  • 自部署反超 API 的临界点:月费 ¥30K-100K
  • 混合架构成本最优:闭源 API + 自部署多档模型
  • 单位 token 价格年降 50%+——规划要预留下降空间

工程实践篇(第 21-25 篇)正式收官前 25 篇完成 71.4% 的系列!

下一篇我们继续:

  • 第 26 篇:RAG 实战 - 从向量数据库到 GraphRAG —— 把模型变成"懂业务知识"的应用,RAG 是最重要的方法之一。

我们下篇见。


📮 关于「码海寻道」
这里是一个聚焦 AI 工程化、大模型部署、后端架构实战的技术专栏。
写最一线的踩坑经验,做最务实的技术拆解。

如果这篇文章对你有启发,欢迎点赞、转发、关注。我们下篇见。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐