【模型架构篇06】GPT系列架构演进：从GPT-1到GPT-5

weixin_54908067

157人浏览 · 2026-06-10 14:16:58

weixin_54908067 · 2026-06-10 14:16:58 发布

🧠 GPT系列架构演进：从GPT-1到GPT-5

一句话速览：从1.17亿参数到万亿级模型，从简单文本生成到推理时思考——GPT系列五年间的架构演进，就是一部现代AI的进化史。本文完整梳理GPT-1到GPT-5每一代的架构设计、创新突破和关键参数。

📑 目录

为什么GPT系列如此重要？
GPT-1：生成式预训练的起点（2018.06）
GPT-2：规模就是力量（2019.02）
GPT-3：1750亿参数的震撼（2020.05）
GPT-3.5 / InstructGPT：RLHF对齐革命（2022）
ChatGPT：对话范式的诞生（2022.11）
GPT-4：多模态MoE时代（2023.03）
GPT-4o：全能多模态（2024.05）
o1 / o3：推理时Scaling Law（2024-2025）
GPT-4.1：百万上下文编程旗舰（2025.04）
GPT-5：统一推理模型（2025.08）
架构对比全景表
核心技术深度解析
总结与展望

🌟 为什么GPT系列如此重要？

GPT系列不仅是OpenAI的产品线，更是整个AI大模型行业的"教科书"：

开创了"预训练 + 微调"范式——改变了整个NLP领域的游戏规则
证明了Scaling Law的有效性——GPT-3告诉世界：模型越大，能力越强
ChatGPT引爆了AI大众化——让大模型从实验室走向普通用户
o1/o3开创了推理时计算新范式——打开了Scaling Law的第二增长曲线
GPT-5统一了推理与非推理模型——标志着AI架构走向"自适应智能"

💡 面试加分点：GPT系列的每个版本都对应一个重要的技术里程碑：GPT-1 = 预训练范式，GPT-3 = Scaling Law，ChatGPT = RLHF对齐，GPT-4 = MoE多模态，o1 = 推理时Scaling Law，GPT-5 = 统一推理。理解这些里程碑，就理解了AI大模型5年的发展脉络。

1️⃣ GPT-1：生成式预训练的起点（2018.06）

核心创新：预训练 + 微调

在GPT-1之前，NLP任务需要为每个任务从头训练模型。GPT-1首次证明了：在一个大规模无标签语料库上预训练语言模型，然后在特定任务上微调，可以大幅超越从头训练的模型。

架构规格

参数	数值
参数量	117M（1.17亿）
层数	12层
隐层维度	768
注意力头	12头
词汇表	~40K
训练数据	BookCorpus（约7000本未出版书籍）
架构	仅有解码器的Transformer（Decoder-only）

架构特点

GPT-1采用了**仅有解码器（Decoder-only）**的Transformer架构，这是与BERT（Encoder-only）最根本的区别：

自回归生成：每个token只能关注其左侧的token（因果掩码）
单向注意力：训练目标是预测下一个token
零样本文本生成：可以无条件生成连贯文本

GPT-1架构示意：

输入: [CLS] The cat sat on the
                          ↓
[Token Embedding] + [Positional Embedding]
                          ↓
              [12× Transformer Decoder Block]
               ┌─────────────────────────┐
               │  Masked Self-Attention  │
               │     Feed-Forward        │
               └─────────────────────────┘
                          ↓
              [Linear + Softmax]
                          ↓
输出: [预测下一个token的概率分布]

关键代码：因果掩码

import torch
import torch.nn as nn

class CausalSelfAttention(nn.Module):
    """GPT风格的单向注意力（因果掩码）"""
    def __init__(self, d_model, n_heads):
        super().__init__()
        self.n_heads = n_heads
        self.d_head = d_model // n_heads
        
        self.qkv = nn.Linear(d_model, 3 * d_model)
        self.proj = nn.Linear(d_model, d_model)
        
    def forward(self, x):
        B, L, D = x.shape
        qkv = self.qkv(x).reshape(B, L, 3, self.n_heads, self.d_head)
        q, k, v = qkv[:, :, 0], qkv[:, :, 1], qkv[:, :, 2]
        
        # 因果掩码——GPT的核心！
        mask = torch.triu(torch.ones(L, L, device=x.device), diagonal=1).bool()
        
        attn = (q @ k.transpose(-2, -1)) / (self.d_head ** 0.5)
        attn = attn.masked_fill(mask, float('-inf'))
        attn = torch.softmax(attn, dim=-1)
        
        out = (attn @ v).transpose(1, 2).reshape(B, L, D)
        return self.proj(out)

实验结果

GPT-1在当时12个NLP任务中的9个上取得了SOTA，证明了预训练范式的有效性。但它的局限也很明显：参数量相对较小（117M），且需要微调才能适应下游任务。

2️⃣ GPT-2：规模就是力量（2019.02）

核心创新：零样本学习

GPT-2证明了：随着模型规模的扩大，语言模型可以不经过微调就学会执行多种NLP任务。这就是"零样本"（zero-shot）能力的首次展现。

架构规格

模型变体	层数	隐层维度	注意力头	参数量
GPT-2 Small	12	768	12	117M
GPT-2 Medium	24	1024	16	345M
GPT-2 Large	36	1280	20	774M
GPT-2 XL	48	1600	25	1.5B

主要改进

层归一化移至输入（Pre-Norm）：GPT-2将LayerNorm从残差连接之后移到之前，这是后来Pre-Norm架构的雏形
词汇表扩大至50K：使用Byte-Pair Encoding（BPE）
更多训练数据：WebText数据集，来自Reddit高赞链接的网页内容，约800万文档

争议事件

GPT-2发布时，OpenAI以"担心被滥用"为由，推迟了完整1.5B模型的发布，引发了学术界关于AI开源透明度的广泛讨论。最终在2019年11月才完整开源。

3️⃣ GPT-3：1750亿参数的震撼（2020.05）

核心创新：In-Context Learning（上下文学习）

GPT-3将规模推到了前所未有的1750亿参数，并首次展示了**上下文学习（In-Context Learning, ICL）**能力——仅通过提示中的几个示例，模型就能执行新任务，无需任何梯度更新。

架构规格

参数	数值
参数量	175B（GPT-2的117倍）
层数	96层
隐层维度	12,288
注意力头	96头（每头128维）
FFN中间维度	49,152
词汇表	50,257（BPE）
上下文长度	2,048 tokens
训练数据	~570GB文本（CommonCrawl, WebText2, Books, Wikipedia等)
训练算力	3,640 Petaflop/s-days
训练成本	~460万美元

架构特点

GPT-3采用了与GPT-2相同的Decoder-only Transformer基本架构，但包含了一些关键变化：

Sparse Transformer注意力模式：在前96层中使用了密集注意力，在后96层中使用了稀疏注意力
交替Dense/Sparse注意力层：

Layer 1:  密集注意力
Layer 2:  稀疏注意力
Layer 3:  密集注意力
Layer 4:  稀疏注意力
...

相同的Pre-Norm架构：延续GPT-2的层归一化位置

上下文学习能力

GPT-3展示了三种级别的任务适应能力：

能力	描述	示例
Zero-shot	仅用自然语言指令	“翻译成中文：Hello world”
One-shot	1个示例 + 指令	“英语→中文：Hello→你好\n翻译：Good morning→”
Few-shot	多个示例 + 指令	提供3-5个翻译示例后再给新句子

💡 面试加分点：GPT-3的In-Context Learning能力意味着大模型是一个"元学习器"——它不是在推理时学习，而是在预训练阶段就已经学到了"如何根据示例完成任务"的能力。few-shot prompt的作用是激活预训练中已经编码的模式。

4️⃣ GPT-3.5 / InstructGPT：RLHF对齐革命（2022）

核心创新：人类反馈强化学习（RLHF）

GPT-3虽然强大，但生成的文本可能有害、虚假或有偏见。InstructGPT / GPT-3.5引入RLHF技术，让模型与人类偏好对齐。

RLHF三步流程

Step 1: SFT（监督微调）
  人工标注员编写高质量的提示-回答对
  → 在GPT-3上微调得到SFT模型

Step 2: RM训练（奖励模型）
  对同一提示生成多个回答，人工排序
  → 训练一个奖励模型(RM)预测人类偏好

Step 3: RL优化（PPO）
  用奖励模型作为反馈信号
  → 使用PPO算法优化SFT模型

关键数据

1.3B参数的奖励模型就能有效评估175B模型的输出质量
SFT使用了约14K标注数据，RM使用了约33K偏好数据
相比GPT-3（175B），1.3B的InstructGPT在85%的情况下更受人类偏好

技术启示

RLHF的贡献超越了GPT-3.5本身：

对齐税（Alignment Tax）：RLHF会轻微降低模型在某些任务上的性能，但大幅提升有用性和安全性
规模不是一切：更小但经过对齐的模型可以比更大但未对齐的模型更受欢迎
奖励黑客问题：模型可能学会"取悦"奖励模型而非真正理解用户意图

5️⃣ ChatGPT：对话范式的诞生（2022.11）

ChatGPT本质上是GPT-3.5的对话优化版本，在InstructGPT的基础上进一步针对多轮对话进行了微调。

架构差异

特性	GPT-3	GPT-3.5 / ChatGPT
架构	Decoder-only	Decoder-only
参数量	175B	~175B（推测）
训练数据	570GB	更大规模、更多代码数据
上下文	2K	4K
对齐	❌	✅ RLHF + 对话数据
对话格式	❌	✅ ChatML格式
代码数据	少量	大量增加

技术革新

ChatML格式：使用特殊token标记对话的不同角色

<s><|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
Hello!<|im_end|>
<|im_start|>assistant
Hi! How can I help you?<|im_end|>

代码数据增强：在训练数据中混入大量代码，提升了推理和逻辑能力
多轮对话训练：使用真实对话数据进行微调

6️⃣ GPT-4：多模态MoE时代（2023.03）

核心创新：多模态理解 + MoE架构

GPT-4是GPT系列在架构层面的最大一次升级。它首次支持图像输入（多模态）并采用了**混合专家模型（MoE）**架构。

架构（据公开分析）

虽然OpenAI未公布GPT-4的技术细节，但来自SemiAnalysis的深度分析等渠道透露了可信的架构信息：

参数	数值（推测）
总参数	~1.8T（1.8万亿）
激活参数	~280B
架构	MoE（8个专家）
层数	~120层
上下文	8K（GPT-4）, 32K（GPT-4-32K）, 128K（GPT-4 Turbo）
训练数据	~13T tokens
训练成本	~6300万美元
多模态	✅ 图像输入 + 文本理解

MoE架构细节

GPT-4的MoE架构（推测）:

[输入 Token]
     ↓
[注意力层] ← 前120层共用，密集计算
     ↓
[MoE FFN层] ← 每层含8个专家
     ├── Expert 1
     ├── Expert 2
     ├── Expert 3
     ├── Expert 4
     ├── Expert 5
     ├── Expert 6
     ├── Expert 7
     └── Expert 8
     ↓ (每次激活Top-2专家)
[输出 Token]

关键技术点:
- 16个FFN层中有8层是MoE层（交替使用密集FFN和MoE FFN）
- 每次激活2个专家（Top-2 routing）
- 每个专家的参数量约为111B（共8个专家 = 888B）
- 加上注意力等模块，总参数量约1.8T

GPT-4 Turbo（2023.11）

特性	GPT-4	GPT-4 Turbo
上下文	8K/32K	128K
知识截止	2021.09	2023.04
定价	$30/$60 per MTok	$10/$30 per MTok（降价3倍）
JSON模式	❌	✅
Function Calling	❌	✅ 增强
可重复输出	❌	✅ seed参数

7️⃣ GPT-4o：全能多模态（2024.05）

核心创新：Omni全能模型

GPT-4o（"o"代表"omni"全能）是OpenAI首个原生多模态输入 + 输出的模型：

输入：文本、图像、音频
输出：文本、图像（DALL-E集成）、音频
单一模型：不是多模型拼装，而是端到端训练的统一模型

架构特点

不同于GPT-4（多模态是通过外挂视觉编码器实现），GPT-4o采用了真正的端到端多模态训练：

GPT-4o架构示意：

[文本] [图像] [音频]
   |     |     |
   ↓     ↓     ↓
   └─────┼─────┘
         ↓
    统一编码器（共享embedding空间）
         ↓
    共享Transformer主干（端到端训练）
         ↓
    ┌────┴────┐
    ↓         ↓
  [文本]    [图像/音频]
  输出       输出

关键特性

超低延迟：音频响应延迟低至232ms（平均320ms），接近人类对话速度
视觉理解大幅提升：超越了GPT-4在视觉任务上的表现
免费开放：ChatGPT免费用户也能使用GPT-4o级别模型

8️⃣ o1 / o3：推理时Scaling Law（2024-2025）

核心创新：推理时间计算 = 新的Scaling Law

o系列是OpenAI在推理能力上的重大突破，其核心理念是：

训练时Scaling Law（GPT系列）： 让模型更大 → 性能更好
推理时Scaling Law（o系列）： 让模型多想一会儿 → 性能更好

o1（2024.09）

使用**思考链（Chain-of-Thought）**作为内部推理过程
在回答前会生成一系列内部"思考token"
在MATH、编程竞赛等复杂推理任务上大幅超越GPT-4
AIME数学竞赛：GPT-4o ≈ 12%，o1 ≈ 83%

o3（2025.02）

o3在o1基础上进一步增强推理能力：

o3的推理时计算:

输入问题
    ↓
[生成多条推理路径]
    ↓
[自我验证与反思]
    ↓
[选择最优答案]
    ↓
输出

可调节的推理深度（reasoning_effort）:
- low: 快速回答，简单问题
- medium: 平衡速度与深度
- high: 充分推理，复杂问题

推理时Scaling Law

o1/o3的核心价值在于证明了新的Scaling Law维度：

# 传统Scaling Law（GPT系列）
性能 ∝ log(模型参数量) × log(训练数据量)

# 推理时Scaling Law（o系列）
性能 ∝ log(推理时计算量) × log(思维链长度)

# 二者可以叠加（GPT-5实现了这一点）
性能 ∝ 训练Scaling + 推理Scaling（自适应调节）

💡 面试加分点：o1/o3的推理时Scaling Law是整个AI行业在2024-2025年最重要的范式转变之一。它意味着：在模型规模到达瓶颈时（算力限制），存在第二条增长曲线——让模型在推理时"思考更久"。DeepSeek R1、Gemini Thinking、Claude Sonnet等竞品纷纷跟进这个范式。

9️⃣ GPT-4.1：百万上下文编程旗舰（2025.04）

核心创新：100万token上下文 + 编程能力跃升

GPT-4.1是OpenAI在GPT-5之前推出的编程旗舰模型，仅通过API提供。

规格

参数	数值
上下文窗口	1,048,576 tokens（100万）
定位	编程、指令遵循、长上下文
系列	GPT-4.1, GPT-4.1 mini, GPT-4.1 nano
上下文成本	100万token相比GPT-4 Turbo降低93%

技术突破

动态注意力机制：通过在推理时优化注意力计算，实现了超长上下文的高效处理
编程能力全面超越GPT-4o：在SWE-bench等编码基准上提升显著
指令遵循大幅改善：能精确遵循复杂的多步指令

🔟 GPT-5：统一推理模型（2025.08）

核心创新：推理与非推理的统一

GPT-5于2025年8月7日正式发布，是GPT系列迄今为止最重要的架构级升级。它不再是单一模型，而是一个统一的推理系统。

核心特性

特性	说明
统一推理	整合o3推理能力到标准GPT模型中
reasoning_effort	可调节推理深度：minimal / low / medium / high
verbosity控制	控制输出的详细程度
自定义工具	支持灵活的工具调用
多模态	文本、代码、图像、工具调用统一处理
定价	极具攻击性的API定价策略

reasoning_effort机制

GPT-5的核心创新是让模型自己决定"想多久"：

# GPT-5的推理努力度调节示例
response = client.chat.completions.create(
    model="gpt-5",
    messages=[
        {"role": "user", "content": "求解这个复杂的数学证明题"}
    ],
    reasoning_effort="high",      # 高推理深度
    verbosity="medium",            # 适中详细程度
)

# 对于简单的翻译任务
response = client.chat.completions.create(
    model="gpt-5",
    messages=[
        {"role": "user", "content": "翻译：Hello world"}
    ],
    reasoning_effort="minimal",   # 低推理深度
    verbosity="low",               # 简洁输出
)

技术意义

GPT-5代表了AI模型的第三次范式转变：

范式1：GPT-1→GPT-3 → "预训练+微调" 
范式2：ChatGPT→GPT-4 → "对齐+多模态"  
范式3：o1→GPT-5 → "推理时自适应计算"

GPT-5不再是"一个固定能力的模型"，而是一个可以自适应调整计算资源、推理深度的智能系统。这可能是通往AGI的关键一步。

📊 架构对比全景表

特性	GPT-1 (2018)	GPT-2 (2019)	GPT-3 (2020)	GPT-3.5 (2022)	GPT-4 (2023)	GPT-4o (2024)	GPT-5 (2025)
参数量	117M	1.5B	175B	~175B	~1.8T	未公开	未公开
架构	Decoder	Decoder	Decoder	Decoder	MoE (8E)	Omni	Unified
层数	12	48	96	~96	~120	~120	未公开
隐层维度	768	1600	12288	12288	~16384	~16384	未公开
注意力头	12	25	96	96	未公开	未公开	未公开
上下文	512	1024	2K	4K	8K~128K	128K	未公开
词汇表	~40K	50K BPE	50K BPE	50K BPE	~100K	~100K	未公开
多模态	❌	❌	❌	❌	✅ 图像输入	✅ 全模态	✅ 全模态
RLHF	❌	❌	❌	✅	✅	✅	✅
推理能力	❌	❌	❌	❌	❌	❌	✅ o3集成
训练数据	~5GB	~40GB	~570GB	~1TB+	~13T tokens	~20T+ tokens	未公开
训练成本	~$10K	~$50K	~$4.6M	~$10M+	~$63M	~$100M	未公开

GPT各代模型详细配置

模型	层数	隐层维度	注意力头	头维度	FFN维度	参数量
GPT-1	12	768	12	64	3072	117M
GPT-2 Small	12	768	12	64	3072	117M
GPT-2 Medium	24	1024	16	64	4096	345M
GPT-2 Large	36	1280	20	64	5120	774M
GPT-2 XL	48	1600	25	64	6400	1.5B
GPT-3	96	12288	96	128	49152	175B

🔬 核心技术深度解析

Decoder-only vs Encoder-only vs Encoder-Decoder

为什么GPT系列选择了Decoder-only架构？

任务                 最佳架构             代表模型
────────────────────────────────────────────────
文本理解/分类       Encoder-only      BERT系列
文本生成            Decoder-only      GPT系列
序列到序列(翻译)    Encoder-Decoder   T5系列
────────────────────────────────────────────────

Decoder-only的优势:
1. 天然适合生成任务
2. 架构简洁（无需Encoder-Decoder交叉注意力）
3. 易于扩展到超大规模（训练更稳定）
4. 零样本/少样本学习能力更强

为什么GPT-4没有开源？

原因	说明
竞争壁垒	GPT-4的核心技术（MoE架构、训练配方）是OpenAI的核心资产
安全考量	开源超强模型可能被恶意使用
商业策略	GPT-4通过API创收，开源会损害商业模式
成本因素	$6300万的训练成本，开源后他人可白嫖

这与Meta的LLaMA系列形成了鲜明对比——LLaMA选择开源以推动生态发展，GPT选择闭源以维持商业优势。

从GPT-1到GPT-5：Scaling Law的演进

# Scaling Law的数学形式（简化）
Performance = f(Params, Data, Compute)

# GPT-1时代：参数量 × 数据量 都很小
# GPT-2时代：证明了参数量增加 → 性能提升
# GPT-3时代：正式提出Scaling Law
# GPT-4时代：MoE架构 → 总参数量≠计算量
# o1时代：引入推理时计算（Test-time Compute）
# GPT-5时代：训练Scaling × 推理Scaling 叠加

关键转折点：

2022年之前：只关注训练时Scaling（更大的模型 + 更多数据）
2024-2025年：发现推理时Scaling同样重要（让模型多思考一会儿）
GPT-5：将两者统一，实现了自适应计算资源分配

📝 总结与展望

关键演进脉络

GPT-1 (2018)    → 证明预训练范式的有效性
GPT-2 (2019)    → 零样本能力 + 规模化是方向
GPT-3 (2020)    → Scaling Law + In-Context Learning
GPT-3.5 (2022)  → RLHF对齐 + 对话优化
GPT-4 (2023)    → MoE架构 + 多模态理解
GPT-4o (2024)   → 全能多模态（Omni）
o1/o3 (2024-25) → 推理时Scaling Law
GPT-4.1 (2025)  → 百万上下文编程旗舰
GPT-5 (2025)    → 统一推理模型 + 自适应计算