附录

这部分是整本书的"工具箱"——遇到不熟悉的概念回来查,看到感兴趣的工具体验一下,想深入研究的照着参考文献去找原文读。


附录A:常用术语表

按字母顺序排列,方便快速查阅。


A

Adam — 一种自适应学习率的优化算法,结合了动量(Momentum)和RMSProp的优点。训练深度学习模型时的默认选择。

Agent — 能够感知环境、自主规划、调用工具、并执行动作的智能体。不只是"回答问题",而是能"完成任务"。

Attention Mechanism(注意力机制) — 让模型在处理序列时,能够关注到输入中不同位置的信息。Transformer架构的核心。

AutoRegressive(自回归) — 生成式模型的一种工作方式:每次生成一个token,然后把刚生成的token作为输入,继续生成下一个,直到遇到结束标记。GPT系列就是自回归的。


B

BERT(Bidirectional Encoder Representations from Transformers) — Google提出的预训练语言模型,核心是Encoder-only架构,擅长理解任务(分类、NER、问答)。和GPT"从左到右"不同,BERT是双向的,看一句话时能同时看到左右两边的上下文。

BLEU(Bilingual Evaluation Understudy) — 机器翻译常用的自动评估指标,核心思想是:模型生成的翻译和人工参考翻译之间,n-gram重叠度越高,分数越高。缺点是只衡量"像不像",不衡量"意思对不对"。

BM25 — 搜索引擎里最常用的关键词相关性打分算法,是TF-IDF的改进版。RAG系统里常用来做关键词检索。


C

Chain-of-Thought(思维链,CoT) — 让大模型在给出答案之前,先"把思考过程写出来"的提示技术。就像考试时要求"写出解题步骤",能显著提升复杂推理任务的准确率。

Context Window(上下文窗口) — 大模型一次能处理的token数量上限。GPT-4是128k,Claude 3是200k。窗口越大,能"记住"的对话历史和参考资料就越多。

Cross-Entropy Loss(交叉熵损失) — 分类任务最常用的损失函数。直观理解:模型对正确类别的预测概率越大,损失越小。


D

Decoder-only — 只有解码器部分的Transformer架构。GPT系列就是这个结构,擅长生成任务。

Dropout — 训练神经网络时的一种正则化技术:每次前向传播随机"关闭"一部分神经元,防止模型过度依赖某些特定神经元,从而减轻过拟合。


E

Embedding(嵌入) — 把离散的符号(单词、句子)映射到连续向量空间的操作。好的嵌入能让语义相近的词在向量空间里也离得近。

Encoder-Decoder — 完整的Transformer架构,既有编码器也有解码器。BART、T5是这个结构,适合需要"理解输入再生成输出"的任务(如翻译、摘要)。

Epoch — 训练集所有样本都跑过一遍,叫一个epoch。通常要训练多个epoch,但太多会过拟合。


F

F1 Score — 精确率(Precision)和召回率(Recall)的调和平均数。综合衡量模型"准不准"和"全不全"。

Flash Attention — 一种IO感知的注意力计算算法,通过分块计算和重新组织内存访问顺序,大幅降低显存占用并提升计算速度。训练大模型时的标配。

Function Calling(函数调用) — 大模型的一项能力:根据用户意图,自动决定调用哪个外部工具、并提取调用所需的参数。是Agent能够"使用工具"的基础。


G

Generative AI(生成式AI) — 能够创造新内容(文本、图像、代码、音频)的人工智能。和大模型基本是同义词。

GPT(Generative Pre-trained Transformer) — OpenAI推出的系列模型,核心是Decoder-only Transformer架构,通过自回归方式生成文本。

Gradient Descent(梯度下降) — 训练神经网络的基石算法:计算损失函数对参数的梯度,然后沿着梯度的反方向更新参数,逐步降低损失。


H

Hugging Face — 最流行的开源NLP/LLM工具库和模型社区。几乎能找到所有主流开源模型的实现和权重。

Hyperparameter(超参数) — 不是模型通过训练学出来的,而是需要人工设定的参数。比如学习率、batch size、LoRA的秩r。选好超参数,模型训练效果可能差十倍。


I

In-context Learning(上下文学习) — 大模型的一种能力:不需要更新参数,只通过在提示词里给几个例子(few-shot),就能学会完成新任务。是GPT-3的核心发现之一。

Instruction Tuning(指令微调) — 用"(指令,期望输出)"这样的数据对对预训练模型进行微调,让模型更好地理解人类意图。ChatGPT、Claude都经过了大量的指令微调。


K

Knowledge Base(知识库) — 结构化或半结构化的知识集合。RAG系统的"外部大脑"。


L

Layer Normalization(层归一化) — Transformer里对每个样本的特征维度做归一化,让模型训练更稳定。和Batch Normalization不同,它不依赖batch里的其他样本,更适合NLP任务和小batch场景。

LLM(Large Language Model,大语言模型) — 参数规模达到亿级甚至千亿级的预训练语言模型。本书的核心主题。

LoRA(Low-Rank Adaptation) — 一种参数高效微调方法。核心思想:用两个小矩阵的乘积来近似全量微调时的大矩阵更新量,只训练这两个小矩阵,大幅降低显存和计算开销。

Loss Function(损失函数) — 衡量模型预测值和真实值之间差距的函数。训练的目标就是最小化损失函数。


M

Masked Language Modeling(MLM) — BERT的预训练任务:随机遮盖输入中的一部分token,让模型根据上下文预测被遮盖的token。这就是为什么BERT是双向的。

MLP(Multi-Layer Perceptron,多层感知机) — 多个全连接层堆叠起来的神经网络,是Transformer里FFN的核心组件。

Multi-Head Attention(多头注意力) — 把注意力计算分成多组独立进行,每组关注不同的语义关系,最后把结果拼接起来。让模型能同时捕捉多种不同类型的关联。


N

NLP(Natural Language Processing,自然语言处理) — 让计算机理解、生成、操作人类语言的技术领域。本书的出发点。

N-gram — 连续N个词的序列。N-gram语言模型是最早的统计语言模型,通过统计前面N-1个词来预测下一个词。


O

Optimizer(优化器) — 决定如何根据梯度更新模型参数的算法。常见选择:SGD、Adam、AdamW。

Overfitting(过拟合) — 模型在训练集上表现很好,但在未见过的测试集上表现很差。就像死记硬背了考试题库,但遇到新题就不会了。


P

PEFT(Parameter-Efficient Fine-Tuning) — 参数高效微调的统称,包括LoRA、Prefix Tuning、Adapter等方法。核心思想:只微调模型的一小部分参数,就能达到接近全量微调的效果。

Perplexity(困惑度) — 衡量语言模型好坏的常用指标。直观理解:模型预测下一个词时的"不确定程度",困惑度越低,模型越好。

Prompt Engineering(提示工程) — 设计高质量提示词的技术。好的提示词能让模型发挥出远超默认表现的能力。

PyTorch — Facebook(Meta)开源的深度学习框架,动态图设计,调试方便,是目前大模型研究和开发的主流框架。


R

RAG(Retrieval-Augmented Generation,检索增强生成) — 让模型在回答问题之前,先从外部知识库检索相关信息,然后基于检索结果生成答案。解决大模型"知识截止"和"幻觉"问题的核心技术。

RankBM25 — 一个Python库,实现了BM25等关键词检索算法。RAG系统里做关键词检索的常用工具。

ReAct(Reasoning + Acting) — Agent的一种工作范式:让模型交替进行"推理"(思考下一步)和"行动"(调用工具),直到完成任务。是目前最主流的Agent范式之一。

Recall(召回率) — 相关信息中被成功检索到的比例。“宁可多检一些,不要漏掉”,追求高召回率。

Reinforcement Learning from Human Feedback(RLHF,人类反馈强化学习) — 让模型输出更符合人类偏好的训练方法。ChatGPT、Claude都经过了RLHF训练。大致流程:让人类对模型输出排序 → 训练一个奖励模型 → 用强化学习优化LLM策略。

Reranker(重排序模型) — 对检索结果进行二次精排的模型。先用快速方法(如向量检索)粗召回一批候选,再用精确的Reranker模型重新打分排序,兼顾速度和精度。

ROUGE(Recall-Oriented Understudy for Gisting Evaluation) — 摘要任务常用的自动评估指标,衡量生成摘要和参考摘要之间的n-gram重叠度。和BLEU类似,但更关注"召回"(参考摘要里的词有多少出现在生成摘要里)。


S

Self-Attention(自注意力) — Transformer的核心机制:让序列中的每个token都能"看到"序列中所有其他token,并根据相关性加权汇总信息。

Semantic Search(语义搜索) — 不是靠关键词匹配,而是靠"意思相近"来检索。把查询和文档都转换成向量,然后找向量最相似的文档。

Sentence Transformers — 一个专门用来生成句子/文档级嵌入向量的Python库,基于PyTorch,封装了很多优秀的预训练嵌入模型(如BGE、all-MiniLM)。

Softmax — 一种把任意实数向量转换成"概率分布"的函数。输出所有值都在0-1之间,且加起来等于1。分类任务最后一层通常用Softmax。

Supervised Fine-Tuning(SFT,有监督微调) — 用"(输入,输出)"配对数据对预训练模型进行微调,让模型学会按照指定格式回答问题。指令微调就是SFT的一种。


T

Temperature(温度) — 控制大模型生成"随机程度"的参数。温度越高,生成越多样(但可能乱说);温度越低,生成越确定(但可能重复啰嗦)。写代码用低温,写创意文案用高温。

Token — 大模型处理文本的最小单位。对英文来说,一个token大约对应3-4个字母或一个单词;对中文来说,一个token大约对应1-2个汉字。API通常按token数量收费。

Transformer — 2017年Google提出的深度学习架构,完全基于注意力机制,抛弃了RNN/CNN结构。GPT、BERT、Claude、Gemini……所有主流大模型都是Transformer的变体。

Turing Test(图灵测试) — 衡量机器是否具备人类水平智能的经典测试:让人类裁判通过文字对话区分对方是机器还是人,如果裁判无法区分,则认为机器通过了测试。


U

Underfitting(欠拟合) — 模型连训练集都学不好,通常是因为模型太简单或训练不充分。和过拟合相反。

Unsupervised Learning(无监督学习) — 不需要人工标注的数据,让模型自己从数据中发现模式。大模型的预训练本质上就是无监督学习(预测下一个词)。


V

Vector Database(向量数据库) — 专门用来存储和检索高维向量的数据库。RAG系统的核心组件,常见选择:Pinecone、Weaviate、Milvus、Chroma、FAISS。

Vector Embedding — 见Embedding。

Vocabulary(词表) — 模型能识别的所有token的集合。词表大小是影响模型参数量的因素之一。


W

Weight(权重) — 神经网络中可学习的参数。训练的本质就是找到一组好的权重,让模型在任务上表现好。

Word2Vec — Google提出的词嵌入模型,2013年提出,开启了现代词嵌入技术的浪潮。核心思想:一个词的含义可以由它周围的词来定义(分布假说)。


附录B:开源工具与资源汇总

这一节把全书提到的、以及业界常用的工具和资源整理出来,按用途分类。每个工具都附上一句"什么时候用"。


B.1 深度学习框架

工具 一句话介绍 适用场景
PyTorch Meta开源的动态图深度学习框架 研究、原型开发、大模型训练(首选)
TensorFlow Google开源的深度学习框架 生产部署、移动端推理
JAX Google的高性能数值计算库 超大规模模型训练(如Google Gemini)
Hugging Face Transformers 最流行的预训练模型库 几乎任何NLP/LLM任务(必装)
Hugging Face PEFT 参数高效微调工具库 LoRA、Prefix Tuning等PEFT方法(必装)

B.2 向量数据库

工具 类型 一句话介绍 适用场景
FAISS 开源库 Facebook开发,速度极快 单机高性能检索
Chroma 开源 轻量易用,Python友好 原型开发、中小规模
Weaviate 开源/云服务 功能全面,支持多模态 企业私有部署
Milvus 开源 分布式架构,支持百亿级向量 大规模生产环境
Pinecone 云服务(收费) 完全托管,开箱即用 快速上线、无运维资源
Qdrant 开源 Rust开发,安全高效 生产环境、注重性能
pgvector PostgreSQL插件 直接在PostgreSQL里存向量 已有PG生态,不想引入新组件

B.3 RAG开发框架

工具 一句话介绍 适用场景
LangChain 最流行的LLM应用开发框架 RAG、Agent、Chain工作流(首选)
LlamaIndex 专注于RAG的数据框架 知识库索引、复杂检索策略
Haystack deepset开发的开源RAG框架 企业搜索、问答系统
RAGAS RAG系统评估框架 评估RAG检索质量、生成质量

B.4 Agent开发框架

工具 一句话介绍 适用场景
LangChain Agents LangChain内置的Agent模块 快速搭建ReAct Agent
AutoGen Microsoft的多Agent对话框架 多Agent协作、代码生成
CrewAI 以"角色"为中心的Agent框架 模拟团队协作完成复杂任务
Semantic Kernel Microsoft的Agent框架 .NET生态、企业集成
OpenAI Function Calling OpenAI原生的函数调用能力 最简单的Agent工具调用入门

B.5 大模型推理与服务

工具 一句话介绍 适用场景
vLLM 高性能LLM推理框架 生产环境部署(首选)
TGI(Text Generation Inference) Hugging Face的推理服务 快速部署Hugging Face模型
Ollama 本地运行LLM的工具 本地开发测试、离线环境
LM Studio 图形化本地运行LLM 非技术人员体验LLM
OpenLLMetry LLM应用可观测性工具 生产环境监控、调试

B.6 微调与训练

工具 一句话介绍 适用场景
Hugging Face PEFT 参数高效微调库 LoRA等PEFT方法(必装)
DeepSpeed Microsoft的分布式训练库 超大规模模型训练
FSDP(Fully Sharded Data Parallel) PyTorch内置的分布式训练 替代DeepSpeed的PyTorch原生方案
Axolotl 开箱即用的LLM微调工具 快速微调各种开源模型
LLaMA-Factory 国内团队开发的微调框架 中文模型微调、Web UI界面

B.7 评估与测试

工具 一句话介绍 适用场景
RAGAS RAG系统评估框架 评估RAG检索和生成质量
OpenAI Evals OpenAI的评估框架 评估LLM应用效果
LM Evaluation Harness EleutherAI的评估工具 评估LLM基础能力
PromptFoo 提示词测试工具 A/B测试不同提示词效果

B.8 学习资源

必读论文(按理解优先级排序)

  1. Attention Is All You Need(Vaswani et al., 2017)— Transformer原始论文,必读
  2. BERT: Pre-training of Deep Bidirectional Transformers(Devlin et al., 2018)— BERT论文
  3. Language Models are Few-Shot Learners(Brown et al., 2020)— GPT-3论文,提出in-context learning
  4. LLaMA: Open and Efficient Foundation Language Models(Touvron et al., 2023)— 开源大模型里程碑
  5. LoRA: Low-Rank Adaptation of Large Language Models(Hu et al., 2021)— LoRA原始论文
  6. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(Wei et al., 2022)— CoT论文
  7. ReAct: Synergizing Reasoning and Acting in Language Models(Yao et al., 2022)— ReAct范式论文
  8. FlashAttention: Fast and Memory-Efficient Exact Attention(Dao et al., 2022)— Flash Attention论文

推荐书籍

  • 《深度学习》(Goodfellow et al.)— 深度学习奠基教材,免费在线阅读
  • 《动手学深度学习》(李沐等)— 中文最佳深度学习入门书,配有B站视频
  • 《Natural Language Processing with Transformers》(Hugging Face团队)— Transformer实战最佳参考书

推荐课程

  • CS224N(Stanford)— 斯坦福NLP课程,免费在线,质量极高
  • 李宏毅《机器学习》 — 中文最佳机器学习/深度学习课程,B站可看
  • Andrej Karpathy YouTube — 前OpenAI创始成员,教学能力极强,免费

社区与平台

  • Hugging Face — 模型、数据集、Spaces演示,LLM生态中心
  • GitHub — 几乎所有开源LLM项目的家园
  • Papers with Code — 论文+代码对应,跟踪SOTA结果
  • 知乎「大模型」话题 — 中文社区,有很多高质量技术解析
  • Discord(各种LLM项目) — 直接和大模型开发者交流的地方

附录C:参考文献与延伸阅读

按章节排列,方便对照查阅。


第一章:神经网络原理

  1. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. 免费在线阅读
  2. Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533-536.
  3. Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. ICLR 2015.
  4. 李沐等. (2019). 动手学深度学习. 免费在线阅读.

第二章:NLP核心逻辑

  1. Mikolov, T., et al. (2013). Efficient estimation of word representations in vector space. ICLR 2013. [Word2Vec原始论文]
  2. Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global vectors for word representation. EMNLP 2014.
  3. Devlin, J., et al. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. NAACL 2019.
  4. Radford, A., et al. (2019). Language models are unsupervised multitask learners. OpenAI Blog. [GPT-2论文]
  5. Brown, T., et al. (2020). Language models are few-shot learners. NeurIPS 2020. [GPT-3论文]

第三章:Transformer架构详解

  1. Vaswani, A., et al. (2017). Attention is all you need. NeurIPS 2017. [Transformer原始论文,必读]
  2. Press, O., et al. (2021). Train short, test long: Attention with linear biases enables input length extrapolation. ICLR 2022. [ALiBi位置编码]
  3. Su, J., et al. (2021). RoFormer: Enhanced transformer with rotary position embedding. arXiv:2104.09864. [RoPE位置编码]
  4. Dao, T., et al. (2022). FlashAttention: Fast and memory-efficient exact attention with IO-awareness. NeurIPS 2022.
  5. Touvron, H., et al. (2023). LLaMA: Open and efficient foundation language models. arXiv:2302.13971.

第四章:RAG构建私有知识库

  1. Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. NeurIPS 2020. [RAG原始论文]
  2. Gao, L., et al. (2023). REALM: Retrieval-augmented language model pre-training. ICML 2020.
  3. Karpukhin, V., et al. (2020). Dense passage retrieval for open-domain question answering. EMNLP 2020.
  4. Es, S., et al. (2023). RAGAS: Automated evaluation of retrieval augmented generation. arXiv:2309.15217. [RAGAS评估框架]
  5. Chen, J., et al. (2023). Benchmarking large language models in retrieval-augmented generation. arXiv:2309.01431.

第五章:Agent自主规划与工具调用

  1. Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 2022. [CoT论文]
  2. Yao, S., et al. (2022). ReAct: Synergizing reasoning and acting in language models. ICLR 2023. [ReAct论文,必读]
  3. Yao, S., et al. (2023). Tree of thoughts: Deliberate problem solving with large language models. NeurIPS 2023. [ToT论文]
  4. Besta, M., et al. (2023). Graph of thoughts: Solving elaborate problems with large language models. arXiv:2308.09687. [GoT论文]
  5. Nakano, R., et al. (2021). WebGPT: Browser-assisted question-answering with human feedback. arXiv:2112.09332.

第六章:LangChain/AutoGen框架实战

  1. Chase, H. (2022). LangChain Documentation. https://python.langchain.com/docs/
  2. Wu, Q., et al. (2023). AutoGen: Enabling next-gen LLM applications via multi-agent conversation. arXiv:2308.08155. [AutoGen论文]
  3. Russo, D. (2023). CrewAI Documentation. https://docs.crewai.com/
  4. Microsoft Semantic Kernel Team. (2023). Semantic Kernel Documentation. https://learn.microsoft.com/semantic-kernel/

第七章:LoRA微调技术实战

  1. Hu, E. J., et al. (2021). LoRA: Low-rank adaptation of large language models. ICLR 2022. [LoRA原始论文,必读]
  2. Dettmers, T., et al. (2023). QLoRA: Efficient finetuning of quantized LLMs. NeurIPS 2023. [QLoRA论文]
  3. Zhang, Q., et al. (2023). AdaLoRA: Adaptive budget allocation for parameter-efficient fine-tuning. ICLR 2023.
  4. Lialin, V., et al. (2023). Scaling down to scale up: A guide to parameter-efficient fine-tuning. arXiv:2303.15647. [PEFT综述]
  5. Meng, F., et al. (2024). PISSA: Principal singular values and singular vectors adaptation. arXiv:2404.02949.

延伸阅读建议

如果想深入某个方向,推荐按这个顺序来:

  • 理论方向:先读Transformer论文 → BERT/GPT论文 → 找最近1年的综述论文(Survey)跟着参考文献树往下挖
  • 工程方向:直接上手Hugging Face Transformers文档 → 跑通一个开源模型微调 → 读对应模型的technical report
  • RAG方向:读RAG原始论文 → RAGAS论文 → 直接搭一个本地RAG系统(用LangChain+Chroma,半天就能跑通)
  • Agent方向:读ReAct论文 → ToT论文 → 用LangChain Agents搭一个能调用搜索工具的Agent(1天能跑通)

最后一句:大模型技术迭代极快,这本书里的内容在你读到的时候可能已经有所更新。保持好奇心,多逛Hugging Face和arXiv,比任何书都重要。


全书完。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐