收藏！六周掌握大模型核心技术的完整学习路径

六周的时间不长，但如果你认真完成每一个环节，你将具备在AI时代立足的核心能力。更重要的是，你会培养出一种思维方式：面对新技术时不是盲目跟风，而是理解其本质，掌握其规律。在学习过程中，我强烈建议你掌握AI辅助编程工具，Cursor是目前的首选。作为一个深度集成了AI能力的代码编辑器，Cursor能够理解你的意图，帮你快速写出高质量代码，特别是在实现复杂的大模型相关项目时，它能够显著提升你的开发效率。

黑帽子唐哥

907人浏览 · 2025-11-06 14:53:15

黑帽子唐哥 · 2025-11-06 14:53:15 发布

本文为有编程基础的读者提供了一条六周掌握大模型技术的学习路径。第一阶段理解大模型原理并动手构建GPT模型；第二阶段学习提示词工程、RAG技术和AI Agent开发；第三阶段掌握参数高效微调技术如LoRA和QLoRA。通过系统学习和实战项目，读者将具备大模型应用开发的核心能力，培养AI时代所需的思维方式和技术素养。

一、第一阶段：理解大模型的本质（第1-2周）

第1周：看懂大模型的核心原理

对于任何想学AI的人，我都会推荐从Andrej Karpathy的两个经典视频开始：《深入探讨像ChatGPT这样的大预言模型》和《讲解如何使用大语言模型》。这两个视频总共不到6小时，但可能是你人生中收获最大的6小时。

Karpathy作为前OpenAI的研究科学家，他的讲解深入浅出，能让你从数学原理到代码实现，完整理解Transformer的每一个细节。B站上有中文字幕版本，搜索"Andrej Karpathy"就能找到。

看完视频后，你需要借助NotebookLM来阅读那篇改变了整个AI领域的经典论文《Attention Is All You Need》。这篇论文提出了Transformer架构，定义了注意力机制、编码器和解码器的概念。NotebookLM能帮你更好地理解论文中的复杂概念，就像有一个AI助教在旁边随时解答你的疑问。

如果你想要更系统的学习，Hugging Face的Transformers课程和DeepLearning.AI的相关课程都是很好的补充材料。Jay Alammar的《The Illustrated Transformer》更是经典之作，用可视化的方式展示Transformer的工作原理，让抽象的公式变得直观可感。

第2周：动手构建你的第一个大模型

理论看得再多，不如动手写一遍代码。这一周你要深入研究GitHub上最受欢迎的大模型教程项目：LLMs-from-scratch（https://github.com/rasbt/LLMs-from-scratch）。这个项目已经有51.2k星了，质量可想而知。

专注学习前四章的内容，这些章节涵盖了构建大模型的核心要素。Setup篇让你的开发环境做好准备，掌握Python开发技巧，了解如何安装必要的包和库，甚至包括Docker环境的配置。这些看似基础的内容，实际上能为你后续的学习省下大量时间。

Chapter 2深入理解文本数据处理的精髓。你会学习Byte Pair Encoding (BPE)分词器的原理和实现，对比不同的BPE实现方案，理解嵌入层和线性层的区别。这里还有一个特别有用的内容：用简单数字来理解Dataloader的工作机制。

Chapter 3是核心中的核心。你会亲手实现多头注意力机制，理解PyTorch缓冲区的使用技巧。注意力机制是Transformer的灵魂，只有自己写一遍代码，你才能真正理解它的工作原理。

Chapter 4带你从零实现一个完整的GPT模型。这里你会学习FLOPS分析（了解模型的计算复杂度），实现KV Cache（优化推理速度的关键技术）。

这一周的实战练习就是跟着这个项目，一行行代码地实现一个完整的GPT模型。重点不是写出完美的代码，而是理解每一行代码背后的逻辑。当你能够从零开始构建一个可以运行的语言模型时，你就真正掌握了大模型的精髓。

二、第二阶段：掌握与大模型交互的艺术 (第3-4周)

第3周：提示词工程

会用大模型和精通大模型之间有一道巨大的鸿沟，而提示词工程就是跨越这道鸿沟的桥梁。很多人以为和AI对话就像和人聊天一样随意，但实际上，如何设计提示词是一门精深的技艺。

提示工程本质上是通过精心设计输入提示来引导大模型生成期望输出的技术。这不仅仅是写几句话那么简单，而是要理解模型的工作机制，掌握如何激发其潜在能力。

你需要学会如何给出明确的指令，如何提供恰当的上下文，如何控制AI的回答风格。更高级的技巧还包括角色设定、输出格式控制、以及如何通过提示约束来减少模型的"幻觉"问题。

大模型的"幻觉"问题也不容忽视。模型有时会一本正经地胡说八道，而通过精心设计的提示约束，你可以大大减少这种现象。

在学习资源方面，我特别推荐关注AI破局俱乐部的小七姐，她的提示词课程和知识星球是国内这个领域的顶级资源。她不仅有深厚的理论功底，更重要的是有大量的实战经验。当然，OpenAI和Anthropic的官方提示词指南也是必读材料——这些是第一手的权威资料。

DeepLearning.AI和OpenAI联合推出的《ChatGPT提示词工程》课程也是这个领域的权威教程，Andrew Ng和OpenAI团队的讲解值得反复观看。

这一周的练习很有趣：选择一个具体任务，比如文章摘要或代码解释，设计初版提示让模型完成，然后不断迭代优化。记录每次修改和对应的结果变化，你会发现提示设计真的是一门艺术。

第4周：RAG与 AI Agent 模块学习

这一周你要学习的是当前AI应用中最实用的技术。RAG（检索增强生成）解决了大模型的一个根本问题：知识更新。即使最强大的模型，其训练数据也有时效性，而RAG通过引入外部知识库，让模型能够获取最新信息。

经典RAG知识库的工作流程相当清晰：文档切片、Embedding向量化、存入向量数据库、召回相关向量、重排序优化、拼接prompt、使用LLM生成最终答案。这个流程看似简单，但每个环节都有很多技术细节需要掌握。GitHub上有一个all-rag-techniques项目，收集了各种RAG技术的简单实现，可以作为将来进一步学习的资料。

https://github.com/fareedkhan-dev/all-rag-techniques

智能Agent更加有趣。一个完整的Agent智能体包含六个核心模块：

感知（Perception）：Agent需要能够理解和解析输入的信息，无论是文本、图像还是其他形式的数据。这是Agent与外界交互的第一步。
理解（Understanding）：在感知的基础上，Agent要能够理解信息的含义、上下文和用户的真实意图。这需要强大的自然语言理解能力。
规划（Planning）：基于理解的内容，Agent需要制定行动计划。这包括分解复杂任务、确定执行顺序、选择合适的工具等。
记忆（Memory）：Agent需要记住之前的对话历史、学到的经验和重要信息。这让Agent能够进行连贯的长期交互。
执行（Action）：Agent要能够调用各种外部工具和API来完成具体任务，比如搜索、计算、发送邮件等。
使用工具（Tool Use）：Agent需要知道何时使用什么工具，如何正确调用工具接口，以及如何处理工具返回的结果。

学习Agent技术，我建议你从两个核心框架开始：LangChain和LlamaIndex。LangChain更偏向于应用开发，提供了丰富的工具链；LlamaIndex则专注于数据处理和检索，在构建知识库方面特别强大。掌握这两个框架，你就能处理大部分Agent应用场景了。

强烈推荐Lilian Weng的经典博客文章《LLM Powered Autonomous Agents》，这是对LLM驱动的自主智能体的精彩总结，值得反复阅读。

Anthropic在这个领域有一篇著名的博客《Building Effective Agents》，这篇文章几乎是Agent开发的圣经。他们最近还分享了关于Multi-Agent系统的实战经验，探讨了多个AI Agent如何协作完成复杂任务。这些都是来自一线实践的宝贵经验。

说到Anthropic，不得不提他们推出的MCP（模型上下文协议）。这个协议为AI系统提供了统一的接口标准，就像给AI装上了万能适配器。学习MCP的实战应用，能让你理解未来AI系统的发展方向。

实战练习分为两部分：构建一个RAG问答原型，选择一份你熟悉的文档集，用向量数据库索引，然后结合大语言模型实现智能问答。另一部分是开发一个简易Agent，让它能够同时使用搜索和计算功能。最后，把你的应用部署成可以分享的服务，体验从想法到产品的完整流程。

今天Agent落地的场景非常丰富，特别是超级AI智能体概念的兴起。以Manus、GenSpark、Lovart、天工超级智能体为代表的产品每天都在涌现，这个领域的发展速度令人惊叹。

三、第三阶段：深入模型微调的核心技术 (第5-6周)

模型微调是大模型应用的最后一公里，也是最具技术含量的部分。这个阶段你要掌握的不仅是具体的技术方法，更是理解在资源约束下如何让大模型发挥最大效能的智慧。

第5周：参数高效微调与LoRA实践

现在你要面对一个现实问题：如何在有限的资源下让大模型适应特定任务？全量微调一个亿级参数的模型需要天文数字般的GPU内存和算力，这对大多数人来说都是不现实的。

PEFT（参数高效微调）技术应运而生。其中最著名的就是LoRA（Low-Rank Adaptation），它的核心思想既巧妙又实用：将需要更新的权重表示为两个低秩矩阵的乘积，从而大幅减少训练参数。

具体来说，LoRA冻结预训练模型的原始权重，只训练新增的低秩适配矩阵。这些适配矩阵的参数规模远小于原模型，但在推理时与原权重相加合并，能够实现与全量微调接近的性能。这就像给一台精密机器安装了几个小巧的调节器，用最小的改动实现最大的效果。

在学习资源方面，Hugging Face的PEFT文档是最权威的参考资料，详细解释了LoRA及其变种的原理和优势。如果你想要更深入的理解，Stanford的CS224N课程和FastAI的深度学习课程都有相关内容。GitHub上的"llm-action"项目则提供了从6B到65B不同规模模型的微调实践教程，包含完整的代码样例，非常适合动手实践。

这一周的实战练习是选择一个中等规模的开源模型进行LoRA微调实验。使用Hugging Face的peft库可以大大简化实现过程。你需要准备一个小型数据集，观察显存占用和训练时长的变化，对比不同LoRA超参数的影响。通过这个过程，你会深刻理解权衡的艺术：更高的秩意味着更强的表达能力，但也需要更多的参数。

同时，你可以继续深入学习LLMs-from-scratch（https://github.com/rasbt/LLMs-from-scratch）项目的第五章、第六章和第七章，这些章节涵盖了更高级的微调技术和实践。

第6周：QLoRA进阶微调与综合应用

最后一周，你要掌握的是LoRA的进阶版本——QLoRA。如果说LoRA是在微调效率上的突破，那么QLoRA就是在这个基础上的再次飞跃。

QLoRA在LoRA基础上引入了4-bit量化技术，进一步降低显存需求。它将预训练模型权重先量化为4位表示，然后对量化模型应用LoRA微调。这种方法的效果令人惊艳：可以将650亿参数的LLaMA模型微调显存需求从780GB降到不足48GB，而性能几乎没有损失。

这背后涉及NF4量化格式、二次量化、Paged Optimizer等创新技术。这些技术细节虽然复杂，但核心思想很清晰：用更聪明的方法存储和计算，让普通硬件也能驾驭大模型。如果你想深入理解这些技术，建议阅读QLoRA的原始论文，以及Hugging Face提供的详细技术博客。

这一周你不仅要理解QLoRA的原理，还要通过实战项目综合运用整个课程所学的知识。你可以选择一个实际的应用场景，比如构建一个特定领域的问答系统，从数据准备、模型微调到最终部署形成完整的项目经验。

对于想要进一步深入的同学，我推荐关注一些前沿的微调技术，比如AdaLoRA、DoRA等LoRA的改进版本。Meta的LLaMA团队和Google的研究博客经常发布最新的微调技术进展，这些都是第一手的技术资料。

写在最后

六周的时间不长，但如果你认真完成每一个环节，你将具备在AI时代立足的核心能力。更重要的是，你会培养出一种思维方式：面对新技术时不是盲目跟风，而是理解其本质，掌握其规律。

在学习过程中，我强烈建议你掌握AI辅助编程工具，Cursor是目前的首选。作为一个深度集成了AI能力的代码编辑器，Cursor能够理解你的意图，帮你快速写出高质量代码，特别是在实现复杂的大模型相关项目时，它能够显著提升你的开发效率。学会使用这样的工具，不仅能让你的学习事半功倍，更能让你在未来的工作中保持竞争优势。

大模型技术发展日新月异，今天学到的具体技术可能很快就会过时，但对原理的深度理解和实战经验却是永恒的财富。这六周的学习，将为你在AI浪潮中找到自己的位置奠定坚实基础。

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

为什么要学习大模型？

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着AI技术飞速发展，预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Claude Code - 深度解析 Claude Code 自动模式的安全架构与设计哲学

AI编程社区

AI编程实测-上下文衰减问题及解决方案

一开始，让AI生成基础框架，还行。数据模型不统一：前面用SwiftUI的@State，后面突然变成Combine架构混乱：一开始说用MVVM，到后面代码全写在ViewController里命名不一致：同样的概念，AI一会儿叫"userId"，一会儿叫"user_id"重复造轮子：AI忘了前面已经实现了某个功能，又写了一遍偏离设计决策：之前说用Core Data，后面AI用了UserDefaults