LLM--LLama简介

W@Y…

384人浏览 · 2026-04-05 12:00:00

W@Y… · 2026-04-05 12:00:00 发布

文章目录

LLama-1
LLama-2
LLama-3

背景：Mate发布的大模型

LLama-1

2023年2月发布

简介：采用Transformer解码器架构，且采用自回归的方式进行文本生成。

模型训练：采用多个领域的大规模数据进行预训练。

特点技术：

RMSNorm归一化

RMSNorm归一化，也称为“均方根归一化”，其数学原理如下：

注意两个特别参数：

SwiGLU激活函数

这个激活函数比较复杂，数学原理：

这里相当于在Swish(自适应搜索)基础上进行优化，其中W₁，W₂都是可学习参数。

Swish在pytorch基础系列中算子系列有讲解。

旋转位置编码

用相对位置表示绝对位置。

这个在大模型基础系列中基础知识中位置编码有讲。

性能：作为LLama系列的开山之作，性能表现也是优异的，在多个任务中超越GPT3

LLama-2

在2023年7月发布，与LLama相隔3个月，说实话，很短，所以提示没有很大，更多是优化LLama1

训练数据，采用更有质量的数据，同时训练token扩展为2万亿个token。
上下文扩展，从2028扩展到4096，更好处理上下文语义。
GQA优化多头注意力，这里重新比较大

GAQ是现在很常用的一种优化，主要在于优化Q，K，V内存，传统的Q，K，V是一一对应的，也就是说一个Q，对应一个K，一个V，但是GAQ是：

GQA使我们能够随着模型的增大而保持带宽和容量的相同比例减少，但是要注意，GQA只适用于解码器，不适用与编码器。

强化学习，这个是现在LLM核心的知识点之一，也是现在最前沿的知识点之一，但同时也是难度很大的知识点，这一部分小编现在还很弱，只知道强化学习是通过引入正负反馈得分对行为进行打分，目的是让总得分最大。
表现：能堪比GPT-3.5

LLama-3

在24年4月发布，我感觉这一版本有点像“暴力出奇迹了”。

结果，性能好于GPT-3.5
训练参数，比LLama-2大了7倍。
架构，依然采用LLama1的编码器架构，LLama2的GQA优化，但是采用了更高效的tokenization，扩大了词表大小，进一步扩大了上下文序列长度。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

2026年7月，我把 chatGPT 用进日常开发后的 8 个真实场景（plus pro充值）

很多人第一次使用 GPT，都会有一种很强的新鲜感。随便问一个问题，它能回答；让它写一段代码，它能生成；给它一段英文，它能翻译；让它写一篇文章，它也能输出。刚开始看起来很神奇，但真正用了一段时间以后，很多人又会产生新的疑问：GPT 到底能不能真正提高工作效率？如果只是偶尔问几个问题，它确实像一个高级搜索工具。但如果把它放进日常开发流程里，它的价值就不只是“回答问题”这么简单。对开发者来说，日常工作并

AI编程社区

2026年7月使用 GPT 和CODEX常见问题整理：登录、订阅、续费和账号管理思路

这两年，GPT 类 AI 工具已经从一个新鲜工具，慢慢变成很多人工作里的固定助手。开发者用它看代码、查报错、写测试、读文档。运营人员用它写方案、整理资料、拆解内容。产品经理用它写需求、梳理流程、总结会议。跨境从业者用它翻译资料、分析平台规则、整理英文说明。技术博主用它搭文章结构、生成 Markdown、优化表达。很多人一开始关注的问题是：GPT 到底好不好用？

AI编程社区

2026 年 7 月，程序员如何把 CHATGPT 放进开发工作流：从需求到上线（plus pro充值)）的完整实践

很多程序员第一次使用 GPT，通常都是从几个简单场景开始的。帮我写一个函数；帮我解释一段代码；帮我看一个报错；帮我写一个 SQL；帮我生成一段接口文档。刚开始确实会觉得很惊艳，因为很多原本需要搜索半天的问题，它几分钟就能给出思路。但用了一段时间以后，很多人会发现一个问题：如果只是零散地问几句，效率提升其实有限。真正能改变开发效率的，不是偶尔问 GPT 一个问题，而是把 GPT 放进完整开发流程里。