Transformers源码解析：transformers/src/transformers/models/llama/modeling_llama.py RotaryEmbedding

AI生成曾小健

1206人浏览 · 2023-09-25 23:28:03

AI生成曾小健 · 2023-09-25 23:28:03 发布

class LlamaRotaryEmbedding(nn.Module):
    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None):
        super().__init__()

        self.dim = dim
        self.max_position_embeddings = max_position_embeddings
        self.base = base
        inv_freq = 1.0 / (self.base ** (torch.arange(0, self.dim, 2).float().to(device) / self.dim))
        self.register_buffer("inv_freq", inv_freq, persistent=False)

        # Build here to make `torch.jit.trace` work.
        self._set_cos_sin_cache(
            seq_len=max_position_embeddings, device=self.inv_freq.device, dtype=torch.get_default_dtype()
        )

    def _set_cos_sin_cache(self, seq_len, device, dtype):
        self.max_seq_len_cached = seq_len
        t = torch.arange(self.max_seq_len_cached, device=device, dtype=self.inv_freq.dtype)

        freqs = torch.einsum("i,j->ij", t, self.inv_freq)
        # Different from paper, but it uses a different permutation in order to obtain the same calculation
        emb = torch.cat((freqs, freqs), dim=-1)
        self.register_buffer("cos_cached", emb.cos()[None, None, :, :].to(dtype), persistent=False)
        self.register_buffer("sin_cached", emb.sin()[None, None, :, :].to(dtype), persistent=False)

    def forward(self, x, seq_len=None):
        # x: [bs, num_attention_heads, seq_len, head_size]
        if seq_len > self.max_seq_len_cached:
            self._set_cos_sin_cache(seq_len=seq_len, device=x.device, dtype=x.dtype)

        return (
            self.cos_cached[:, :, :seq_len, ...].to(dtype=x.dtype),
            self.sin_cached[:, :, :seq_len, ...].to(dtype=x.dtype),
        )

名为LlamaRotaryEmbedding的PyTorch模型，用于旋转位置编码。我们将逐行解释该代码：

class LlamaRotaryEmbedding(nn.Module): 定义一个名为LlamaRotaryEmbedding的类，该类继承自nn.Module。
def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None):
- 初始化函数，设置默认的最大位置编码数为2048，基数base为10000。
super().__init__()：调用父类nn.Module的初始化函数。
self.dim = dim: 存储传入的dim到类的属性中。
self.max_position_embeddings = max_position_embeddings: 存储最大的位置编码数。
self.base = base: 存储基数。
inv_freq = 1.0 / (self.base ** (torch.arange(0, self.dim, 2).float().to(device) / self.dim)):
- 计算逆频率inv_freq，torch.arange(0, self.dim, 2)生成从0到dim-1（不包括）的数字，步长为2。
- 这个数组表示不同的频率，将它除以dim后再和base的逆次幂做运算，得到逆频率。
self.register_buffer("inv_freq", inv_freq, persistent=False): 注册一个缓冲区，用于存储inv_freq，并确保它不会在保存模型时被视为模型的可训练参数。
后面几行代码是预先计算并缓存cosine和sine值，以加速前向计算。
def _set_cos_sin_cache(self, seq_len, device, dtype):: 定义一个内部方法用于设置cosine和sine的缓存。
self.max_seq_len_cached = seq_len: 存储传入的序列长度。
t = torch.arange(self.max_seq_len_cached, device=device, dtype=self.inv_freq.dtype): 生成一个从0到self.max_seq_len_cached-1的数字数组。
freqs = torch.einsum("i,j->ij", t, self.inv_freq): 使用外积计算freqs。
emb = torch.cat((freqs, freqs), dim=-1): 将freqs与自身进行拼接。
self.register_buffer("cos_cached", emb.cos()[None, None, :, :].to(dtype), persistent=False): 计算cosine值并将其缓存。
self.register_buffer("sin_cached", emb.sin()[None, None, :, :].to(dtype), persistent=False): 计算sine值并将其缓存。
def forward(self, x, seq_len=None):: 定义前向传播函数。
if seq_len > self.max_seq_len_cached:: 如果输入的序列长度大于缓存的长度，则更新缓存。
return ( self.cos_cached[:, :, :seq_len, ...].to(dtype=x.dtype), self.sin_cached[:, :, :seq_len, ...].to(dtype=x.dtype), ): 返回对应长度的cosine和sine缓存值。

总体来说，这是一个用于生成旋转位置编码的模块。其目的是为transformer模型（如BERT、GPT等）生成位置编码。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

让 Agent 说得少做得对：输出压缩与行动优先的提示策略

各位正在探索大模型应用落地的开发者、产品经理、甚至AI爱好者们，想必都遇到过这样令人抓狂的场景：你给Agent（比如Claude 3 Opus的代码助手插件、LangChain构建的知识库检索Agent、甚至是企业内部定制的办公助手）下达了一条清晰的指令：过了5秒钟（已经是GPT-4o mini级别Agent的“长思考时间”了），你收到了这样一段回复：这段回复，单论内容质量，其实挺高的——它考虑了

AI编程社区

25.TCO 成本测算：训练与推理的完整成本模型

AI编程社区

AI Agent Harness Engineering 的“黑箱”拆解：使用 LangSmith 进行全链路追踪与可视化

核心概念：AI Agent Harness Engineering（，下文简称）是 2023-2024 年大语言模型（LLM）、多模态模型（MMM）技术落地企业级复杂任务时的核心分支之一——它不再满足于让单个 LLM 执行简单的问答、文本生成，而是设计、开发、调试、部署、监控、迭代。问题背景：2022 年底 ChatGPT 的发布让“LLM 通用智能”的想象空间爆发，但当开发者和企业尝试将其应用到