7D-AI系列：DeepSeek Engram 架构代码分析

文章目录

- 一、整体架构概述
- 二、官方示例代码输出记录
- 三、核心组件详解
- - [1. 配置类 (Lines 38-58)](#1. 配置类 (Lines 38-58))
  - - 关键参数说明：
  - [2. CompressedTokenizer (Lines 60-121)](#2. CompressedTokenizer (Lines 60-121))
  - - 作用：
    - [核心代码 (Lines 84-110)：](#核心代码 (Lines 84-110)：)
    - 核心机制：
  - [3. ShortConv (Lines 123-179)](#3. ShortConv (Lines 123-179))
  - - 作用：
    - [核心代码 (Lines 156-179)：](#核心代码 (Lines 156-179)：)
    - 关键特性：
  - [4. NgramHashMapping (Lines 188-303)](#4. NgramHashMapping (Lines 188-303))
  - - 核心功能：
    - [4.1 初始化阶段 (Lines 219-233)](#4.1 初始化阶段 (Lines 219-233))
    - 设计要点：
    - [4.2 质数选择策略 (Lines 235-260)](#4.2 质数选择策略 (Lines 235-260))
    - 设计要点：
    - [4.3 N-gram 哈希计算 (Lines 262-296)](#4.3 N-gram 哈希计算 (Lines 262-296))
    - 哈希算法：
    - 示例：
  - [5. MultiHeadEmbedding (Lines 305-324)](#5. MultiHeadEmbedding (Lines 305-324))
  - - 作用：
    - 设计要点：
  - [6. Engram 模块 (Lines 326-378)](#6. Engram 模块 (Lines 326-378))
  - - 核心模块，整合上述组件。
    - [6.1 初始化 (Lines 326-356)](#6.1 初始化 (Lines 326-356))
    - [6.2 前向传播 (Lines 358-378)](#6.2 前向传播 (Lines 358-378))
    - 执行流程：
    - 门控激活函数：
  - [7. TransformerBlock (Lines 380-394)](#7. TransformerBlock (Lines 380-394))
  - - 设计要点：
- 四、完整数据流
- - 执行流程：
- 五、设计要点
- 六、优势

一、整体架构概述

Engram 是一个条件记忆模块，通过 N-gram 嵌入实现 O(1) 查找，作为 MoE 的补充。

核心思路：用静态 N-gram 记忆增强动态隐藏状态。

架构链路：

Vocab Embedding → Input Hidden → Transformer Block → (Conv / MoE / Scaled Dot Product Attention) → Concat → Engram (2-Gram Embedding / 3-Gram Embedding) → Hash → Hash

示例输入文本：Only Alexander the Great could tame the horse Bucephalus

二、官方示例代码输出记录

bash 复制代码

(engram) gaolou@GaodeMacBook-Pro Engram-main % python engram_demo_v1.py
============================================================
🚀 Engram 架构演示程序启动
============================================================

============================================================
📋 Engram 配置信息
============================================================
Tokenizer路径: deepseek-ai/DeepSeek-V3
N-gram词汇表大小: [646400, 646400]
最大N-gram大小: 3
每个N-gram嵌入维度: 512
每个N-gram头数: 8
插入Engram的层: [1, 15]
隐藏层大小: 1024
Hyper-connection倍数: 4
词汇表大小: 129280
Transformer层数: 30
============================================================

📦 正在构建模型架构...

🏗️  初始化Engram模块 (层 1)...

🔧 初始化N-gram哈希映射模块...
🔄 正在加载Tokenizer: deepseek-ai/DeepSeek-V3
✅ Tokenizer加载完成，原始词汇表大小: 128815
🔄 正在构建token压缩查找表...
   处理进度: 128815/128815 (100.0%)
✅ 查找表构建完成，压缩后词汇表大小: 128815 (压缩率: 100.00%)
   为 2 个层生成哈希乘数...
   ✅ 层 1 的哈希乘数已生成
   ✅ 层 15 的哈希乘数已生成
   正在为各层选择质数作为哈希模数...
     层 1, 2-gram, 头 1: 质数 646403
     层 1, 3-gram, 头 1: 质数 646537
     层 15, 2-gram, 头 1: 质数 646631
     层 15, 3-gram, 头 1: 质数 646781
✅ N-gram哈希映射模块初始化完成

✅ Engram模块 (层 1) 初始化完成

🏗️  初始化Engram模块 (层 15)...

🔧 初始化N-gram哈希映射模块...
🔄 正在加载Tokenizer: deepseek-ai/DeepSeek-V3
✅ Tokenizer加载完成，原始词汇表大小: 128815
🔄 正在构建token压缩查找表...
   处理进度: 128815/128815 (100.0%)
✅ 查找表构建完成，压缩后词汇表大小: 128815 (压缩率: 100.00%)
   为 2 个层生成哈希乘数...
   ✅ 层 1 的哈希乘数已生成
   ✅ 层 15 的哈希乘数已生成
   正在为各层选择质数作为哈希模数...
     层 1, 2-gram, 头 1: 质数 646403
     层 1, 3-gram, 头 1: 质数 646537
     层 15, 2-gram, 头 1: 质数 646631
     层 15, 3-gram, 头 1: 质数 646781
✅ N-gram哈希映射模块初始化完成

✅ Engram模块 (层 15) 初始化完成
✅ 模型架构构建完成: 1个嵌入层 + 30个Transformer块 + 1个输出层

📝 输入文本: Only Alexander the Great could tame the horse Bucephalus.
🔄 正在加载tokenizer并编码文本...
✅ 文本编码完成，token数量: 14

🔄 开始前向传播...
   输入形状: torch.Size([1, 14])

   层 0: 词嵌入层
      输入: torch.Size([1, 14])
      嵌入后: torch.Size([1, 14, 1024])
      Hyper-connection扩展后: torch.Size([1, 14, 4, 1024])

   层 2 (Transformer块 1): 包含Engram模块
   [层 1] 步骤1: 计算N-gram哈希索引...
🔄 正在计算N-gram哈希值...
   Token压缩完成，输入序列长度: 14
   ✅ 层 1 的哈希值计算完成，形状: (1, 14, 16)
   ✅ 层 15 的哈希值计算完成，形状: (1, 14, 16)
   [层 1] 步骤2: 从嵌入表查找N-gram嵌入...
   [层 1] 步骤3: 计算门控值 (共 4 个通道)...
   [层 1] 步骤4: 投影N-gram嵌入为值并应用门控...
   [层 1] 步骤5: 通过短卷积增强特征...
   [层 1] ✅ Engram处理完成，输出形状: torch.Size([1, 14, 4, 1024])
   层 5 (Transformer块 4): 标准Transformer块
   层 10 (Transformer块 9): 标准Transformer块
   层 15 (Transformer块 14): 标准Transformer块

   层 16 (Transformer块 15): 包含Engram模块
   [层 15] 步骤1: 计算N-gram哈希索引...
🔄 正在计算N-gram哈希值...
   Token压缩完成，输入序列长度: 14
   ✅ 层 1 的哈希值计算完成，形状: (1, 14, 16)
   ✅ 层 15 的哈希值计算完成，形状: (1, 14, 16)
   [层 15] 步骤2: 从嵌入表查找N-gram嵌入...
   [层 15] 步骤3: 计算门控值 (共 4 个通道)...
   [层 15] 步骤4: 投影N-gram嵌入为值并应用门控...
   [层 15] 步骤5: 通过短卷积增强特征...
   [层 15] ✅ Engram处理完成，输出形状: torch.Size([1, 14, 4, 1024])
   层 20 (Transformer块 19): 标准Transformer块
   层 25 (Transformer块 24): 标准Transformer块
   层 30 (Transformer块 29): 标准Transformer块

   层 31: 输出投影层
      Hyper-connection收缩后: torch.Size([1, 14, 1024])
      输出: torch.Size([1, 14, 129280])

============================================================
✅ 前向传播完成！
============================================================
📊 输入形状: torch.Size([1, 14])
📊 输出形状: torch.Size([1, 14, 129280])
============================================================

三、核心组件详解

1. 配置类 (Lines 38-58)

engram_demo_v1.py：38-58行

python 复制代码

@dataclass  # 使用数据类装饰器，自动生成__init__、__repr__等方法
class EngramConfig:
    tokenizer_name_or_path: str = "deepseek-ai/DeepSeek-V3"  # tokenizer的路径或名称
    engram_vocab_size: List[int] = field(default_factory=lambda: [129280*5, 129280*5])  # 每个N-gram的词汇表大小列表（2-gram和3-gram）
    max_ngram_size: int = 3  # 最大N-gram大小，支持2-gram和3-gram
    n_embed_per_ngram: int = 512  # 每个N-gram的嵌入维度总数
    n_head_per_ngram: int = 8  # 每个N-gram使用的注意力头数量
    layer_ids: List[int] = field(default_factory=lambda: [1, 15])  # 插入Engram模块的层ID列表
    pad_id: int = 2  # 填充token的ID，用于N-gram边界处理
    seed: int = 0  # 随机种子，确保哈希乘数的可复现性
    kernel_size: int = 4  # ShortConv卷积层的核大小

@dataclass  # 使用数据类装饰器定义骨干网络配置
class BackBoneConfig:
    hidden_size: int = 1024  # 隐藏状态的维度大小
    hc_mult: int = 4  # hyper-connection的倍数，表示并行通道数
    vocab_size: int = 129280  # 原始词汇表大小
    num_layers: int = 30  # Transformer的总层数

关键参数说明：

engram_vocab_size: 每个 N-gram 的词汇表大小（2-gram 和 3-gram）
max_ngram_size: 最大 N-gram 大小（2 和 3）
layer_ids: 插入 Engram 的层位置（第 1 和 15 层）

2. CompressedTokenizer (Lines 60-121)

作用：

压缩 tokenizer 词汇表，合并等价 token。
engram_demo_v1.py: 84-110行

核心代码 (Lines 84-110)：

python 复制代码

def _build_lookup_table(self):
    old2new = {}  # 原始token ID到新token ID的映射字典
    key2new = {}  # 归一化后的key到新token ID的映射字典
    new_tokens = []  # 存储压缩后的唯一token列表
    vocab_size = len(self.tokenizer)  # 获取原始tokenizer的词汇表大小
    for tid in range(vocab_size):  # 遍历所有原始token ID
        text = self.tokenizer.decode([tid], skip_special_tokens=False)  # 将token ID解码为文本
        
        if "" in text:  # 如果文本中包含空字符串（可能是特殊token）
            key = self.tokenizer.convert_ids_to_tokens(tid)  # 直接使用原始token表示作为key
        else:  # 对于普通token
            norm = self.normalizer.normalize_str(text)  # 对文本进行归一化处理（NFKC、NFD、去重音等）
            key = norm if norm else text  # 如果归一化结果为空，则使用原始文本
        nid = key2new.get(key)  # 查找该key是否已经存在
        if nid is None:  # 如果key不存在，创建新的ID
            nid = len(new_tokens)  # 新ID等于当前新token列表的长度
            key2new[key] = nid  # 将key映射到新ID
            new_tokens.append(key)  # 将key添加到新token列表
        old2new[tid] = nid  # 将原始token ID映射到新ID
    
    lookup = np.empty(vocab_size, dtype=np.int64)  # 创建numpy数组用于快速查找
    for tid in range(vocab_size):  # 填充查找表
        lookup[tid] = old2new[tid]  # 将映射关系存入数组
    return lookup, len(new_tokens)  # 返回查找表和压缩后的词汇表大小

核心机制：

归一化：NFKC、NFD、去重音、小写、空格规范化
映射：将原始 token ID 映射到压缩后的 ID，减少词汇表大小

3. ShortConv (Lines 123-179)

作用：

对 Engram 输出进行短卷积处理，捕获局部模式。
ngram_demo_v1.py: 156-179行

核心代码 (Lines 156-179)：

python 复制代码

def forward(self, x: torch.Tensor) -> torch.Tensor:
    """
    Input:  (B,L,HC_MULT,D)  # 输入形状：批次大小、序列长度、hyper-connection倍数、特征维度
    Output: (B,L,HC_MULT,D)  # 输出形状：与输入相同
    """
    B, T, G, C = x.shape  # 解包输入张量的维度：批次、时间步、组数、通道数
    
    assert G == self.hc_mult, f"Input groups {G} != hc_mult {self.hc_mult}"  # 验证输入组数是否匹配配置
    normed_chunks = []  # 存储归一化后的每个通道的chunk
    for i in range(G):  # 遍历每个hyper-connection通道
        chunk = x[:, :, i, :]  # 提取第i个通道的所有数据 [B, T, C]
        normed_chunks.append(self.norms[i](chunk))  # 对每个通道独立进行归一化
    
    x_norm = torch.cat(normed_chunks, dim=-1)  # 在最后一个维度拼接所有归一化的chunk
    x_bct = x_norm.transpose(1, 2)  # 转置为 [B, C, T] 格式，适配卷积层输入
    y_bct = self.conv(x_bct)  # 执行深度可分离卷积操作
    y_bct = y_bct[..., :T]  # 裁剪输出长度，确保与输入序列长度一致
    if self.activation:  # 如果配置了激活函数
        y_bct = self.act_fn(y_bct)  # 应用激活函数（如SiLU）
    y = y_bct.transpose(1, 2).view(B, T, G, C).contiguous()  # 转置回 [B, T, G, C] 并确保内存连续
    
    return y  # 返回处理后的张量

关键特性：

分组归一化：对每个 hyper-connection 通道独立归一化
深度可分离卷积：groups=total_channels，每个通道独立卷积
激活：SiLU

4. NgramHashMapping (Lines 188-303)

核心功能：

将 N-gram 序列映射到哈希索引，用于查找嵌入。
engram_demo_v1.py: 219-233行

4.1 初始化阶段 (Lines 219-233)

python 复制代码

self.layer_multipliers = {}  # 存储每层的哈希乘数字典
for layer_id in self.layer_ids:  # 遍历所有需要插入Engram的层ID
    base_seed = int(seed + PRIME_1 * int(layer_id))  # 为每层生成唯一的随机种子（基于层ID）
    g = np.random.default_rng(base_seed)  # 创建该层的随机数生成器
    r = g.integers(  # 生成随机整数数组
        low=0,  # 最小值
        high=half_bound,  # 最大值（half_bound是某个上界的一半）
        size=(self.max_ngram_size,),  # 数组大小等于最大N-gram大小
        dtype=np.int64  # 数据类型为64位整数
    )
    multipliers = r * 2 + 1  # 将随机数转换为奇数（乘以2加1确保为奇数）
    self.layer_multipliers[layer_id] = multipliers  # 存储该层的乘数数组
self.vocab_size_across_layers = self.calculate_vocab_size_across_layers()  # 计算所有层的词汇表大小配置

设计要点：

为每层生成随机乘数（奇数），用于哈希计算
使用种子确保可复现

4.2 质数选择策略 (Lines 235-260)

python 复制代码

def calculate_vocab_size_across_layers(self):
    seen_primes = set()  # 记录已使用的质数，避免重复
    vocab_size_across_layers = {}  # 存储每层每个N-gram每个head的词汇表大小
    
    for layer_id in self.layer_ids:  # 遍历所有需要Engram的层
        all_ngram_vocab_sizes = []  # 存储该层所有N-gram的词汇表大小
        for ngram in range(2, self.max_ngram_size + 1):  # 遍历2-gram到max_ngram_size
            current_ngram_heads_sizes = []  # 存储当前N-gram所有head的词汇表大小
            
            vocab_size = self.vocab_size_per_ngram[ngram - 2]  # 获取当前N-gram的基础词汇表大小
            num_head = self.n_head_per_ngram  # 获取每个N-gram的head数量
            current_prime_search_start = vocab_size - 1  # 从基础词汇表大小-1开始搜索质数
            
            for _ in range(num_head):  # 为每个head分配一个质数
                found_prime = find_next_prime(  # 查找下一个未使用的质数
                    current_prime_search_start,  # 搜索起始点
                    seen_primes  # 已使用的质数集合
                )
                seen_primes.add(found_prime)  # 将找到的质数加入已使用集合
                current_ngram_heads_sizes.append(found_prime)  # 将质数添加到当前N-gram的head大小列表
                current_prime_search_start = found_prime  # 更新搜索起始点，继续查找下一个质数
            
            all_ngram_vocab_sizes.append(current_ngram_heads_sizes)  # 将当前N-gram的所有head大小添加到列表
        vocab_size_across_layers[layer_id] = all_ngram_vocab_sizes  # 存储该层的所有N-gram配置
        
    return vocab_size_across_layers  # 返回所有层的词汇表大小配置

设计要点：

为每个 N-gram 的每个 head 选择不同的质数作为模数
质数模数有助于减少哈希冲突

4.3 N-gram 哈希计算 (Lines 262-296)

engram_demo_v1.py: 262-296行

python 复制代码

def _get_ngram_hashes(
    self,
    input_ids: np.ndarray,  # 输入的token ID数组 [B, T]
    layer_id: int,  # 当前处理的层ID
) -> np.ndarray:  # 返回所有N-gram和head的哈希索引 [B, T, num_heads_total]
    x = np.asarray(input_ids, dtype=np.int64)  # 确保输入为int64类型的numpy数组
    B, T = x.shape  # 获取批次大小和序列长度
    multipliers = self.layer_multipliers[layer_id]  # 获取当前层的哈希乘数数组
    
    def shift_k(k: int) -> np.ndarray:  # 定义时间偏移函数，用于构建N-gram
        if k == 0: return x  # k=0时返回原始序列
        shifted = np.pad(x, ((0, 0), (k, 0)),  # 在序列左侧填充k个pad_id
                        mode='constant', constant_values=self.pad_id)[:, :T]  # 填充后截取前T个元素
        return shifted  # 返回偏移后的序列，用于构建不同位置的N-gram
    
    base_shifts = [shift_k(k) for k in range(self.max_ngram_size)]  # 生成所有可能的偏移序列
    all_hashes = []  # 存储所有N-gram和head的哈希值
    
    for n in range(2, self.max_ngram_size + 1):  # 遍历2-gram到max_ngram_size
        n_gram_index = n - 2  # 计算N-gram在列表中的索引（2-gram对应索引0）
        tokens = base_shifts[:n]  # 获取构建n-gram所需的n个偏移序列
        mix = (tokens[0] * multipliers[0])  # 初始化混合值：第一个token乘以第一个乘数
        for k in range(1, n):  # 对剩余的token进行XOR混合
            mix = np.bitwise_xor(mix, tokens[k] * multipliers[k])  # 将第k个token乘以对应乘数后与mix进行XOR
        
        num_heads_for_this_ngram = self.n_head_per_ngram  # 获取当前N-gram的head数量
        head_vocab_sizes = self.vocab_size_across_layers[layer_id][n_gram_index]  # 获取当前N-gram所有head的词汇表大小（质数）
        
        for j in range(num_heads_for_this_ngram):  # 为每个head计算哈希索引
            mod = int(head_vocab_sizes[j])  # 获取当前head的模数（质数）
            head_hash = mix % mod  # 对混合值取模，得到该head的哈希索引
            all_hashes.append(head_hash.astype(np.int64, copy=False))  # 将哈希索引添加到列表
    
    return np.stack(all_hashes, axis=2)  # 将所有哈希值堆叠为 [B, T, num_heads_total] 形状

哈希算法：

时间偏移：生成不同位置的 token 序列（用于构建 N-gram）
混合计算：mix = (token[0] * mult[0]) XOR (token[1] * mult[1]) XOR ...
取模：hash = mix % prime，得到每个 head 的索引

示例：

对于 "hello world"，2-gram 为 ["hello", "world"]，3-gram 为 ["hello", "world", "next"]。

5. MultiHeadEmbedding (Lines 305-324)

作用：

多 head 嵌入查找，将不同 N-gram 和 head 的嵌入拼接。

engram_demo_v1.py: 305-324行

python 复制代码

class MultiHeadEmbedding(nn.Module):  # 多head嵌入查找模块
    def __init__(self, list_of_N: List[int], D: int):  # list_of_N: 每个head的词汇表大小列表，D: 嵌入维度
        super().__init__()  # 调用父类初始化
        self.num_heads = len(list_of_N)  # 记录head的总数量
        self.embedding_dim = D  # 记录嵌入维度
        
        offsets = [0]  # 初始化偏移列表，第一个head偏移为0
        for n in list_of_N[:-1]:  # 遍历除最后一个head外的所有head
            offsets.append(offsets[-1] + n)  # 计算每个head的起始偏移量（累加前一个head的词汇表大小）
        
        self.register_buffer("offsets", torch.tensor(offsets, dtype=torch.long))  # 将偏移量注册为buffer（不参与梯度更新）
        
        total_N = sum(list_of_N)  # 计算所有head的总词汇表大小
        self.embedding = nn.Embedding(num_embeddings=total_N, embedding_dim=D)  # 创建统一的嵌入表
    
    def forward(self, input_ids: torch.Tensor) -> torch.Tensor:  # input_ids: [B, T, num_heads] 形状的哈希索引
        shifted_input_ids = input_ids + self.offsets  # 为每个head的索引添加偏移量，确保不同head使用不同的ID范围
        output = self.embedding(shifted_input_ids)  # 从嵌入表中查找对应的嵌入向量
        
        return output  # 返回查找的嵌入向量 [B, T, num_heads, D]

设计要点：

偏移策略：为每个 head 分配不同的 ID 范围，避免冲突
统一嵌入表：所有 head 共享一个大嵌入表，通过偏移区分

6. Engram 模块 (Lines 326-378)

核心模块，整合上述组件。

6.1 初始化 (Lines 326-356)

python 复制代码

class Engram(nn.Module):  # Engram核心模块，整合所有组件
    def __init__(self,layer_id):  # layer_id: 当前层的ID
        super().__init__()  # 调用父类初始化
        self.layer_id = layer_id  # 保存层ID
        self.hash_mapping = NgramHashMapping(  # 初始化N-gram哈希映射模块
            engram_vocab_size=engram_cfg.engram_vocab_size,  # 每个N-gram的词汇表大小
            max_ngram_size = engram_cfg.max_ngram_size,  # 最大N-gram大小
            n_embed_per_ngram = engram_cfg.n_embed_per_ngram,  # 每个N-gram的总嵌入维度
            n_head_per_ngram = engram_cfg.n_head_per_ngram,  # 每个N-gram的head数量
            layer_ids = engram_cfg.layer_ids,  # 所有需要Engram的层ID列表
            tokenizer_name_or_path=engram_cfg.tokenizer_name_or_path,  # tokenizer路径
            pad_id = engram_cfg.pad_id,  # 填充token ID
            seed = engram_cfg.seed,  # 随机种子
        )
        self.multi_head_embedding = MultiHeadEmbedding(  # 初始化多head嵌入查找模块
            list_of_N = [x for y in self.hash_mapping.vocab_size_across_layers[self.layer_id] for x in y],  # 展平当前层所有N-gram所有head的词汇表大小
            D = engram_cfg.n_embed_per_ngram // engram_cfg.n_head_per_ngram,  # 每个head的嵌入维度
        )
        self.short_conv = ShortConv(  # 初始化短卷积模块
            hidden_size = backbone_config.hidden_size,  # 隐藏状态维度
            kernel_size = engram_cfg.kernel_size,  # 卷积核大小
            dilation    = engram_cfg.max_ngram_size,  # 卷积膨胀率
            hc_mult     = backbone_config.hc_mult,  # hyper-connection倍数
        )
        engram_hidden_size = (engram_cfg.max_ngram_size-1) * engram_cfg.n_embed_per_ngram  # 计算Engram隐藏状态大小（2-gram和3-gram的总嵌入维度）
        self.value_proj = nn.Linear(engram_hidden_size,backbone_config.hidden_size)  # 值投影层：将N-gram嵌入投影到隐藏空间
        self.key_projs = nn.ModuleList(  # 为每个hyper-connection通道创建独立的key投影层
            [nn.Linear(engram_hidden_size,backbone_config.hidden_size) for _ in range(backbone_config.hc_mult)]  # 创建hc_mult个线性层
        )
        self.norm1 = nn.ModuleList([nn.RMSNorm(backbone_config.hidden_size) for _ in range(backbone_config.hc_mult)])  # key的归一化层列表
        self.norm2 = nn.ModuleList([nn.RMSNorm(backbone_config.hidden_size) for _ in range(backbone_config.hc_mult)])  # query的归一化层列表

6.2 前向传播 (Lines 358-378)

engram_demo_v1.py: 358-378行

python 复制代码

def forward(self,hidden_states,input_ids):  # hidden_states: 隐藏状态，input_ids: token ID序列
    """
    hidden_states: [B, L, HC_MULT, D]  # 输入隐藏状态：批次、序列长度、hyper-connection倍数、特征维度
    input_ids: [B, L]  # 输入token ID：批次、序列长度
    """
    hash_input_ids = torch.from_numpy(self.hash_mapping.hash(input_ids)[self.layer_id])  # 将input_ids转换为N-gram哈希索引，并选择当前层的哈希结果
    embeddings = self.multi_head_embedding(hash_input_ids).flatten(start_dim=-2)  # 从嵌入表中查找N-gram嵌入，并展平head维度 [B, L, total_embed_dim]
    gates = []  # 存储每个hyper-connection通道的门控值
    for hc_idx in range(backbone_config.hc_mult):  # 遍历每个hyper-connection通道
        key = self.key_projs[hc_idx](embeddings)  # 将N-gram嵌入投影为key [B, L, D]
        normed_key = self.norm1[hc_idx](key)  # 对key进行RMS归一化
        query = hidden_states[:,:,hc_idx,:]  # 从隐藏状态中提取当前通道的query [B, L, D]
        normed_query = self.norm2[hc_idx](query)  # 对query进行RMS归一化
        gate = (normed_key * normed_query).sum(dim=-1) / math.sqrt(backbone_config.hidden_size)  # 计算点积相似度并缩放（类似注意力机制）
        gate = gate.abs().clamp_min(1e-6).sqrt() * gate.sign()  # 特殊激活：取绝对值、开方、恢复符号，增强区分度
        gate = gate.sigmoid().unsqueeze(-1)  # 应用sigmoid激活并增加维度 [B, L, 1]
        gates.append(gate)  # 将门控值添加到列表
    gates = torch.stack(gates,dim=2)  # 堆叠所有通道的门控值 [B, L, HC_MULT, 1]
    value = gates * self.value_proj(embeddings).unsqueeze(2)  # 将N-gram嵌入投影为value，并通过门控机制加权 [B, L, HC_MULT, D]
    output = value + self.short_conv(value)  # 残差连接：将卷积增强后的值与原始值相加
    return output  # 返回处理后的输出 [B, L, HC_MULT, D]

执行流程：

哈希查找：将 input_ids 转换为 N-gram 哈希索引
嵌入检索：从嵌入表中查找对应的 N-gram 嵌入
门控机制：
- Key：从 N-gram 嵌入生成
- Query：从隐藏状态生成
- Gate：通过点积计算相似度，使用特殊激活函数
值投影：将 N-gram 嵌入投影到隐藏空间
门控融合：value = gate * projected_embeddings
卷积增强：通过 ShortConv 进一步处理

门控激活函数：

python 复制代码

gate = gate.abs().clamp_min(1e-6).sqrt() * gate.sign()  # 取绝对值、确保最小值、开方、恢复原始符号
gate = gate.sigmoid()  # 应用sigmoid激活函数，将值压缩到(0,1)区间

先取绝对值、开方、恢复符号，再 sigmoid，增强门控的区分度。

7. TransformerBlock (Lines 380-394)

engram_demo_v1.py: 380-394行

python 复制代码

class TransformerBlock(nn.Module):  # Transformer块，整合Engram、Attention和MoE
    def __init__(self,layer_id):  # layer_id: 当前层的ID
        super().__init__()  # 调用父类初始化
        self.attn = lambda x:x  # 注意力模块占位符（demo中为恒等映射）
        self.moe  = lambda x:x  # MoE模块占位符（demo中为恒等映射）
        self.engram = None  # 初始化Engram模块为None
        if layer_id in engram_cfg.layer_ids:  # 如果当前层ID在配置的层列表中
            self.engram = Engram(layer_id=layer_id)  # 创建Engram模块实例
    
    def forward(self,input_ids,hidden_states):  # input_ids: token ID，hidden_states: 隐藏状态
        if self.engram is not None:  # 如果当前层有Engram模块
            hidden_states = self.engram(hidden_states=hidden_states,input_ids=input_ids) + hidden_states  # Engram增强：残差连接
        hidden_states = self.attn(hidden_states) + hidden_states  # 注意力层：残差连接
        hidden_states = self.moe(hidden_states) + hidden_states  # MoE层：残差连接
        return hidden_states  # 返回处理后的隐藏状态

设计要点：

仅在指定层插入 Engram
残差连接：hidden_states = engram_output + hidden_states
Attention 和 MoE 为占位（demo 中为恒等映射）

四、完整数据流

engram_demo_v1.py: 396-422行

python 复制代码

if __name__ == '__main__':  # 主程序入口
    LLM = [  # 构建完整的语言模型结构
        nn.Embedding(backbone_config.vocab_size,backbone_config.hidden_size),  # 词嵌入层：将token ID转换为嵌入向量
        *[TransformerBlock(layer_id=layer_id) for layer_id in range(backbone_config.num_layers)],  # 展开所有Transformer块（第1和15层包含Engram）
        nn.Linear(backbone_config.hidden_size, backbone_config.vocab_size)  # 输出投影层：将隐藏状态投影到词汇表大小
    ]
    text = "Only Alexander the Great could tame the horse Bucephalus."  # 测试文本
    tokenizer = AutoTokenizer.from_pretrained(engram_cfg.tokenizer_name_or_path,trust_remote_code=True)  # 加载tokenizer
    input_ids = tokenizer(text,return_tensors='pt').input_ids  # 将文本转换为token ID张量 [1, L]
    B,L = input_ids.shape  # 获取批次大小和序列长度
    for idx, layer in enumerate(LLM):  # 遍历模型的所有层
        if idx == 0:  # 第一层：词嵌入层
            hidden_states = LLM[0](input_ids)  # 将token ID转换为嵌入向量 [B, L, D]
            ## mock hyper-connection  # 模拟hyper-connection：扩展维度
            hidden_states = hidden_states.unsqueeze(2).expand(-1, -1, backbone_config.hc_mult, -1)  # [B, L, D] -> [B, L, HC_MULT, D]
        elif idx == len(LLM)-1:  # 最后一层：输出投影层
            ## mock hyper-connection  # 模拟hyper-connection：只使用第一个通道
            hidden_states = hidden_states[:,:,0,:]  # 从 [B, L, HC_MULT, D] 提取第一个通道 [B, L, D]
            output = layer(hidden_states)  # 投影到词汇表大小 [B, L, vocab_size]
        else:  # 中间层：Transformer块
            hidden_states = layer(input_ids=input_ids,hidden_states=hidden_states)  # 通过Transformer块处理
    print("✅ Forward Complete!")  # 打印完成信息
    print(f"{input_ids.shape=}\n{output.shape=}")  # 打印输入和输出的形状

执行流程：

Tokenization：文本 → token IDs
Embedding：token IDs → 初始嵌入
Hyper-connection 扩展：[B, L, D] → [B, L, HC_MULT, D]
逐层处理：
- 第 1、15 层：Engram 增强
- 其他层：标准 Transformer 块（demo 中为占位）
输出投影：[B, L, HC_MULT, D] → [B, L, vocab_size]

五、设计要点

O(1) 查找：通过哈希直接索引嵌入表
确定性寻址：相同 N-gram 总是映射到相同索引
多 head 设计：每个 N-gram 使用多个 head 减少冲突
条件记忆：通过门控机制动态融合静态 N-gram 记忆与动态隐藏状态
稀疏激活：仅在特定层使用 Engram

六、优势

效率：O(1) 查找，可卸载到主机内存
知识存储：静态 N-gram 记忆存储常见模式
互补性：与 MoE 形成计算与存储的权衡
可扩展：嵌入表可独立扩展

注意：该实现展示了 Engram 的核心逻辑，生产环境需要 CUDA 优化和分布式支持。