Transformer输入嵌入与绝对位置编码

一、核心基础概念

（一）输入嵌入

输入嵌入的核心作用是将离散的词汇token转化为连续的向量表示，便于模型进行后续的语义计算，其维度计算逻辑遵循固定规则：嵌入矩阵维度 = 词汇表大小 × 隐藏层维度。

示例：若词汇表大小为10000，隐藏层维度设为512，则嵌入矩阵的维度为10000×512，每个词汇会被映射为一个512维的向量，实现离散符号到连续空间的转换。

（二）绝对位置编码

Transformer模型的编码器、解码器均为无时序的结构，无法直接捕捉文本中词汇的顺序信息，绝对位置编码的核心作用就是补充文本时序特征，让模型感知到词汇在序列中的位置差异。

1. 核心计算公式

针对序列中位置pos（0 ≤ pos < L，L为序列长度）和隐藏层维度d（0 ≤ d < D，D为隐藏层维度），位置编码PE(pos, d)的计算分两种情况：

当d为偶数时：PE(pos, d) = sin(pos / 10000^(2i/D))
当d为奇数时：PE(pos, d) = cos(pos / 10000^(2i/D))

其中i = d / 2（整数除法），即将相邻的偶数、奇数维度绑定到同一指数计算中，确保位置信息在不同维度上的差异化表示。

2. 计算逻辑说明

公式中引入10000的幂次，是为了让不同位置的编码具有足够的区分度------位置越靠前，分母越小，角度越大；位置越靠后，分母越大，角度越小，从而通过sin、cos函数生成周期性变化的向量，编码不同位置信息。

（三）残差连接与Add操作

残差连接是Transformer模型的关键结构之一，核心作用是缓解深层网络的梯度消失问题，提升模型训练稳定性。其中"Add"操作的核心逻辑是将子模块的输入与该模块的输出直接相加，要求输入与输出的维度完全一致（如输入嵌入向量与位置编码向量维度均为D，相加后维度保持不变）。

在输入嵌入与位置编码的结合中，通常会先将嵌入向量与位置编码向量执行Add操作，再传入后续的归一化（Norm）模块，完成输入层的处理。

二、绝对位置编码C++实现

本次C++实现的核心目标是编写函数接收序列长度L和隐藏层维度D，输出L×D的位置编码矩阵，确保代码可正常编译、无内存泄漏，矩阵维度匹配输入参数，且数值精度满足手动计算误差在1e-6以内的要求。

（一）完整代码实现

复制代码

#include <iostream>
#include <vector>
#include <cmath>
#include <iomanip>  // 用于格式化输出

// 计算绝对位置编码矩阵
// 参数：L-序列长度，D-隐藏层维度
// 返回：L×D的位置编码矩阵
std::vector<std::vector<double>> compute_position_encoding(int L, int D) {
    std::vector<std::vector<double>> pos_encoding(L, std::vector<double>(D, 0.0));
    
    for (int pos = 0; pos < L; ++pos) {
        for (int d = 0; d < D; ++d) {
            int i = d / 2;  // 维度索引的一半，用于计算指数
            // 计算 10000^(2i/D)，转化为exp((2i/D)*ln(10000)) 避免大数计算问题
            double denominator = exp((2.0 * i / D) * log(10000.0));
            double angle = pos / denominator;
            
            // 根据维度奇偶性选择sin/cos
            if (d % 2 == 0) {
                pos_encoding[pos][d] = sin(angle);
            } else {
                pos_encoding[pos][d] = cos(angle);
            }
        }
    }
    
    return pos_encoding;
}

void validate_and_print(const std::vector<std::vector<double>>& matrix, int L, int D) {
    bool dim_ok = (matrix.size() == L);
    for (const auto& row : matrix) {
        if (row.size() != D) {
            dim_ok = false;
            break;
        }
    }
    
    std::cout << "维度验证结果：" << (dim_ok ? "正确" : "错误") << std::endl;
    std::cout << "矩阵维度：" << matrix.size() << " × " << (matrix.empty() ? 0 : matrix[0].size()) << std::endl;
    
    std::cout << "\n前3行的前8列数值（精度保留6位小数）：" << std::endl;
    std::cout << std::fixed << std::setprecision(6);
    int print_rows = std::min(3, L);
    int print_cols = std::min(8, D);
    for (int i = 0; i < print_rows; ++i) {
        std::cout << "第" << i << "行：";
        for (int j = 0; j < print_cols; ++j) {
            std::cout << matrix[i][j] << " ";
        }
        std::cout << std::endl;
    }
}

int main() {
    int L = 4;
    int D = 512;
    
    auto pos_encoding = compute_position_encoding(L, D);
    
    validate_and_print(pos_encoding, L, D);
    
    return 0;
}

（二）核心计算逻辑重点

核心计算函数compute_position_encoding是实现位置编码的关键，重点在于公式优化与内存安全保障。函数通过vector嵌套初始化L行D列的矩阵，无需手动管理内存，从根源避免内存泄漏；随后通过双重循环遍历每个位置pos与维度d，逐一计算编码值，其中最关键的是指数计算的优化------未直接使用pow函数计算10000的高次幂，而是通过exp与log的恒等变换将其转化为exp((2.0*i/D)*log(10000.0))，有效避免大数高次幂计算导致的数值溢出或精度丢失，保证计算稳定性；最后严格遵循公式，对偶数维度采用sin函数、奇数维度采用cos函数计算编码值，生成差异化位置编码向量并返回。

三、验证结果

使用C++11及以上编译器编译运行代码后，输入L=4、D=512时，输出矩阵维度验证正确（4×512），数值误差控制在1e-6以内，其中pos=0、d=0输出0.000000，d=1输出1.000000，d=2输出0.000000，d=3输出1.000000，完全满足实现要求。

四、核心总结

输入嵌入是词汇从离散到连续的关键，维度由词汇表大小与隐藏层维度共同决定；绝对位置编码通过sin、cos周期性函数补充文本时序信息，exp与log的恒等变换是避免数值失真的核心优化手段；C++实现中vector的使用兼顾内存安全与便捷性，经验证，代码可正常运行、维度与数值精度均满足要求；残差连接的Add操作需保证输入与输出维度一致，为模型深层训练奠定基础。