大语言模型 bpe算法后面对接的是 one-hot吗 nn.Embedding

zhangfeng11332026-01-25 13:14

不是。

BPE 结束后，模型拿到的已经是 整数序列（token id） ，下一跳直接就是 nn.Embedding（即可训练的稠密向量），根本不会再走 one-hot。流程如下：

文本 → BPE 分词 → $token₁, token₂, ...$
token → 查表（vocab_size × hidden_dim 的矩阵）→ $e₁, e₂, ...$
后续 Transformer 层在稠密向量上运算。

one-hot 只在教学推导 里出现（维度 = vocab_size，1 个 1 其余 0），用来写公式

output = one_hot @ Embedding_matrix

实际代码里直接用 embedding(idx) 查表，效率更高、内存更省。

上一篇：Tesseract+easyocr 混合策略ocr

下一篇：一文掌握 MongoDB 详细安装与配置（Windows / Linux / macOS 全平台）

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026 年 AI 大模型 & AI 编程工具实战全总结 10Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚