大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

不是。

BPE 结束后,模型拿到的已经是 整数序列(token id) ,下一跳直接就是 nn.Embedding(即可训练的稠密向量),根本不会再走 one-hot。流程如下:

  1. 文本 → BPE 分词 → [token₁, token₂, ...]
  2. token → 查表(vocab_size × hidden_dim 的矩阵)→ [e₁, e₂, ...]
  3. 后续 Transformer 层在稠密向量上运算。

one-hot 只在教学推导 里出现(维度 = vocab_size,1 个 1 其余 0),用来写公式

output = one_hot @ Embedding_matrix

实际代码里直接用 embedding(idx) 查表,效率更高、内存更省。

相关推荐
Pluchon8 小时前
硅基计划4.0 算法 动态规划高阶
java·数据结构·算法·leetcode·深度优先·动态规划
科学计算技术爱好者8 小时前
NVIDIA GPU 系列用途分类梳理
人工智能·算法·gpu算力
程序员敲代码吗8 小时前
嵌入式C++开发注意事项
开发语言·c++·算法
好学且牛逼的马8 小时前
【Hot100|14-LeetCode53. 最大子数组和】
数据结构·算法·leetcode
无心水9 小时前
17、Go协程通关秘籍:主协程等待+多协程顺序执行实战解析
开发语言·前端·后端·算法·golang·go·2025博客之星评选投票
东华果汁哥9 小时前
【机器视觉 行人检测算法】FastAPI 部署 YOLO 11行人检测 API 服务教程
算法·yolo·fastapi
每天学一点儿9 小时前
[SimpleITK] 教程 63:配准初始化 (Registration Initialization) —— 从几何对齐到手动干预。
算法
君义_noip9 小时前
信息学奥赛一本通 1463:门票
c++·算法·哈希算法·信息学奥赛·csp-s
永远都不秃头的程序员(互关)9 小时前
【决策树深度探索(二)】决策树入门:像人类一样决策,理解算法核心原理!
算法·决策树·机器学习