大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

不是。

BPE 结束后,模型拿到的已经是 整数序列(token id) ,下一跳直接就是 nn.Embedding(即可训练的稠密向量),根本不会再走 one-hot。流程如下:

  1. 文本 → BPE 分词 → [token₁, token₂, ...]
  2. token → 查表(vocab_size × hidden_dim 的矩阵)→ [e₁, e₂, ...]
  3. 后续 Transformer 层在稠密向量上运算。

one-hot 只在教学推导 里出现(维度 = vocab_size,1 个 1 其余 0),用来写公式

output = one_hot @ Embedding_matrix

实际代码里直接用 embedding(idx) 查表,效率更高、内存更省。

相关推荐
那个村的李富贵10 小时前
CANN加速下的AIGC“即时翻译”:AI语音克隆与实时变声实战
人工智能·算法·aigc·cann
陈天伟教授10 小时前
人工智能应用- 语言理解:04.大语言模型
人工智能·语言模型·自然语言处理
power 雀儿10 小时前
Scaled Dot-Product Attention 分数计算 C++
算法
琹箐11 小时前
最大堆和最小堆 实现思路
java·开发语言·算法
renhongxia111 小时前
如何基于知识图谱进行故障原因、事故原因推理,需要用到哪些算法
人工智能·深度学习·算法·机器学习·自然语言处理·transformer·知识图谱
坚持就完事了11 小时前
数据结构之树(Java实现)
java·算法
算法备案代理11 小时前
大模型备案与算法备案,企业该如何选择?
人工智能·算法·大模型·算法备案
赛姐在努力.12 小时前
【拓扑排序】-- 算法原理讲解,及实现拓扑排序,附赠热门例题
java·算法·图论
野犬寒鸦13 小时前
从零起步学习并发编程 || 第六章:ReentrantLock与synchronized 的辨析及运用
java·服务器·数据库·后端·学习·算法
霖霖总总13 小时前
[小技巧66]当自增主键耗尽:MySQL 主键溢出问题深度解析与雪花算法替代方案
mysql·算法