大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

不是。

BPE 结束后,模型拿到的已经是 整数序列(token id) ,下一跳直接就是 nn.Embedding(即可训练的稠密向量),根本不会再走 one-hot。流程如下:

  1. 文本 → BPE 分词 → token₁, token₂, ...
  2. token → 查表(vocab_size × hidden_dim 的矩阵)→ e₁, e₂, ...
  3. 后续 Transformer 层在稠密向量上运算。

one-hot 只在教学推导 里出现(维度 = vocab_size,1 个 1 其余 0),用来写公式

  output = one_hot @ Embedding_matrix

实际代码里直接用 embedding(idx) 查表,效率更高、内存更省。

相关推荐
To_OC3 小时前
LC 200 岛屿数量:经典 DFS 入门题,我第一次写居然连方向都搞错了
javascript·算法·leetcode
To_OC20 小时前
LC 128 最长连续序列:别上来就排序,O (n) 解法才是这题的灵魂
javascript·算法·leetcode
05Kevin1 天前
lk每日冒险题--数据结构6.27
算法
To_OC2 天前
从一次栈溢出报错说起,我把递归彻底扒明白了
javascript·算法·程序员
千纸鹤安安2 天前
千问Qwen-AgentWorld来了:一个语言模型搞定七大Agent场景,GPT-5.4都输了
算法
七牛开发者2 天前
MCP 到底是什么?为什么 Agent 都想接上它
算法·aigc·agent
kisshyshy2 天前
从递归到迭代,一文吃透二叉树的核心知识与 JavaScript 实现
javascript·算法·代码规范