大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

不是。

BPE 结束后,模型拿到的已经是 整数序列(token id) ,下一跳直接就是 nn.Embedding(即可训练的稠密向量),根本不会再走 one-hot。流程如下:

  1. 文本 → BPE 分词 → [token₁, token₂, ...]
  2. token → 查表(vocab_size × hidden_dim 的矩阵)→ [e₁, e₂, ...]
  3. 后续 Transformer 层在稠密向量上运算。

one-hot 只在教学推导 里出现(维度 = vocab_size,1 个 1 其余 0),用来写公式

output = one_hot @ Embedding_matrix

实际代码里直接用 embedding(idx) 查表,效率更高、内存更省。

相关推荐
汀、人工智能8 小时前
[特殊字符] 第40课:二叉树最大深度
数据结构·算法·数据库架构·图论·bfs·二叉树最大深度
沉鱼.448 小时前
第十二届题目
java·前端·算法
建行一世8 小时前
【Windows笔记本大模型“傻瓜式”教程】使用LLaMA-Factory工具来完成对Windows笔记本大模型Qwen2.5-3B-Instruct微调
windows·ai·语言模型·llama
大熊背9 小时前
ISP Pipeline中Lv实现方式探究之三--lv计算定点实现
数据结构·算法·自动曝光·lv·isppipeline
西岸行者9 小时前
BF信号是如何多路合一的
算法
大熊背10 小时前
ISP Pipeline中Lv实现方式探究之一
算法·自动白平衡·自动曝光
罗西的思考10 小时前
【OpenClaw】通过 Nanobot 源码学习架构---(5)Context
人工智能·算法·机器学习
Liudef0611 小时前
后量子密码学(PQC)深度解析:算法原理、标准进展与软件开发行业的影响
算法·密码学·量子计算
OYpBNTQXi12 小时前
SEAL全同态加密CKKS方案入门详解
算法·机器学习·同态加密
蚂蚁数据AntData13 小时前
破解AI“机器味“困境:HeartBench评测实践详解
大数据·人工智能·算法·机器学习·语言模型·开源