Qwen2.5简要全流程以及Q&A

1 输入prompt 得到input id

input id: [B,L] # batch size , lenth

2 embeding之后得到 input_embeds: [B,L,D] # demensions

3 进入Transformer层

先通过linear层得到shape不变的 QKV

多头注意力 分割Dimension , kv变成 [B,H,L,head_dim] h是head,head_dim * head = Dimension

(如果有kvcache的话):

new key [B, H, 1 head_dim]

past key [B,H,L_prev,dim]

concat:[B,H,L_prev+1,dim]

Attn输出 [B,L,D]

outputs = self.transformer(input_ids, ...)

final_hidden_states = outputs[0] # shape: [B, L, D]

logits = self.lm_head(final_hidden_states) # shape: [B, L, vocab_size]

self.transformer 是由多层 Qwen2Block(带 attention + feedforward)堆叠组成,每层更新一次 hidden state。最终最后一层输出的 hidden state 就是 final_hidden_states。

logits = lm_head(final_hidden_states)

→ [B, L, vocab_size]

(值是每个位置对每个词的预测得分)

遇到到是哪个token_id之后 用tokenizer.decode()得到最终的词

lm_head是什么

语言建模头(Language Modeling Head)

一个线性层,将输出的hidden_states映射到词表维度

vocab_size = 151936, hidden_size = 4096

self.lm_head = nn.Linear(4096, 151936, bias=False)

得到logits之后还有一个sampling的过程

greedy sampling 直接取最大值

next_token = ops.argmax(next_token_logits, axis=-1) # [B]

Top-k / Top-p Sampling:

用 softmax 得到概率

probs = ops.softmax(next_token_logits, axis=-1) # [B, vocab_size]

根据策略采样

next_token = sample_from(probs, top_k=50, top_p=0.95, temperature=1.0)

top_k 取前k个概率大的

top_p 累积概率小于0.95

相关推荐
qq_5710993538 分钟前
学习周报三十九
人工智能·深度学习·机器学习
AI医影跨模态组学1 小时前
Radiology子刊(IF=6.3)复旦大学附属金山医院强金伟教授等团队:基于多参数MRI的深度学习和影像组学评估早期宫颈癌淋巴结转移
人工智能·深度学习·论文·医学·医学影像
极光代码工作室1 小时前
基于深度学习的智能垃圾分类系统
python·深度学习·神经网络·机器学习·ai
卡梅德生物科技小能手2 小时前
CD301(巨噬细胞半乳糖型凝集素):免疫稳态调控与靶向治疗的研究进展
经验分享·深度学习·生活
多年小白2 小时前
OpenAI 发布 DALL-E 4:4K分辨率+视频生成,AI图像创作进入新阶段
网络·人工智能·科技·深度学习·计算机视觉
67X2 小时前
【论文写作】基于深度学习的异常检测方法(Deep learning-based anomaly detection methods)
深度学习·网络安全
SkyXZ~2 小时前
RDK-OE-LLM工具链量化SigLip全流程
人工智能·深度学习·rdk·地瓜机器人·rdks100·leap工具链
Learn Beyond Limits2 小时前
多层循环神经网络|Multi-layer RNNs
人工智能·rnn·深度学习·神经网络·机器学习·自然语言处理·nlp
龙文浩_2 小时前
AI深度学习神经网络的结构设计与激活机制
人工智能·深度学习·神经网络
Pushkin.3 小时前
LLM预训练完全指南:从理论到NanoQwen实战
人工智能·深度学习·机器学习