大模型llama结构技术点分享;transformer模型常见知识点nlp面经

1、大模型llama3技术点

参考:https://www.zhihu.com/question/662354435/answer/3572364267

Llama1-3,数据tokens从1-2T到15T;使用了MHA(GQA缓存);上下文长度从2-4-8K;应用了强化学习对其。

  • 1、pretraining((1) 初始预训练,(2) 长上下文预训练,以及 (3)

    退火(Annealing))+posttraing(SFT+DPO)

  • 2、合成数据应用

  • 3、Norm函数:RMSNorm,Norm结构:Pre-Norm,Self Attention: Grouped Query Attention(GQA) ,Position编码:ROPE,FFN结构:SwiGLU

Norm函数:RMSNorm

Norm结构:Pre-Norm

Self Attention: Grouped Query Attention(GQA)Position编码:ROPE

FFN结构:SwiGLU

2、transformer模型常见知识点

大模型面经:

https://docs.qq.com/doc/DSGtaUUpydFBEd2FC

相关推荐
AKAMAI15 分钟前
从 Cloudflare 服务中断,看建立多维度风险应对机制的必要
人工智能·云原生·云计算
道可云24 分钟前
道可云人工智能每日资讯|2025青岛虚拟现实创新大会即将举行
人工智能·vr
酷雷曼VR全景29 分钟前
身边的变化丨从“尝鲜”到“刚需”,VR全景让生活“立体化”
人工智能·生活·vr·vr全景·酷雷曼·合作商
m0_6501082435 分钟前
Flamingo:打破模态壁垒的少样本视觉语言模型
论文阅读·人工智能·视觉语言模型·deepmind·vlm·通用智能·通用小样本适配
gorgeous(๑>؂<๑)40 分钟前
【ICLR26匿名投稿】Context-Aware ViT:让目标检测真正“看清上下文”的增强策略
人工智能·目标检测·机器学习·计算机视觉·目标跟踪
AI大模型学徒41 分钟前
NLP基础(七)_文本分析与关键词提取
人工智能·自然语言处理
汤姆yu1 小时前
基于深度学习的健康饮食推荐系统
人工智能·深度学习
2501_941149111 小时前
AI与自动化:未来工作的变革与机遇
人工智能
张人玉1 小时前
OCR 字符识别助手详解(含 Halcon 示例)
人工智能·机器学习·计算机视觉·halcon
z***I3941 小时前
Git机器学习
人工智能·git·机器学习