大模型llama结构技术点分享;transformer模型常见知识点nlp面经

1、大模型llama3技术点

参考:https://www.zhihu.com/question/662354435/answer/3572364267

Llama1-3,数据tokens从1-2T到15T;使用了MHA(GQA缓存);上下文长度从2-4-8K;应用了强化学习对其。

  • 1、pretraining((1) 初始预训练,(2) 长上下文预训练,以及 (3)

    退火(Annealing))+posttraing(SFT+DPO)

  • 2、合成数据应用

  • 3、Norm函数:RMSNorm,Norm结构:Pre-Norm,Self Attention: Grouped Query Attention(GQA) ,Position编码:ROPE,FFN结构:SwiGLU

Norm函数:RMSNorm

Norm结构:Pre-Norm

Self Attention: Grouped Query Attention(GQA)Position编码:ROPE

FFN结构:SwiGLU

2、transformer模型常见知识点

大模型面经:

https://docs.qq.com/doc/DSGtaUUpydFBEd2FC

相关推荐
哥布林学者1 分钟前
吴恩达深度学习课程四:计算机视觉 第四周:卷积网络应用 课后习题和代码实践
深度学习·ai
学习3人组3 分钟前
主流深度学习目标检测模型性能对比表
人工智能·深度学习·目标检测
非著名架构师13 分钟前
2026年元旦气象营销策略:天气数据如何精准驱动节日销售增长与商业决策
人工智能·风电功率预测·光伏功率预测·高精度天气预报数据·galeweather.cn·高精度气象
发光发热吧17 分钟前
2025年终总结:AI浪潮下的一年
人工智能·agent·年终总结
数据猿20 分钟前
【金猿人物展】海尔智慧家尹德帅:以数据智能重构智慧家庭生态,引领场景品牌数字化转型新范式
大数据·人工智能·重构
想要成为计算机高手30 分钟前
VLA中人类数据迁移到机器人后的涌现 -- physical intelligence -- 2025.12.16
人工智能·机器人·具身智能·vla
路人与大师35 分钟前
大规模多变量AutoML调参实验报告
人工智能·深度学习·机器学习
MoonBit月兔36 分钟前
生态影响力持续提升,MoonBit 登 2025 中国技术品牌影响力榜单
大数据·人工智能·ai编程·moonbit
2501_9452921739 分钟前
AI证书的十字路口:政策变动后,国际通行证正在贬值吗?
人工智能
城市直通车2 小时前
聚焦产业落地与生态共建小拼AI携手火山引擎共推AIGC电商智能化升级
人工智能·aigc·火山引擎