大模型llama结构技术点分享;transformer模型常见知识点nlp面经

1、大模型llama3技术点

参考:https://www.zhihu.com/question/662354435/answer/3572364267

Llama1-3,数据tokens从1-2T到15T;使用了MHA(GQA缓存);上下文长度从2-4-8K;应用了强化学习对其。

  • 1、pretraining((1) 初始预训练,(2) 长上下文预训练,以及 (3)

    退火(Annealing))+posttraing(SFT+DPO)

  • 2、合成数据应用

  • 3、Norm函数:RMSNorm,Norm结构:Pre-Norm,Self Attention: Grouped Query Attention(GQA) ,Position编码:ROPE,FFN结构:SwiGLU

Norm函数:RMSNorm

Norm结构:Pre-Norm

Self Attention: Grouped Query Attention(GQA)Position编码:ROPE

FFN结构:SwiGLU

2、transformer模型常见知识点

大模型面经:

https://docs.qq.com/doc/DSGtaUUpydFBEd2FC

相关推荐
終不似少年遊*1 分钟前
MindSpore框架学习项目-ResNet药物分类-数据增强
人工智能·深度学习·分类·数据挖掘·华为云·resnet·modelart
百锦再9 分钟前
MK米客方德SD NAND:无人机存储的高效解决方案
人工智能·python·django·sqlite·android studio·无人机·数据库开发
侃山21 分钟前
NNLM神经网络语言模型总结
人工智能·神经网络·语言模型
Rachelhi24 分钟前
C++.神经网络与深度学习(赶工版)(会二次修改)
c++·深度学习·神经网络
徐行tag31 分钟前
深度学习基础
人工智能·深度学习
大数网37 分钟前
金融科技比惨:恒生电子减员2200人、宇信科技同比营收-24%,长亮科技同比净利-42%
大数据·人工智能·科技·金融
kovlistudio1 小时前
机器学习第十一讲:标准化 → 把厘米和公斤单位统一成标准值
人工智能·机器学习
水煮蛋不加蛋2 小时前
RAG 赋能客服机器人:多轮对话与精准回复
人工智能·ai·机器人·大模型·llm·rag
池央3 小时前
GPUGeek携手ComfyUI :低成本文生图的高效解决方案
人工智能
Mr.Winter`4 小时前
深度强化学习 | 图文详细推导软性演员-评论家SAC算法原理
人工智能·深度学习·神经网络·机器学习·数据挖掘·机器人·强化学习