大模型llama结构技术点分享;transformer模型常见知识点nlp面经

1、大模型llama3技术点

参考:https://www.zhihu.com/question/662354435/answer/3572364267

Llama1-3,数据tokens从1-2T到15T;使用了MHA(GQA缓存);上下文长度从2-4-8K;应用了强化学习对其。

  • 1、pretraining((1) 初始预训练,(2) 长上下文预训练,以及 (3)

    退火(Annealing))+posttraing(SFT+DPO)

  • 2、合成数据应用

  • 3、Norm函数:RMSNorm,Norm结构:Pre-Norm,Self Attention: Grouped Query Attention(GQA) ,Position编码:ROPE,FFN结构:SwiGLU

Norm函数:RMSNorm

Norm结构:Pre-Norm

Self Attention: Grouped Query Attention(GQA)Position编码:ROPE

FFN结构:SwiGLU

2、transformer模型常见知识点

大模型面经:

https://docs.qq.com/doc/DSGtaUUpydFBEd2FC

相关推荐
sendnews24 分钟前
红松小课首次亮相北京老博会,四大业务矩阵赋能退休生活提质升级
人工智能·物联网
停停的茶1 小时前
深度学习——图像分割
人工智能·深度学习
MIXLLRED1 小时前
自动驾驶技术全景解析:从感知、决策到控制的演进与挑战
人工智能·机器学习·自动驾驶
金融Tech趋势派1 小时前
企业微信AI SCRM推荐:从技术适配与场景功能实践进行评估
大数据·人工智能
Wnq100722 小时前
AI 在法律咨询服务中的革命性变化:技术赋能与生态重构
人工智能·职场和发展·重构·分类·数据分析·全文检索·创业创新
茶杯6752 小时前
极睿iClip易视频:2025年AI混剪领域的革新工具,重构电商内容生产逻辑
人工智能
一点一木2 小时前
🚀 2025 年 10 月 GitHub 十大热门项目排行榜 🔥
前端·人工智能·github
湘-枫叶情缘2 小时前
程序与工业:从附庸到共生,在AI浪潮下的高维重构
人工智能·重构
音视频牛哥2 小时前
狂飙与重构:机器人IPO浪潮背后的系统焦虑与感知进化
人工智能·计算机视觉·机器人·音视频·多智能体协同·rtsp播放器rtmp播放器·视频感知低延迟音视频