大模型llama结构技术点分享；transformer模型常见知识点nlp面经

loong_XL2024-07-26 14:55

1、大模型llama3技术点

参考：https://www.zhihu.com/question/662354435/answer/3572364267

Llama1-3，数据tokens从1-2T到15T;使用了MHA（GQA缓存）；上下文长度从2-4-8K；应用了强化学习对其。

1、pretraining（(1) 初始预训练，(2) 长上下文预训练，以及 (3)

退火（Annealing））+posttraing（SFT+DPO）
2、合成数据应用
3、Norm函数:RMSNorm，Norm结构:Pre-Norm，Self Attention: Grouped Query Attention(GQA) ，Position编码:ROPE，FFN结构:SwiGLU

Norm函数:RMSNorm

Norm结构:Pre-Norm

Self Attention: Grouped Query Attention(GQA)Position编码:ROPE

FFN结构:SwiGLU

2、transformer模型常见知识点

大模型面经：

https://docs.qq.com/doc/DSGtaUUpydFBEd2FC

上一篇：日志和数据库备份

下一篇：用excel能做出这些报表吗？

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？082026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元 09Codex 下载安装指南：Windows 和 macOS 官方版下载 102026 年 AI 大模型 & AI 编程工具实战全总结