大模型llama结构技术点分享;transformer模型常见知识点nlp面经

1、大模型llama3技术点

参考:https://www.zhihu.com/question/662354435/answer/3572364267

Llama1-3,数据tokens从1-2T到15T;使用了MHA(GQA缓存);上下文长度从2-4-8K;应用了强化学习对其。

  • 1、pretraining((1) 初始预训练,(2) 长上下文预训练,以及 (3)

    退火(Annealing))+posttraing(SFT+DPO)

  • 2、合成数据应用

  • 3、Norm函数:RMSNorm,Norm结构:Pre-Norm,Self Attention: Grouped Query Attention(GQA) ,Position编码:ROPE,FFN结构:SwiGLU

Norm函数:RMSNorm

Norm结构:Pre-Norm

Self Attention: Grouped Query Attention(GQA)Position编码:ROPE

FFN结构:SwiGLU

2、transformer模型常见知识点

大模型面经:

https://docs.qq.com/doc/DSGtaUUpydFBEd2FC

相关推荐
葡萄城技术团队5 分钟前
Wyn商业智能:问答式自助BI工具如何重塑企业数据分析模式?
人工智能·数据挖掘·数据分析
云霄星乖乖的果冻8 分钟前
02预备知识——李沐《动手学深度学习》个人笔记
人工智能·笔记·深度学习
工藤学编程8 分钟前
零基础学AI大模型之LangChain Retriever
人工智能·langchain
阿杰学AI11 分钟前
AI核心知识47——大语言模型之Data Cleaning(简洁且通俗易懂版)
人工智能·ai·语言模型·aigc·数据清洗·模型训练·data cleaning
AI营销视界12 分钟前
2025金融GEO厂商谁领风骚
人工智能
deephub13 分钟前
机器学习超参数调优:十个实用的贝叶斯优化(Bayesian Optimization)进阶技巧
人工智能·python·深度学习·机器学习·贝叶斯优化
BJ_Bonree14 分钟前
数智先锋 | 博睿数据×海尔消费金融:破解高频并发与强监管难题!
大数据·人工智能·金融
微盛企微增长小知识14 分钟前
2025企业微信私有化部署服务商:微盛AI·企微管家的安全与效率实践
人工智能·安全·企业微信
王夏奇15 分钟前
A2L变量的分类
人工智能·分类·数据挖掘
攻城狮7号16 分钟前
AI时代的工业数据心脏:如何选择真正面向未来的时序数据库?
大数据·人工智能·时序数据库·apache iotdb·ainode·iotdb mcp