大模型llama结构技术点分享;transformer模型常见知识点nlp面经

1、大模型llama3技术点

参考:https://www.zhihu.com/question/662354435/answer/3572364267

Llama1-3,数据tokens从1-2T到15T;使用了MHA(GQA缓存);上下文长度从2-4-8K;应用了强化学习对其。

  • 1、pretraining((1) 初始预训练,(2) 长上下文预训练,以及 (3)

    退火(Annealing))+posttraing(SFT+DPO)

  • 2、合成数据应用

  • 3、Norm函数:RMSNorm,Norm结构:Pre-Norm,Self Attention: Grouped Query Attention(GQA) ,Position编码:ROPE,FFN结构:SwiGLU

Norm函数:RMSNorm

Norm结构:Pre-Norm

Self Attention: Grouped Query Attention(GQA)Position编码:ROPE

FFN结构:SwiGLU

2、transformer模型常见知识点

大模型面经:

https://docs.qq.com/doc/DSGtaUUpydFBEd2FC

相关推荐
SaaS_Product9 小时前
企业网盘可以在局域网使用吗?
网络·人工智能·云计算·saas
落雨盛夏9 小时前
深度学习|李哥考研3
人工智能·深度学习
ZCXZ12385296a10 小时前
甲骨拓片智能识别与检测_YOLOv8_LQEHead优化实现_甲骨文图像目标检测
人工智能·yolo·目标检测
Coding茶水间10 小时前
基于深度学习的路面裂缝检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
开发语言·人工智能·深度学习·yolo·目标检测·机器学习
q_354888515310 小时前
机器学习:python共享单车数据分析系统 可视化 Flask框架 单车数据 骑行数据 大数据 机器学习 计算机毕业设计✅
人工智能·python·机器学习·数据分析·flask·推荐算法·共享单车
2301_7821299510 小时前
从消耗品到资产:构建你的“认知资本”与自我成长的AI系统
人工智能·chatgpt
人工智能AI技术10 小时前
【Agent从入门到实践】22 LLM的局限性:Agent开发中需要规避的坑
人工智能·python
Hcoco_me10 小时前
大模型面试题83:ViT一般怎么进行预训练?
人工智能·深度学习·机器学习·chatgpt·机器人
叫我辉哥e110 小时前
新手进阶Python:办公看板集成OA自动化+AI提醒+定时任务
人工智能·python·自动化
xiao5kou4chang6kai410 小时前
只是把AI当作一个更聪明的搜索工具??如何用大语言模型高效整合信息并把研究想法快速转化为可发表成果
人工智能·自然语言处理·llm·大语言模型·n8n自动化