大模型llama结构技术点分享;transformer模型常见知识点nlp面经

1、大模型llama3技术点

参考:https://www.zhihu.com/question/662354435/answer/3572364267

Llama1-3,数据tokens从1-2T到15T;使用了MHA(GQA缓存);上下文长度从2-4-8K;应用了强化学习对其。

  • 1、pretraining((1) 初始预训练,(2) 长上下文预训练,以及 (3)

    退火(Annealing))+posttraing(SFT+DPO)

  • 2、合成数据应用

  • 3、Norm函数:RMSNorm,Norm结构:Pre-Norm,Self Attention: Grouped Query Attention(GQA) ,Position编码:ROPE,FFN结构:SwiGLU

Norm函数:RMSNorm

Norm结构:Pre-Norm

Self Attention: Grouped Query Attention(GQA)Position编码:ROPE

FFN结构:SwiGLU

2、transformer模型常见知识点

大模型面经:

https://docs.qq.com/doc/DSGtaUUpydFBEd2FC

相关推荐
中杯可乐多加冰1 小时前
OpenClaw到底能做什么?有什么用?先装这几个实用的Skills
人工智能
千寻girling1 小时前
一份不可多得的 《 Python 》语言教程
人工智能·后端·python
aircrushin4 小时前
从春晚看分布式实时协同算法与灵巧手工程实现
人工智能·机器人
恋猫de小郭4 小时前
Apple 的 ANE 被挖掘,AI 硬件公开,宣传的 38 TOPS 居然是"数字游戏"?
前端·人工智能·ios
银河系搭车客指南4 小时前
AI Agent 的失忆症:我是怎么给它装上"第二个大脑"的
人工智能
张拭心4 小时前
春节后,有些公司明确要求 AI 经验了
android·前端·人工智能
我的username4 小时前
极致简单的openclaw安装教程
人工智能
小锋java12344 小时前
【技术专题】嵌入模型与Chroma向量数据库 - Chroma 集合操作
人工智能
七月丶4 小时前
别再手动凑 PR 了:这个 AI Skill 会按仓库习惯自动建分支、拆提交、提 PR
人工智能·设计模式·程序员
用户5191495848455 小时前
CVE-2024-10793 WordPress插件权限提升漏洞利用演示
人工智能·aigc